数据挖掘概述
数据挖掘
目录
数据驱动的决策支持
决策需要数据分析的支持
非客观的决策在管理上有重大作用
基于数据分析的决策,成为当前时代的话题
数据挖掘Data Ming
数据挖掘:数据挖掘(Data Mining,DM),是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。
数据挖掘是多门学科的汇总:
数据挖掘的流程
国际标准CRISP-DM
数据挖掘的四类问题
分类——聚类——关联——回归
(一)分类:确定一个特定的对象属于哪一类
常用算法:决策树、支持向量机(SVN),最近邻(KNN)、贝叶斯网络和神经网络
(二)聚类:根据相似性,把事物聚成簇。同簇之间的事物相似性较高;不同簇的事物之间相似性较差
常用算法:K-Means,BIRCH,DBSCAN,OPTICS等
(三)关联:描述而非预测性的方法,用来发现数据集背后,项集之间的关系
常用算法::Apriori,FP-growth
(四)回归:建立回归方程,用于预测今后因变量的变化
根据因变量和自变量的函数表达式分为:线性回归分析、非线性回归分析。
根据因变量和自变量的个数可分为:一元回归分析、多元回归分析、逻辑回归分析和其它回归分析等
:
目标
原理:了解数据挖掘概念,理解挖掘流程
方法:清楚常用算法原理,能在具体场合使用算法,并对算法进行评估和调优
工具:SPSS Modeler等数据分析工具
数据分析
统计分析
数据可视化
数据挖掘
机器学习
深度学习:处理图像、音频和文字等数据分析的热点和有效手段
行动学习 L=P+Q
知识化掌握、运用
数据分析与数据挖掘
数据分析:实现现状分析、原因分析、预测分析。目标明确,先做假设
数据挖掘:解决分类、聚类、关联和预测。寻找未知的模式和规律
数据分析的有效学习方式
- 掌握理论知识
- 学习优秀数据分析师的思路
- 参与新项目
- 参与企业的实际项目