第二讲 学习数据挖掘的最佳路径
1. 什么是数据挖掘
例子:在大海中寻找石油,开采人员对地质做勘探,分析地质构造,从而发现石油位置,然后用开采工具,进行深度挖掘,直至打到石油。 例子:在大海中寻找石油,开采人员对地质做勘探,分析地质构造,从而发现石油位置,然后用开采工具,进行深度挖掘,直至打到石油。 大海就是数据源,石油就是分析的结果。数据挖掘工作就是分析这些数据,从庞大的数据中找到规律,发现宝藏。
2. 数据挖掘知识清单
(1)基本流程
- 商业理解:从商业的角度理解项目需求。
- 数据理解:收集部分数据,对数据进行描述、质量验证等,对收集的数据有个初步认知。
- 数据准备:收集数据,进行数据清洗、数据集成等操作,完成数据挖掘前的准备工作。
- 模型建立:选择和应用各种数据挖掘模型,并进行优化。
- 模型评估:对模型进行评价,检查构建模型的每个步骤,确认模型是否实现预定的商业目标。
- 上线发布:模型的作用是在数据中找到知识,需要转化成用户可以使用的方式。可以是报告或是数据挖掘过程。
(2)十大算法
在数据挖掘模型中,ICDM(the IEEE International Conference on Data Mining)评选出了十大经典算法:
按照目的,分成四类:
分类算法:
- C4.5
十大算法之首。是决策树的算法,在决策树构建过程中进行了剪枝,可以处理连续的属性,也能处理不完整的数据。 - 朴素贝叶斯(Naive Bayes)
基于概率论原理,对给定未知物体进行分类,需要求解在它出现的情况下,各个类别出现的概率,未知物体属于出现概率最大的类别。 - SVM(Support Vector Machine)
支持向量机。在训练中建立了一个超平面的分类模型。 - KNN(K-Nearest Neighbor)
K近邻算法。每个样本都可以用它最接近的K个邻居代表,如果K个邻居都属于分类A,则该样本也属于A。 - AdaBoost
在训练中建立一个联合的分类模型,是构建分类器的提升算法,将多个弱分类器组成一个强分类器。 - CART(Classification and Regression Trees)
分类树和回归树。是决策树算法。
聚类算法:
- K-Means
最终 将物体分成K类,每个类别里有一个中心点,如果将新点归类,就要计算新点与中心点的距离,离哪个近就是哪个类别。 - EM
最大期望算法,求参数的最大似然估计的方法。开始状态A,B两个参数未知,知道A的信息就可以得到B的信息,反过来也成立。首先赋给A一初值,得到B的估值,再从B的估值出发,重新估计A的取值,持续过程直至收敛。该算法常用于聚类和机器学习领域。
关联分析:
- Apriori
挖掘关联规则(association rules)的算法。通过挖掘频繁项集(frequent item sets)来揭示物品之间的关系,被广泛应用到商业挖掘和网络安全领域。
连接分析:
- PageRank
如果一篇论文被引次数越多,代表影响力越强。Google将其应用到了网页权重的计算中,可以得到网页的权重划分。
(3)数学原理
- 概率论与数理统计
数据挖掘重要数学基础 - 线性代数
向量和矩阵,基于矩阵的各种运算可以解决许多实际问题:PCA,SVD,MF,NMF等。 - 图论
对于网络分析非常有效,在关系挖掘和图像分割中有重要作用。 - 最优化方法
机器学习中自我学习的过程,当机器知道了目标,训练后如果与结果存在偏差就需要迭代调整,最优化就是调整的过程,用最短的时间得到收敛,取得更好的效果。
3. 总结与体会
在本节课中,了解了数据挖掘的流程,以及相关算法的大致含义和需要具备的数学知识。发现需要了解的知识有很多,需要今后一步一步学习。