02丨学习数据挖掘的最佳路径
- 数据挖掘知识清单 :
- 数据挖掘基本流程(6个步骤):
-
商业理解:从商业的角度理解项目需求,再对数据挖掘的目标进行定义,就是搞清楚自己这个项目的确切的意义和目标。
-
数据理解:对部分数据进行探索理解,使得你对于你收集到的数据有一个初步的认知。
-
数据准备:搜集源数据,并对数据进行清洗 数据集成等操作即预处理过程
-
模型建立:选择合适的数据挖掘模型,并按实际的优化,得到更好的分类结果。
-
模型评估:检查构建模型的步骤,最后判断模型是否达到预期的需求。
-
上线发布:发布后后续的监控和维护。
- 数据挖掘的十大算法(ICDM):
-
分类算法:C4.5, 朴素贝叶斯(Naive Bayes), SVM, KNN, Adaboost, CART
-
聚类算法:K-means, EM
-
关联分析:Apriori
-
连接分析:PageRank
-
C4.5:决策树算法,十大算法之首,创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理
-
朴素贝叶斯(Naive Bayes):基于概率论原理,思想:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于那个分类。
-
SVM(Support Vector Machine):支持向量机,SVM 在训练中建立了一个超平面的分类模型。
-
KNN(K-Nearest Neighbor):k近邻,每个样本都可以用它最接近的K个邻居来表示。如果一个样本,他的最接近的邻居都属于A类,那么它也是属于A类。
-
AdaBoost:在训练中建立了一个联合的分类算法,所以Adaboost是一个构建分类器的提升算法,让多个弱分类器组成一个强的分类器。是一个常用的分类算法。
-
CART:分类树和回归树,也是决策树学习方法,但是两棵树。
-
K-Means:聚类算法,思想:目标是把物体分成K类。假设每类都有个中心点。他是这个类核心,当有新点加入时,只要计算新点与中心点距离,距离那个越近就是那个类别。
-
EM:也叫最大期望算法,是求参数的最大似然估计的一种方法。原理:假设要评估参数A和参数B,初始状态二者都是未知,并且知道A信息就可以得到B的信息,反过来也是。可以考虑赋值A某个初值,得到B的估值,然后从B的估值出发,重新估计A的取值,直到持续到收敛为止。这个算法经常用于聚类和机器学习领域。
-
Apriori:是一种挖掘关联规则的算法,通过发掘频繁项集揭示物品之间的关联,广泛用于商业挖掘和网络安全中。频繁项集是指经常一起出现的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。
-
PageRank:源于论文影响力计算方式,Google创造性应用与网页权重的计算中:当一个页面链出的页面越多,说明这个页面的参考文献越多,当这个页面被链入频率越高,说明这个页面被引用次数越高。可以得到网站权重划分。
- 数据挖掘的数学原理:
-
概率论与数理统计
-
线性代数
-
图论:社交网络,六度理论
-
最优化方法