02丨学习数据挖掘的最佳路径

数据挖掘知识清单：

02丨学习数据挖掘的最佳路径

数据挖掘基本流程（6个步骤）：

商业理解：从商业的角度理解项目需求，再对数据挖掘的目标进行定义，就是搞清楚自己这个项目的确切的意义和目标。
数据理解：对部分数据进行探索理解，使得你对于你收集到的数据有一个初步的认知。
数据准备：搜集源数据，并对数据进行清洗数据集成等操作即预处理过程
模型建立：选择合适的数据挖掘模型，并按实际的优化，得到更好的分类结果。
模型评估：检查构建模型的步骤，最后判断模型是否达到预期的需求。
上线发布：发布后后续的监控和维护。

数据挖掘的十大算法(ICDM)：
分类算法：C4.5, 朴素贝叶斯（Naive Bayes）， SVM, KNN, Adaboost, CART
聚类算法：K-means, EM
关联分析：Apriori
连接分析：PageRank

C4.5：决策树算法，十大算法之首，创造性地在决策树构造过程中就进行了剪枝，并且可以处理连续的属性，也能对不完整的数据进行处理
朴素贝叶斯（Naive Bayes）：基于概率论原理，思想：对于给出的未知物体想要进行分类，就需要求解在这个未知物体出现的条件下各个类别出现的概率，哪个最大，就认为这个未知物体属于那个分类。
SVM（Support Vector Machine）：支持向量机，SVM 在训练中建立了一个超平面的分类模型。
KNN（K-Nearest Neighbor）:k近邻，每个样本都可以用它最接近的K个邻居来表示。如果一个样本，他的最接近的邻居都属于A类，那么它也是属于A类。
AdaBoost:在训练中建立了一个联合的分类算法，所以Adaboost是一个构建分类器的提升算法，让多个弱分类器组成一个强的分类器。是一个常用的分类算法。
CART：分类树和回归树，也是决策树学习方法，但是两棵树。
K-Means：聚类算法，思想：目标是把物体分成K类。假设每类都有个中心点。他是这个类核心，当有新点加入时，只要计算新点与中心点距离，距离那个越近就是那个类别。
EM：也叫最大期望算法，是求参数的最大似然估计的一种方法。原理：假设要评估参数A和参数B，初始状态二者都是未知，并且知道A信息就可以得到B的信息，反过来也是。可以考虑赋值A某个初值，得到B的估值，然后从B的估值出发，重新估计A的取值，直到持续到收敛为止。这个算法经常用于聚类和机器学习领域。
Apriori:是一种挖掘关联规则的算法，通过发掘频繁项集揭示物品之间的关联，广泛用于商业挖掘和网络安全中。频繁项集是指经常一起出现的物品的集合，关联规则暗示两种物品之间可能存在很强的关系。
PageRank:源于论文影响力计算方式，Google创造性应用与网页权重的计算中：当一个页面链出的页面越多，说明这个页面的参考文献越多，当这个页面被链入频率越高，说明这个页面被引用次数越高。可以得到网站权重划分。

数据挖掘的数学原理：

概率论与数理统计
线性代数
图论：社交网络，六度理论
最优化方法

02丨学习数据挖掘的最佳路径

相关推荐