02丨学习数据挖掘的最佳路径

  • 数据挖掘知识清单 :

02丨学习数据挖掘的最佳路径

  • 数据挖掘基本流程(6个步骤):
  1. 商业理解:从商业的角度理解项目需求,再对数据挖掘的目标进行定义,就是搞清楚自己这个项目的确切的意义和目标。

  2. 数据理解:对部分数据进行探索理解,使得你对于你收集到的数据有一个初步的认知。

  3. 数据准备:搜集源数据,并对数据进行清洗 数据集成等操作即预处理过程

  4. 模型建立:选择合适的数据挖掘模型,并按实际的优化,得到更好的分类结果。

  5. 模型评估:检查构建模型的步骤,最后判断模型是否达到预期的需求。

  6. 上线发布:发布后后续的监控和维护。

  • 数据挖掘的十大算法(ICDM):
  • 分类算法:C4.5, 朴素贝叶斯(Naive Bayes), SVM, KNN, Adaboost, CART

  • 聚类算法:K-means, EM

  • 关联分析:Apriori

  • 连接分析:PageRank

  1. C4.5:决策树算法,十大算法之首,创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理

  2. 朴素贝叶斯(Naive Bayes):基于概率论原理,思想:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于那个分类。

  3. SVM(Support Vector Machine):支持向量机,SVM 在训练中建立了一个超平面的分类模型。

  4. KNN(K-Nearest Neighbor):k近邻,每个样本都可以用它最接近的K个邻居来表示。如果一个样本,他的最接近的邻居都属于A类,那么它也是属于A类。

  5. AdaBoost:在训练中建立了一个联合的分类算法,所以Adaboost是一个构建分类器的提升算法,让多个弱分类器组成一个强的分类器。是一个常用的分类算法。

  6. CART:分类树和回归树,也是决策树学习方法,但是两棵树。

  7. K-Means:聚类算法,思想:目标是把物体分成K类。假设每类都有个中心点。他是这个类核心,当有新点加入时,只要计算新点与中心点距离,距离那个越近就是那个类别。

  8. EM:也叫最大期望算法,是求参数的最大似然估计的一种方法。原理:假设要评估参数A和参数B,初始状态二者都是未知,并且知道A信息就可以得到B的信息,反过来也是。可以考虑赋值A某个初值,得到B的估值,然后从B的估值出发,重新估计A的取值,直到持续到收敛为止。这个算法经常用于聚类和机器学习领域。

  9. Apriori:是一种挖掘关联规则的算法,通过发掘频繁项集揭示物品之间的关联,广泛用于商业挖掘和网络安全中。频繁项集是指经常一起出现的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。

  10. PageRank:源于论文影响力计算方式,Google创造性应用与网页权重的计算中:当一个页面链出的页面越多,说明这个页面的参考文献越多,当这个页面被链入频率越高,说明这个页面被引用次数越高。可以得到网站权重划分。

  • 数据挖掘的数学原理:
  1. 概率论与数理统计

  2. 线性代数

  3. 图论:社交网络,六度理论

  4. 最优化方法