AI_07_分类评估、聚类_04_K-Means聚类

K-Means属于无监督的机器学习。

K-Means把数据分成K类,到同一类中心的数据的距离最小,到不是同一类中心的距离比较远。在工程上,K值到底选择几是需要解决的问题,同时K个中心点选在什么地方也是另外一个需要解决的问题。这样的话,选择不同的K,计算100次可能出现100个不同的结果!!!

 

AI_07_分类评估、聚类_04_K-Means聚类

AI_07_分类评估、聚类_04_K-Means聚类

AI_07_分类评估、聚类_04_K-Means聚类

 

由于K-Means在K选择上的需要解决的问题,所以在工程上K-Means++用的比较多!!!

AI_07_分类评估、聚类_04_K-Means聚类

AI_07_分类评估、聚类_04_K-Means聚类

K-Means的目标函数(或者叫做损失函数)

MSE :Mean Square Error ,均方误差

AI_07_分类评估、聚类_04_K-Means聚类

每一小堆的的损失函数

AI_07_分类评估、聚类_04_K-Means聚类

聚类的本质,类别内部的点距离尽可能小,类别和类别之间的距离尽可能大。

K-Means的K个中心点默认随机,(1)K-Means++的K个中心点更均匀,(2)K-Means++的K个中心点是通过“试”来确定的,或者说是通过“肘部法”来确定的,这样“试”的计算的代价是挺大的。因为K-Means的算法本身是迭代的,K-Means++要是在确定K的位置的时候外层再加上一层迭代,这样的计算量指数级增大!!!

K均值损失函数的推导。

求最小=》求导数为0的点=》求导数为0的点的计算公式是求一个均值!

多元线性回归时候,m个样本整体符合一个高斯分布,公式步步推导,只要求一个谷底,就是求一个倒数为0的点,即为解析解!!!

聚类,分成K个类别之后,每个类别符合高斯分布

K均值假设了高斯混合模型,也有适用场景的!!!

AI_07_分类评估、聚类_04_K-Means聚类

AI_07_分类评估、聚类_04_K-Means聚类

AI_07_分类评估、聚类_04_K-Means聚类

AI_07_分类评估、聚类_04_K-Means聚类