AI_07_分类评估、聚类_04_K-Means聚类

K-Means属于无监督的机器学习。

K-Means把数据分成K类，到同一类中心的数据的距离最小，到不是同一类中心的距离比较远。在工程上，K值到底选择几是需要解决的问题，同时K个中心点选在什么地方也是另外一个需要解决的问题。这样的话，选择不同的K，计算100次可能出现100个不同的结果！！！

由于K-Means在K选择上的需要解决的问题，所以在工程上K-Means++用的比较多！！！

AI_07_分类评估、聚类_04_K-Means聚类

K-Means的目标函数（或者叫做损失函数）

MSE ：Mean Square Error ，均方误差

AI_07_分类评估、聚类_04_K-Means聚类

每一小堆的的损失函数

AI_07_分类评估、聚类_04_K-Means聚类

聚类的本质，类别内部的点距离尽可能小，类别和类别之间的距离尽可能大。

K-Means的K个中心点默认随机，（1）K-Means++的K个中心点更均匀，（2）K-Means++的K个中心点是通过“试”来确定的，或者说是通过“肘部法”来确定的，这样“试”的计算的代价是挺大的。因为K-Means的算法本身是迭代的，K-Means++要是在确定K的位置的时候外层再加上一层迭代，这样的计算量指数级增大！！！

K均值损失函数的推导。

求最小=》求导数为0的点=》求导数为0的点的计算公式是求一个均值！

多元线性回归时候，m个样本整体符合一个高斯分布，公式步步推导，只要求一个谷底，就是求一个倒数为0的点，即为解析解！！！

聚类，分成K个类别之后，每个类别符合高斯分布

K均值假设了高斯混合模型，也有适用场景的！！！

AI_07_分类评估、聚类_04_K-Means聚类

AI_07_分类评估、聚类_04_K-Means聚类

相关推荐