非监督学习——高斯混合模型与聚类验证

高斯混合模型：

sklearn高斯混合模型：

高斯混合模型总结：

高斯混合模型附录：

高斯混合模型：

1、温和的聚类算法，这种聚类算法假定每个类都遵循特定的统计分布。

2、步骤：

初始化K个高斯分布
将数据集聚类成我们初始化的两个高斯——期望步骤或E步骤
基于软聚类重新估计高斯——最大化或M步骤
评估对数似然来检查收敛，收敛——>输出结果
不收敛——>返回第二步骤，直至收敛为止。

3、具体操作流程：

初始化：在数据集上使用K-Means生成聚类。
，
，

非监督学习——高斯混合模型与聚类验证

，求此式的最大化，数值越高，越能确定生成的混合模型可以负责创建数据，或者适合数据集。其中，k是聚类有关的混合系数。

sklearn高斯混合模型：

非监督学习——高斯混合模型与聚类验证

高斯混合模型总结：

1、优缺点：

优点：

提供软聚类（软聚类是多个聚类的示例性隶属度）
聚类的外观具有灵活性

缺点：

GMM聚类对初始化值很敏感
可能收敛到局部最优
收敛速度慢

高斯混合模型附录：

视频：https://www.youtube.com/watch?v=lLt9H6RFO6A

聚类分析过程：

Data——>特征选择和特征提取——>选择一个聚类方法——>聚类评价——>聚类结果解释。

特征选择是从一组候选特种中选择特征。特征提取是对数据进行转换以生成新的有用特征。
聚类方法：可以用欧式距离，如果数据是文档或词嵌入，临近度度量将是余弦距离。
聚类评价：评分方法被称为指数。

非监督学习——高斯混合模型与聚类验证

聚类验证：

1、聚类验证是客观和定量评估聚类结果的过程。

2、聚类评价指数有三种：（所有外部指标都能作为相对指标）

外部指标：处理有标签数据时使用的评分
内部指标：仅使用数据来衡量数据和结构之间的吻合度。
相对指标：表明两个聚类结构中哪一个在某种意义上更好。

3、大多数评价指标是通过紧凑性和可分性来定义的。

紧凑性：衡量一个聚类中的元素彼此之间的距离。
可分性：表示不同聚类之间的距离。

外部评价指标：

非监督学习——高斯混合模型与聚类验证，a：在聚类C与聚类K中都是同类元素的对数，不考虑哪个聚类的标签。b：在聚类C与聚类K中都是不同类别的元素。

非监督学习——高斯混合模型与聚类验证

内部评价指标：

范围（-1， 1），非监督学习——高斯混合模型与聚类验证，a：同一个聚类中到其他的样本的平均距离，b：与它距离最近的不同聚类中到样本的平均距离。

非监督学习——高斯混合模型与聚类验证。其中DBSCAN不要使用轮廓系数。

非监督学习——高斯混合模型与聚类验证

非监督学习——高斯混合模型与聚类验证

高斯混合模型：

sklearn高斯混合模型：

高斯混合模型总结：

高斯混合模型附录：

聚类分析过程：

聚类验证：

外部评价指标：

内部评价指标：

相关推荐