非监督学习——高斯混合模型与聚类验证
目录
高斯混合模型:
1、温和的聚类算法,这种聚类算法假定每个类都遵循特定的统计分布。
2、步骤:
- 初始化K个高斯分布
- 将数据集聚类成我们初始化的两个高斯——期望步骤或E步骤
- 基于软聚类重新估计高斯——最大化或M步骤
- 评估对数似然来检查收敛,收敛——>输出结果
- 不收敛——>返回第二步骤,直至收敛为止。
3、具体操作流程:
- 初始化:在数据集上使用K-Means生成聚类。
-
,
-
,
-
,求此式的最大化,数值越高,越能确定生成的混合模型可以负责创建数据,或者适合数据集。其中,k是聚类有关的混合系数。
sklearn高斯混合模型:
高斯混合模型总结:
1、优缺点:
优点:
- 提供软聚类(软聚类是多个聚类的示例性隶属度)
- 聚类的外观具有灵活性
缺点:
- GMM聚类对初始化值很敏感
- 可能收敛到局部最优
- 收敛速度慢
高斯混合模型附录:
视频:https://www.youtube.com/watch?v=lLt9H6RFO6A
聚类分析过程:
Data——>特征选择和特征提取——>选择一个聚类方法——>聚类评价——>聚类结果解释。
- 特征选择是从一组候选特种中选择特征。特征提取是对数据进行转换以生成新的有用特征。
- 聚类方法:可以用欧式距离,如果数据是文档或词嵌入,临近度度量将是余弦距离。
- 聚类评价:评分方法被称为指数。
聚类验证:
1、聚类验证是客观和定量评估聚类结果的过程。
2、聚类评价指数有三种:(所有外部指标都能作为相对指标)
- 外部指标:处理有标签数据时使用的评分
- 内部指标:仅使用数据来衡量数据和结构之间的吻合度。
- 相对指标:表明两个聚类结构中哪一个在某种意义上更好。
3、大多数评价指标是通过紧凑性和可分性来定义的。
- 紧凑性:衡量一个聚类中的元素彼此之间的距离。
- 可分性:表示不同聚类之间的距离。
外部评价指标:
,a:在聚类C与聚类K中都是同类元素的对数,不考虑哪个聚类的标签。b:在聚类C与聚类K中都是不同类别的元素。
内部评价指标:
范围(-1, 1),,a:同一个聚类中到其他的样本的平均距离,b:与它距离最近的不同聚类中到样本的平均距离。
。其中DBSCAN不要使用轮廓系数。