非监督学习——高斯混合模型与聚类验证

目录

高斯混合模型:

sklearn高斯混合模型:

高斯混合模型总结:

高斯混合模型附录:

聚类分析过程:

聚类验证:

外部评价指标:

内部评价指标:


高斯混合模型:

1、温和的聚类算法,这种聚类算法假定每个类都遵循特定的统计分布。

2、步骤:

  • 初始化K个高斯分布
  • 将数据集聚类成我们初始化的两个高斯——期望步骤或E步骤
  • 基于软聚类重新估计高斯——最大化或M步骤
  • 评估对数似然来检查收敛,收敛——>输出结果
  • 不收敛——>返回第二步骤,直至收敛为止。

3、具体操作流程:

  • 初始化:在数据集上使用K-Means生成聚类。
  • 非监督学习——高斯混合模型与聚类验证非监督学习——高斯混合模型与聚类验证
  • 非监督学习——高斯混合模型与聚类验证非监督学习——高斯混合模型与聚类验证

非监督学习——高斯混合模型与聚类验证

  • 非监督学习——高斯混合模型与聚类验证,求此式的最大化,数值越高,越能确定生成的混合模型可以负责创建数据,或者适合数据集。其中,k是聚类有关的混合系数。

sklearn高斯混合模型:

非监督学习——高斯混合模型与聚类验证

高斯混合模型总结:

1、优缺点:

优点:

  • 提供软聚类(软聚类是多个聚类的示例性隶属度)
  • 聚类的外观具有灵活性

缺点:

  • GMM聚类对初始化值很敏感
  • 可能收敛到局部最优
  • 收敛速度慢

高斯混合模型附录:

 视频:https://www.youtube.com/watch?v=lLt9H6RFO6A

聚类分析过程:

Data——>特征选择和特征提取——>选择一个聚类方法——>聚类评价——>聚类结果解释。

  • 特征选择是从一组候选特种中选择特征。特征提取是对数据进行转换以生成新的有用特征。
  • 聚类方法:可以用欧式距离,如果数据是文档或词嵌入,临近度度量将是余弦距离。
  • 聚类评价:评分方法被称为指数。

非监督学习——高斯混合模型与聚类验证

聚类验证:

1、聚类验证是客观和定量评估聚类结果的过程。

2、聚类评价指数有三种:(所有外部指标都能作为相对指标)

  • 外部指标:处理有标签数据时使用的评分
  • 内部指标:仅使用数据来衡量数据和结构之间的吻合度。
  • 相对指标:表明两个聚类结构中哪一个在某种意义上更好。

3、大多数评价指标是通过紧凑性和可分性来定义的。

  • 紧凑性:衡量一个聚类中的元素彼此之间的距离。
  • 可分性:表示不同聚类之间的距离。

外部评价指标:

非监督学习——高斯混合模型与聚类验证,a:在聚类C与聚类K中都是同类元素的对数,不考虑哪个聚类的标签。b:在聚类C与聚类K中都是不同类别的元素。

非监督学习——高斯混合模型与聚类验证

非监督学习——高斯混合模型与聚类验证

内部评价指标:

范围(-1, 1),非监督学习——高斯混合模型与聚类验证,a:同一个聚类中到其他的样本的平均距离,b:与它距离最近的不同聚类中到样本的平均距离。

非监督学习——高斯混合模型与聚类验证。其中DBSCAN不要使用轮廓系数。

非监督学习——高斯混合模型与聚类验证

非监督学习——高斯混合模型与聚类验证

非监督学习——高斯混合模型与聚类验证

非监督学习——高斯混合模型与聚类验证

非监督学习——高斯混合模型与聚类验证