I . 聚类数据类型
聚类数据类型 :
① 区间标度变量 : 由 数值 和 单位组成 , 如 , 168 cm , 30 oC , 等值 ;
② 二元变量 :
③ 标称型变量 :
④ 序数型变量 :
⑤ 比例标度型变量 :
⑥ 混合型变量 :
II . 区间标度型变量
1 . 区间标度型变量 :
① 举例 : 重量 , 高度 , 长度 , 距离 , 经纬度 , 温度 , 气压 等由 数值 和 刻度单位 组成的变量 ;
② 度量单位影响 : 区间标度型变量 采用的 度量单位 , 直接影响聚类的分组结果 , 如身高使用 米 , 厘米 , 毫米 , 作为单位 , 其数值的数量级都不同 ;
③ 数据标准化 : 为了避免度量单位对聚类分析结果的影响 , 将数据进行标准化操作 , 将 数值 + 单位 组成的标度型变量 , 规范化为单纯由 数值 表示的值 ;
III . 区间标度型变量 标准化
1 . 数据标准化 : 对于 区间标度型变量 f , 消除其单位对聚类分析结果的影响 , 需要对齐进行标准化 ;
2 . 数据标准化过程 :
① 计算所有样本 f 属性的平均值 ;
② 计算平均绝对偏差值 ;
③ 计算标准化度量值 ;
IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值
计算所有数据的平均值 : 假设数据集有 n 个样本 , 将样本 x 的 f 属性值变量相加除以 n 取平均值 ;
mf=n1(x1f+x2f+⋯+xnf)
n 表示 数据集样本的个数 ;
mf 表示 n 个样的 f 属性的平均值 ;
xi 表示第 i 个样本 ;
xnf 表示第 n 个样本的 f 属性的值 , x1f 表示第 1 个样本的 f 属性 , x2f 表示第 2 个样本的 f 属性 ;
V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差
1 . 计算平均绝对偏差 : 每个样本的 f 属性减去 所有样本的 f 属性平均值 , 然后这个差取绝对值 , 将 n 个样本的 f 属性 与平均值的差 的 绝对值 相加 , 然后再 取其平均值 , 即 平均绝对偏差 ;
① 样本偏差 : 计算单个样本的 f 属性 与 所有样本的 f 平均值的差 , 该值可能是正数 , 可能是负数 , 也可能是 0 ;
② 样本绝对偏差 : 将上面计算的 符号 ( 正负号 ) 位置的样本偏差取绝对值 ;
③ 平均绝对偏差 : 将 n 个样本的绝对偏差相加 , 处于 n 取平均值 , 即可得到平均绝对偏差 ;
2 . 平均绝对偏差公式如下 :
Sf=n1(∣x1f−mf∣+∣x2f−mf∣+⋯+∣xnf−mf∣)
Sf 表示 平均绝对偏差 ;
∣x1f−mf∣ 表示第 1 个样本的 f 属性值 , 减去平均值后的绝对值 ;
VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值
1 . 计算标准化度量值 : 进行 Z-Score 变换 , 这是数据标准化处理的常用方法 ;
2 . Z-Score 变换公式如下 : 根据每个样本的 f 属性值 , 样本的 f 属性平均值 , 平均绝对偏差 Sf , 计算出每个样本的 f 属性标准化后的值 ;
Zif=Sfxif−mf
Zif 表示 数据样本 标准化 后的 属性值 , 该属性值只有数值 , 没有单位 ;
xif 表示第 i 个样本的 f 属性值 ;
mf 表示 n 个样的 f 属性的平均值 ;
Sf 表示 平均绝对偏差 ;
3 . 样本数据属性 标准化 本质 : 获取 数据集中的 单个样本属性 与 平均属性 的 偏差 , 相对于 平均绝对偏差 的 比值 ; 最终的本质是 偏差的比值 ; 根据偏差 确定 样本的相似度 ;
VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例
已知 : 3 个样本数据 , 代表 3 个人 , 身高属性分别是 145 cm , 180 cm , 165 cm , 将其标准化 ;
1 . 计算平均值 :
mf==≈n1(x1f+x2f+⋯+xnf)3145+180+165163.333
平均值计算结果是 163.333 ;
2 . 计算平均绝对偏差 :
Sf====≈n1(∣x1f−mf∣+∣x2f−mf∣+⋯+∣xnf−mf∣)3∣145−163.333∣+∣180−163.333∣+∣165−163.333∣318.333+16.667+1.667336.66712.222
平均绝对偏差值 计算结果是 12.222 ;
3 . Z-Score 标准化 :
① 样本 1 身高 145 cm 标准化 : 标准化后的值为 −1.5 , 没有单位只有一个数值 ;
Zif====Sfxif−mf12.222145−163.33312.222−18.333−1.5
② 样本 2 身高 180 cm 标准化 : 标准化后的值为 1.364 , 没有单位只有一个数值 ;
Zif===≈Sfxif−mf12.222180−163.33312.22216.6671.364
③ 样本 3 身高 165 cm 标准化 : 标准化后的值为 0.136 , 没有单位只有一个数值 ;
Zif===≈Sfxif−mf12.222165−163.33312.2221.6670.136
4 . 标准化结果 : 3 个样本数据 , 代表 3 个人 , 身高属性分别是 145 cm , 180 cm , 165 cm , 将其标准化后的值分别是 : −1.5,1.364,0.136
VIII . 相似度计算 ( 1 ) 明科斯基距离
1 . 对象相似度 ( 相异度 ) 计算 : 根据 两个 样本对象 之间的 距离 计算 , 通常使用 明科斯基 距离 公式进行计算 ;
2 . 明科斯基 距离 计算公式 :
d(i,j)=q∣xi1−xj1∣q+∣xi2−xj2∣q+⋯+∣xip−xjp∣q
d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;
q 是一个系数 , 取值 {1,2,⋯} ; 该取值很重要 , 不同取值衍生出不同的公式 ;
p 表示属性的个数 , 每个样本有 p 个属性 ;
i 和 j 表示两个 样本的索引值 , 取值范围是 {1,2,⋯,q} ;
xip−xjp 表示两个样本 第 p 个属性值 的差值 , xi1−xj1 表示两个样本 第 1 个属性值 的差值 , xi2−xj2 表示两个样本 第 2 个属性值 的差值 ;
∣xip−xjp∣ 表示两个样本 第 p 个属性值 的差值 的绝对值 , ∣xi1−xj1∣ 表示两个样本 第 1 个属性值 的差值 的绝对值 , ∣xi2−xj2∣ 表示两个样本 第 2 个属性值 的差值 的绝对值 ;
最外层计算 ( q 次方根 ) : 最终计算需要求 (∣xi1−xj1∣q+∣xi2−xj2∣q+⋯+∣xip−xjp∣q) 的 q 次方根 ;
IX . 相似度计算 ( 2 ) 曼哈顿距离
1 . 曼哈顿距离 : 明科斯基距离计算很复杂 , 尤其是 q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q 取值为 1 , 或 2 , 当 q=1 时 , 该距离又称为 曼哈顿距离 ;
2 . 曼哈顿距离 公式如下 :
d(i,j)=∣xi1−xj1∣+∣xi2−xj2∣+⋯+∣xip−xjp∣
d(i,j) 表示两个样本之间的距离 , 曼哈顿距离 ;
p 表示属性的个数 , 每个样本有 p 个属性 ;
i 和 j 表示两个 样本的索引值 , 取值范围是 {1,2,⋯,q} ;
xip−xjp 表示两个样本 第 p 个属性值 的差值 , xi1−xj1 表示两个样本 第 1 个属性值 的差值 , xi2−xj2 表示两个样本 第 2 个属性值 的差值 ;
3 . 曼哈顿距离 与 明科斯基距离 :
① 去掉了外层 q 次方跟计算 : q=1 时 , 外层开 1 次方根 , 直接将 q 次方根计算的根号去掉即可 ;
② 去掉了样本差的指数计算 : 计算 ∣xi1−xj1∣ 值的 1 次方 , 也可以取消 q 次方的指数计算 ;
4 . 曼哈顿距离图示 : 曼哈顿的街道都是横平竖直的 , 从 A 点到 B 点 , 一般就是其 x 轴坐标差 加上其 y 轴坐标差 , 即 x+y ;

X . 相似度计算 ( 3 ) 欧几里得距离
1 . 欧几里得距离 : 明科斯基距离计算很复杂 , 尤其是 q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q 取值为 1 , 或 2 , 当 q=2 时 , 该距离又称为 欧几里得距离 ;
2 . 欧几里得 距离 公式如下 :
d(i,j)=∣xi1−xj1∣2+∣xi2−xj2∣2+⋯+∣xip−xjp∣2
d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;
p 表示属性的个数 , 每个样本有 p 个属性 ;
i 和 j 表示两个 样本的索引值 , 取值范围是 {1,2,⋯,q} ;
xip−xjp 表示两个样本 第 p 个属性值 的差值 , xi1−xj1 表示两个样本 第 1 个属性值 的差值 , xi2−xj2 表示两个样本 第 2 个属性值 的差值 ;
3 . 欧几里得距离图示 :从 A 点到 B 点的实际直线距离 , 即 z 距离 ;

欧氏空间 : 可以计算欧几里得距离的空间 , 叫做欧氏空间 ;
4 . 欧几里得 距离 属性 :
① 样本之间的距离非负 : d(i,j)≥0 , 欧几里得 距离是先 求平方和 , 再开根号 , 这个值一定是一个大于等于 0 的数值 ;
② 样本与其本身的距离为 0 : d(i,i)=0 , 一个样本与其本身的 相似度值 肯定为 0 , 因为其属性值完全相同 ;
③ 对称性 : d(i,j)=d(j,i) , 样本 i 与 样本 j 的相似度 , 肯定等于 样本 j 与 样本 i 的相似度 ;
④ 三角不等式 : 两边之和 , 一定大于第三边 , d(i,j)≤d(i,l)+d(l,j) , 从 第 i 个样本到第 j 个样本的 直接距离 , 小于等于 其途径任何样本 l 生成的的两个距离之和 d(i,l)+d(l,j), 这两个距离分别是 样本 i 到 样本 l 的距离 d(i,l) , 和样本 l 到 样本 j 的距离 d(l,j) ;
5 . 属性权重 : 计算时 , 有些属性可能很重要 , 有些属性不重要 , 可以为样本的不同属性 , 赋予不同的权重 , wi ;
公式变为 :
d(i,j)=w1∣xi1−xj1∣2+w2∣xi2−xj2∣2+⋯+wp∣xip−xjp∣2
其中 w1 表示属性 1 的权重 , w2 表示属性 2 的权重 , wp 表示属性 p 的权重 ;