【数据挖掘】聚类 Cluster 矩阵转换数据矩阵 -> 相似度矩阵 ( 聚类数据类型 | 区间标度型变量及标准化 | 相似度计算 | 明科斯基距离 | 曼哈顿距离

文章目录

I . 聚类数据类型
II . 区间标度型变量
III . 区间标度型变量标准化
IV . 区间标度型变量标准化 ( 1 ) 计算所有数据的平均值
V . 区间标度型变量标准化 ( 2 ) 计算平均绝对偏差
VI . 区间标度型变量标准化 ( 3 ) 计算标准化度量值
VII . 区间标度型变量标准化 ( 4 ) 属性标准化示例
VIII . 相似度计算 ( 1 ) 明科斯基距离
IX . 相似度计算 ( 2 ) 曼哈顿距离
X . 相似度计算 ( 3 ) 欧几里得距离

I . 聚类数据类型

聚类数据类型 :

① 区间标度变量 : 由数值和单位组成 , 如 , 168 $cm$ , 30 $^{o}C$ , 等值 ;

② 二元变量 :

③ 标称型变量 :

④ 序数型变量 :

⑤ 比例标度型变量 :

⑥ 混合型变量 :

II . 区间标度型变量

1 . 区间标度型变量 :

① 举例 : 重量 , 高度 , 长度 , 距离 , 经纬度 , 温度 , 气压等由数值和刻度单位组成的变量 ;

② 度量单位影响 : 区间标度型变量采用的度量单位 , 直接影响聚类的分组结果 , 如身高使用米 , 厘米 , 毫米 , 作为单位 , 其数值的数量级都不同 ;

③ 数据标准化 : 为了避免度量单位对聚类分析结果的影响 , 将数据进行标准化操作 , 将数值 + 单位组成的标度型变量 , 规范化为单纯由数值表示的值 ;

III . 区间标度型变量标准化

1 . 数据标准化 : 对于区间标度型变量 $f$ , 消除其单位对聚类分析结果的影响 , 需要对齐进行标准化 ;

2 . 数据标准化过程 :

① 计算所有样本 $f$ 属性的平均值 ;

② 计算平均绝对偏差值 ;

③ 计算标准化度量值 ;

IV . 区间标度型变量标准化 ( 1 ) 计算所有数据的平均值

计算所有数据的平均值 : 假设数据集有 $n$ 个样本 , 将样本 $x$ 的 $f$ 属性值变量相加除以 $n$ 取平均值 ;

$m_f = \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} )$

$n$ 表示数据集样本的个数 ;

$m_f$ 表示 $n$ 个样的 $f$ 属性的平均值 ;

$x_i$ 表示第 $i$ 个样本 ;

$x_{nf}$ 表示第 $n$ 个样本的 $f$ 属性的值 , $x_{1f}$ 表示第 $1$ 个样本的 $f$ 属性 , $x_{2f}$ 表示第 $2$ 个样本的 $f$ 属性 ;

V . 区间标度型变量标准化 ( 2 ) 计算平均绝对偏差

1 . 计算平均绝对偏差 : 每个样本的 $f$ 属性减去所有样本的 $f$ 属性平均值 , 然后这个差取绝对值 , 将 $n$ 个样本的 $f$ 属性与平均值的差 的 绝对值 相加 , 然后再 取其平均值 , 即 平均绝对偏差 ;

① 样本偏差 : 计算单个样本的 $f$ 属性与所有样本的 $f$ 平均值的差 , 该值可能是正数 , 可能是负数 , 也可能是 0 ;

② 样本绝对偏差 : 将上面计算的符号 ( 正负号 ) 位置的样本偏差取绝对值 ;

③ 平均绝对偏差 : 将 $n$ 个样本的绝对偏差相加 , 处于 $n$ 取平均值 , 即可得到平均绝对偏差 ;

2 . 平均绝对偏差公式如下 :

$S_f = \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | )$

$S_f$ 表示平均绝对偏差 ;

$| x_1f - m_f |$ 表示第 $1$ 个样本的 $f$ 属性值 , 减去平均值后的绝对值 ;

VI . 区间标度型变量标准化 ( 3 ) 计算标准化度量值

1 . 计算标准化度量值 : 进行 Z-Score 变换 , 这是数据标准化处理的常用方法 ;

2 . Z-Score 变换公式如下 : 根据每个样本的 $f$ 属性值 , 样本的 $f$ 属性平均值 , 平均绝对偏差 $S_f$ , 计算出每个样本的 $f$ 属性标准化后的值 ;

$Z_{if} = \frac{x_{if} - m_f}{S_f}$

$Z_{if}$ 表示数据样本标准化后的属性值 , 该属性值只有数值 , 没有单位 ;

$x_{if}$ 表示第 $i$ 个样本的 $f$ 属性值 ;

$m_f$ 表示 $n$ 个样的 $f$ 属性的平均值 ;

$S_f$ 表示平均绝对偏差 ;

3 . 样本数据属性标准化本质 : 获取数据集中的 单个样本属性 与 平均属性 的偏差 , 相对于 平均绝对偏差 的比值 ; 最终的本质是 偏差的比值 ; 根据偏差确定样本的相似度 ;

VII . 区间标度型变量标准化 ( 4 ) 属性标准化示例

已知 : $3$ 个样本数据 , 代表 $3$ 个人 , 身高属性分别是 145 $cm$ , 180 $cm$ , 165 $cm$ , 将其标准化 ;

1 . 计算平均值 :

$\begin{array}{lcl} m_f &=& \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} )\\\\ &=& \dfrac{145 + 180 + 165}{3}\\\\ &\approx& 163.333 \end{array}$

平均值计算结果是 $163.333$ ;

2 . 计算平均绝对偏差 :

$\begin{array}{lcl} S_f &=& \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | )\\\\ &=&\dfrac{|145 - 163.333| + |180 - 163.333| + |165 - 163.333| }{3}\\\\ &=&\dfrac{18.333 + 16.667‬ + 1.667 }{3}\\\\ &=&\dfrac{36.667‬ }{3}\\\\ &\approx& 12.222 \end{array}$

平均绝对偏差值计算结果是 $12.222$ ;

3 . Z-Score 标准化 :

① 样本 $1$ 身高 145 $cm$ 标准化 : 标准化后的值为 $-1.5$ , 没有单位只有一个数值 ;

$\begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{145 - 163.333}{12.222}\\\\ &=&\dfrac{-18.333‬}{12.222}\\\\ &=& -1.5 \end{array}$

② 样本 $2$ 身高 180 $cm$ 标准化 : 标准化后的值为 $1.364$ , 没有单位只有一个数值 ;

$\begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{180 - 163.333}{12.222}\\\\ &=&\dfrac{16.667‬}{12.222}\\\\ &\approx& 1.364 \end{array}$

③ 样本 $3$ 身高 165 $cm$ 标准化 : 标准化后的值为 $0.136$ , 没有单位只有一个数值 ;

$\begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{165 - 163.333}{12.222}\\\\ &=&\dfrac{1.667‬}{12.222}\\\\ &\approx& 0.136 \end{array}$

4 . 标准化结果 : $3$ 个样本数据 , 代表 $3$ 个人 , 身高属性分别是 145 $cm$ , 180 $cm$ , 165 $cm$ , 将其标准化后的值分别是 : $-1.5 , 1.364 , 0.136$

VIII . 相似度计算 ( 1 ) 明科斯基距离

1 . 对象相似度 ( 相异度 ) 计算 : 根据 两个样本对象之间的距离 计算 , 通常使用明科斯基距离公式进行计算 ;

2 . 明科斯基距离计算公式 :

$d(i, j) = \sqrt [q] { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q }$

$d(i, j)$ 表示两个样本之间的距离 , 明科斯基距离 ;

$q$ 是一个系数 , 取值 $\{1 , 2 , \cdots\}$ ; 该取值很重要 , 不同取值衍生出不同的公式 ;

$p$ 表示属性的个数 , 每个样本有 $p$ 个属性 ;

$i$ 和 $j$ 表示两个样本的索引值 , 取值范围是 $\{1 , 2, \cdots , q\}$ ;

$x_{ip} - x_{jp}$ 表示两个样本第 $p$ 个属性值的差值 , $x_{i1} - x_{j1}$ 表示两个样本第 $1$ 个属性值的差值 , $x_{i2} - x_{j2}$ 表示两个样本第 $2$ 个属性值的差值 ;

$|x_{ip} - x_{jp}|$ 表示两个样本第 $p$ 个属性值的差值的绝对值 , $|x_{i1} - x_{j1}|$ 表示两个样本第 $1$ 个属性值的差值的绝对值 , $|x_{i2} - x_{j2}|$ 表示两个样本第 $2$ 个属性值的差值的绝对值 ;

最外层计算 ( $q$ 次方根 ) : 最终计算需要求 $( { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } )$ 的 $q$ 次方根 ;

IX . 相似度计算 ( 2 ) 曼哈顿距离

1 . 曼哈顿距离 : 明科斯基距离计算很复杂 , 尤其是 $q$ 取值很大时 , 因此该公式并不常用 , 通常情况下会将 $q$ 取值为 $1$ , 或 $2$ , 当 $q = 1$ 时 , 该距离又称为 曼哈顿距离 ;

2 . 曼哈顿距离公式如下 :

$d(i, j) = | x_{i1} - x_{j1} | + | x_{i2} - x_{j2} | + \cdots + | x_{ip} - x_{jp} |$

$d(i, j)$ 表示两个样本之间的距离 , 曼哈顿距离 ;

$p$ 表示属性的个数 , 每个样本有 $p$ 个属性 ;

$i$ 和 $j$ 表示两个样本的索引值 , 取值范围是 $\{1 , 2, \cdots , q\}$ ;

3 . 曼哈顿距离与明科斯基距离 :

① 去掉了外层 $q$ 次方跟计算 : $q = 1$ 时 , 外层开 $1$ 次方根 , 直接将 $q$ 次方根计算的根号去掉即可 ;

② 去掉了样本差的指数计算 : 计算 $| x_{i1} - x_{j1} |$ 值的 $1$ 次方 , 也可以取消 $q$ 次方的指数计算 ;

4 . 曼哈顿距离图示 : 曼哈顿的街道都是横平竖直的 , 从 $A$ 点到 $B$ 点 , 一般就是其 $x$ 轴坐标差加上其 $y$ 轴坐标差 , 即 $x + y$ ;

X . 相似度计算 ( 3 ) 欧几里得距离

1 . 欧几里得距离 : 明科斯基距离计算很复杂 , 尤其是 $q$ 取值很大时 , 因此该公式并不常用 , 通常情况下会将 $q$ 取值为 $1$ , 或 $2$ , 当 $q = 2$ 时 , 该距离又称为 欧几里得距离 ;

2 . 欧几里得距离公式如下 :

$d(i, j) = \sqrt { | x_{i1} - x_{j1} | ^2 + | x_{i2} - x_{j2} | ^2 + \cdots + | x_{ip} - x_{jp} | ^2 }$

$d(i, j)$ 表示两个样本之间的距离 , 明科斯基距离 ;

$p$ 表示属性的个数 , 每个样本有 $p$ 个属性 ;

$i$ 和 $j$ 表示两个样本的索引值 , 取值范围是 $\{1 , 2, \cdots , q\}$ ;

3 . 欧几里得距离图示 :从 $A$ 点到 $B$ 点的实际直线距离 , 即 $z$ 距离 ;

欧氏空间 : 可以计算欧几里得距离的空间 , 叫做欧氏空间 ;

4 . 欧几里得距离属性 :

① 样本之间的距离非负 : $d(i, j) \geq 0$ , 欧几里得距离是先求平方和 , 再开根号 , 这个值一定是一个大于等于 $0$ 的数值 ;

② 样本与其本身的距离为 $0$ : $d(i, i) = 0$ , 一个样本与其本身的相似度值肯定为 $0$ , 因为其属性值完全相同 ;

③ 对称性 : $d(i , j) = d(j , i)$ , 样本 $i$ 与样本 $j$ 的相似度 , 肯定等于样本 $j$ 与样本 $i$ 的相似度 ;

④ 三角不等式 : 两边之和 , 一定大于第三边 , $d(i , j) \leq d(i , l) + d(l , j)$ , 从第 $i$ 个样本到第 $j$ 个样本的 直接距离 , 小于等于其途径任何样本 $l$ 生成的的两个距离之和 $d(i , l) + d(l , j)$ , 这两个距离分别是样本 $i$ 到样本 $l$ 的距离 $d(i , l)$ , 和样本 $l$ 到样本 $j$ 的距离 $d(l , j)$ ;

5 . 属性权重 : 计算时 , 有些属性可能很重要 , 有些属性不重要 , 可以为样本的不同属性 , 赋予不同的权重 , $w_i$ ;

公式变为 :

$d(i, j) = \sqrt { w_1 | x_{i1} - x_{j1} | ^2 + w_2 | x_{i2} - x_{j2} | ^2 + \cdots + w_p | x_{ip} - x_{jp} | ^2 }$

其中 $w_1$ 表示属性 $1$ 的权重 , $w_2$ 表示属性 $2$ 的权重 , $w_p$ 表示属性 $p$ 的权重 ;

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 -> 相似度矩阵 ( 聚类数据类型 | 区间标度型变量及标准化 | 相似度计算 | 明科斯基距离 | 曼哈顿距离 | 欧几里得距离 )

文章目录

I . 聚类数据类型

II . 区间标度型变量

III . 区间标度型变量 标准化

IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值

V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差

VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值

VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例

VIII . 相似度计算 ( 1 ) 明科斯基距离

IX . 相似度计算 ( 2 ) 曼哈顿距离

X . 相似度计算 ( 3 ) 欧几里得距离

相关推荐

【数据挖掘】聚类 Cluster 矩阵转换数据矩阵 -> 相似度矩阵 ( 聚类数据类型 | 区间标度型变量及标准化 | 相似度计算 | 明科斯基距离 | 曼哈顿距离 | 欧几里得距离 )

III . 区间标度型变量标准化

IV . 区间标度型变量标准化 ( 1 ) 计算所有数据的平均值

V . 区间标度型变量标准化 ( 2 ) 计算平均绝对偏差

VI . 区间标度型变量标准化 ( 3 ) 计算标准化度量值

VII . 区间标度型变量标准化 ( 4 ) 属性标准化示例