数据挖掘第二章：数据

数据有哪些属性（详细解析），数据的经典统计方法
相似度和相似性的度量（欧式距离、曼哈顿距离、闵可夫斯距离、切比雪夫距离）

数据的属性（标题+解释）
应用：数据的基本统计方法
相似度、相异性（麦哈顿距离，相似性的度量）

一、数据对象与属性类别
属性的定义：属性是一个数据字段，表示数据对象的特征。
属性的分类：标称属性、二元属性、序数属性、数值属性

1.标称属性的值是一些符号或事物的名称，每个值代表某种类别、编码或状态，因此标称属性又可称为是分类的。眼球颜色和性别都是标称属性。
2.二元属性是标称属性的一种特殊情况，它只有两个类别和状态：0和1，0表示该属性不出现，1表示出现。是否患癌症。
3.序数属性的属性值之间存在等级关系。在序数属性中，其可能的值之间具有有意义的序或秩判定。顾客满意度评分等级：0-5
4.数值属性是定量的，即它是可度量的量，用整数或实数值表示。

二、数据基本统计描述
数据的中心趋势度量+数据散布度量+数据的图形表示

1.中心趋势度量

（1）均值（平均数），截尾均值（去掉两端的极值后计算的算术平均数）
（2）加权算术均值
（3）中位数，从低到高排序后，取中间那个数。
分组中位数：
L代表中位数所在组的下限，Sm-1表示中位数所在组以下各组的累计次数，fm表示中位数所在组的频率，d代表中位数所在组的组距。
数据挖掘第二章：数据
（4）.众数
（5）.中列数：最大值和最小值的算术平均数。

2.数据散布度量
极差 + 分位数 + 四分位数 + 方差 + 标准差
（1）极差：最大值和最小值的差
（2）分位数：把数据分成大小相等的连贯集。
四分位数：3个数据点（Q1，Q2，Q3）把数据分成4个相等的部分
Q1：较小四分位数，Q2：中位数，Q3：较大四分位数。
四分位极差：IQR = Q3 - Q1
（3）方差和标准差
方差：衡量随机变量或一组数据离散程度的度量。方差是各个数据分别与其平均数之差的平方的和的平均数。
标准差是方差的平方根。

3.数据的图形表示
箱图+饼图+频率直方图+散点图

4.数据的相似性和相异性度量

（1）数据矩阵与相异性矩阵

数据矩阵：对象-属性结构，mn(m个对象，n个属性)，行代表对象，列代表属性。
相异性矩阵： 对象-对象矩阵，n个对象两两之间的临近度。nn的矩阵表示，两个对象越相似，其值越接近0.d(i,j) = d(j,i). d(i,i)=0
许多聚类和最近邻算法都是在相异性矩阵上进行的，使用之前，先把数据矩阵转换成相异性矩阵。

数据挖掘 第二章：数据

相关推荐

数据挖掘第二章：数据