数据挖掘 第二章:数据

数据有哪些属性(详细解析),数据的经典统计方法
相似度和相似性的度量(欧式距离、曼哈顿距离、闵可夫斯距离、切比雪夫距离)

数据的属性(标题+解释)
应用:数据的基本统计方法
相似度、相异性(麦哈顿距离,相似性的度量)

一、数据对象与属性类别
属性的定义:属性是一个数据字段,表示数据对象的特征。
属性的分类:标称属性、二元属性、序数属性、数值属性

  • 1.标称属性的值是一些符号或事物的名称,每个值代表某种类别、编码或状态,因此标称属性又可称为是分类的。眼球颜色和性别都是标称属性。
  • 2.二元属性是标称属性的一种特殊情况,它只有两个类别和状态:0和1,0表示该属性不出现,1表示出现。是否患癌症。
  • 3.序数属性的属性值之间存在等级关系。在序数属性中,其可能的值之间具有有意义的序或秩判定。顾客满意度评分等级:0-5
  • 4.数值属性是定量的,即它是可度量的量,用整数或实数值表示。

二、数据基本统计描述
数据的中心趋势度量+数据散布度量+数据的图形表示

1.中心趋势度量

(1)均值(平均数),截尾均值(去掉两端的极值后计算的算术平均数)
(2)加权算术均值
(3)中位数,从低到高排序后,取中间那个数。
分组中位数:
L代表中位数所在组的下限,Sm-1表示中位数所在组以下各组的累计次数,fm表示中位数所在组的频率,d代表中位数所在组的组距。
数据挖掘 第二章:数据
(4).众数
(5).中列数:最大值和最小值的算术平均数。

2.数据散布度量
极差 + 分位数 + 四分位数 + 方差 + 标准差
(1)极差:最大值和最小值的差
(2)分位数:把数据分成大小相等的连贯集。
四分位数:3个数据点(Q1,Q2,Q3)把数据分成4个相等的部分
Q1:较小四分位数,Q2:中位数,Q3:较大四分位数。
四分位极差:IQR = Q3 - Q1
(3)方差和标准差
方差:衡量随机变量或一组数据离散程度的度量。方差是各个数据分别与其平均数之差的平方的和的平均数。
标准差是方差的平方根。

3.数据的图形表示
箱图+饼图+频率直方图+散点图

4.数据的相似性和相异性度量

(1)数据矩阵与相异性矩阵

数据矩阵:对象-属性结构,mn(m个对象,n个属性),行代表对象,列代表属性。
相异性矩阵: 对象-对象矩阵,n个对象两两之间的临近度。n
n的矩阵表示,两个对象越相似,其值越接近0.d(i,j) = d(j,i). d(i,i)=0
许多聚类和最近邻算法都是在相异性矩阵上进行的,使用之前,先把数据矩阵转换成相异性矩阵。