数据挖掘笔记(二)

主要是整理自己在数据挖掘课程上所做的一些笔记。
更多内容可以访问我的个人博客

数据预处理(data-preprocessing)


  • 数据预处理概论

(1)为什么要对数据进行处理
为了数据的质量:

不准确、不完整和不一致的数据在现实世界的数据库和数据仓库中很常见。
为了数据的实时性,实时性也影响数据质量(用户不及时更新数据)。
为了数据的可信度,可信度反映了用户对数据的信任程度。
为了数据的可解释性,可解释性反映了对数据的理解难易程度。

预处理方法:

(1)数据清洗(Data Cleaning)

(1)处理缺失的值

(2)处理噪音数据

(2)数据整合(Data Integration)

(1)冗余与相关性分析

(3)数据缩减(Data Reduction)

(1)维度约减

(2)数度约减

(3)数据压缩

(4)数据转化和数据离散化(Data Transformation and Data Discretization)


  • 数据清洗(Data Cleaning)

处理缺失的值,平滑噪音数据,识别或者移除极端值,解决不一致问题

(1)处理缺失的值

1.直接忽略这个元组
2.人工填补缺失值
3.使用一个全局的常量进行填补(Unknown或者负无穷-∞)
4.使用表示数据中心倾向的数值(平均数或者中位数)进行填充
5.使用属于同一类的所有值的平均值或者中位数进行填充
6.使用最可能的值填充(使用贝叶斯公式得到最可能的值,或根据决策树等基于推理回归的方法)

(2)处理噪音数据:噪声数据是测量变量中的随机误差。

使用平滑技术去除噪音数据,许多平滑方法也用于数据离散化(数据转换的一种形式)和数据约简。
(1)分箱
使用箱平均数进行平滑
使用箱中位数进行平滑
使用箱边界进行平滑

数据挖掘笔记(二)

(2)回归

(3)极端值分析(聚类)


  • 数据整合(Data Integration)

当集成来自多个源的数据时,可能会出现不一致冗余
(1)元数据(属性名、意义、数据类型、取值范围)可用于帮助避免模式集成中的错误。
(2)冗余与相关性分析

  1. 对于名词属性,(先对名词属性计数)使用卡方检验(卡方检验:检验两个属性之间是否独立)

卡方检验公式:(实际值) - (两者独立情况下的理论值) 的平方再除以后者,对所有值求和)

数据挖掘笔记(二)

  1. 对于数值属性,使用相关系数协方差

协方差:协方差是描述随机变量相互关联程度的一个特征数。是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望。由于偏差可正可负,因此协方差也可正可负。协方差为正时,即X、Y正相关,负为负相关,0为不相关(仅表示没有线性关系,不表示没有其他关系)。协方差仅能进行定性的分析,并不能进行定量的分析,公式如下:(E(X)为分量X的期望,E(Y)为分量Y的期望)

数据挖掘笔记(二)

数据挖掘笔记(二)

相关系数:定量分析两个变量之间关系。

数据挖掘笔记(二)


  • 数据缩减(Data Reduction)

(1)维度约减:

(1)小波变换
有N个元素 从S0 至 SN
计算两两元素之间的平均值和差值,得到N/2个平均值和差值
数据挖掘笔记(二)
以平均值为下一次递归计算的输入
在仅剩一个平均值和差值时,递归结束
最后得到1个平均值和N-1个差值(细节系数)可以逆变换回原数据
(2)主成分分析(Principle Component Analysis)
(3)属性子集选择

(2)数度约减:

(1)参数化方法:使用统计模型代替实际数据
(2)非参数化方法
(3)抽样
(4)聚类
(5)柱状图

(3)数据压缩


  • 数据转化和数据离散化(Data Transformation and Data Discretization)

(1)平滑
(2)属性构造
(3)聚合
(4)归一化

(1)Min-Max归一化:将A数据集中的vi映射成新的范围里的vi’(易受离群点影响)

数据挖掘笔记(二)

(2)Z-score归一化:在z分数规范化(或零均值规范化)中,属性基于均值和标准差规范化。

数据挖掘笔记(二)

(3)小数定标规范化:移动小数点的位置进行规范化(除以10的次方,使得转化后的vi’绝对值的最大值小于1)

数据挖掘笔记(二)

(5)离散化

(1)使用分桶进行离散化
(2)使用直方图分析离散化
(3)使用聚类、决策树进行离散化
(4)使用ChiMerge离散化

(6)概念层次生成