数据挖掘笔记（二）

主要是整理自己在数据挖掘课程上所做的一些笔记。
更多内容可以访问我的个人博客。

数据预处理(data-preprocessing)

数据预处理概论

（1）为什么要对数据进行处理
为了数据的质量：

不准确、不完整和不一致的数据在现实世界的数据库和数据仓库中很常见。
为了数据的实时性，实时性也影响数据质量（用户不及时更新数据）。
为了数据的可信度，可信度反映了用户对数据的信任程度。
为了数据的可解释性，可解释性反映了对数据的理解难易程度。

预处理方法：

（1）数据清洗（Data Cleaning）

（1）处理缺失的值

（2）处理噪音数据

（2）数据整合（Data Integration）

（1）冗余与相关性分析

（3）数据缩减（Data Reduction）

（1）维度约减

（2）数度约减

（3）数据压缩

（4）数据转化和数据离散化（Data Transformation and Data Discretization）

数据清洗（Data Cleaning）

处理缺失的值，平滑噪音数据，识别或者移除极端值，解决不一致问题

（1）处理缺失的值

1.直接忽略这个元组
2.人工填补缺失值
3.使用一个全局的常量进行填补（Unknown或者负无穷-∞）
4.使用表示数据中心倾向的数值（平均数或者中位数）进行填充
5.使用属于同一类的所有值的平均值或者中位数进行填充
6.使用最可能的值填充（使用贝叶斯公式得到最可能的值，或根据决策树等基于推理回归的方法）

（2）处理噪音数据：噪声数据是测量变量中的随机误差。

使用平滑技术去除噪音数据，许多平滑方法也用于数据离散化(数据转换的一种形式)和数据约简。
（1）分箱
使用箱平均数进行平滑
使用箱中位数进行平滑
使用箱边界进行平滑

（2）回归

（3）极端值分析（聚类）

数据整合（Data Integration）

当集成来自多个源的数据时，可能会出现不一致和冗余。
（1）元数据（属性名、意义、数据类型、取值范围）可用于帮助避免模式集成中的错误。
（2）冗余与相关性分析

对于名词属性，（先对名词属性计数）使用卡方检验（卡方检验：检验两个属性之间是否独立）

卡方检验公式：（实际值） - （两者独立情况下的理论值）的平方再除以后者，对所有值求和）

对于数值属性，使用相关系数、协方差

协方差：协方差是描述随机变量相互关联程度的一个特征数。是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望。由于偏差可正可负，因此协方差也可正可负。协方差为正时，即X、Y正相关，负为负相关，0为不相关（仅表示没有线性关系，不表示没有其他关系）。协方差仅能进行定性的分析，并不能进行定量的分析，公式如下：（E(X)为分量X的期望，E(Y)为分量Y的期望）

相关系数：定量分析两个变量之间关系。

数据缩减（Data Reduction）

（1）维度约减：

（1）小波变换
有N个元素从S0 至 SN
计算两两元素之间的平均值和差值，得到N/2个平均值和差值

以平均值为下一次递归计算的输入
在仅剩一个平均值和差值时，递归结束
最后得到1个平均值和N-1个差值（细节系数）可以逆变换回原数据
（2）主成分分析（Principle Component Analysis）
（3）属性子集选择

（2）数度约减：

（1）参数化方法：使用统计模型代替实际数据
（2）非参数化方法
（3）抽样
（4）聚类
（5）柱状图

（3）数据压缩

数据转化和数据离散化（Data Transformation and Data Discretization）

（1）平滑
（2）属性构造
（3）聚合
（4）归一化

（1）Min-Max归一化：将A数据集中的vi映射成新的范围里的vi’（易受离群点影响）

（2）Z-score归一化：在z分数规范化（或零均值规范化）中，属性基于均值和标准差规范化。

（3）小数定标规范化：移动小数点的位置进行规范化（除以10的次方，使得转化后的vi’绝对值的最大值小于1）

（5）离散化

（1）使用分桶进行离散化
（2）使用直方图分析离散化
（3）使用聚类、决策树进行离散化
（4）使用ChiMerge离散化

（6）概念层次生成

数据挖掘笔记（二）

数据预处理(data-preprocessing)

相关推荐