数据挖掘导论 - 第二章:数据 - 笔记
文章目录
数据类型
描述数据属性
- 相异性 = !=
- 序 < <= > >=
- 加法 + -
- 乘法 * /
属性类型
- 标称:分类的 = !=
不同的名字,用以区分对象
【例】邮编、性别、ID、眼球颜色 - 序数:分类的 < >
用以确定对象的序
【例】成绩、街道号码、矿石硬度(好、较好、最好) - 区间:数值的 + -
有意义的是数值间的差
【例】日历日期、摄氏度(0°C不是最低温,摄氏度是与0°C的差值) - 比率:比率的 * /
有意义的事差和比率
【例】绝对温度、货币量、计数、年龄、质量、长度、电流
定义属性层次的变换
非对称的属性
关注非零值
【例】一个关于学生选课的表,学生只修选修课中的小部分,因此大部分为零值,此时含有大量零值,每条信息都差不多,除非关注非零值。
数据质量
鲁棒算法
再噪声干扰下也能产生可以接受的结果
数据预处理
聚集
定义
删除属性的过程,压缩特定属性不同值个数的过程
动机
- 数据归约减少内存使用和处理时间
- 通过高层数据视图,聚集起到范围或标度转换的作用
抽样
动机
压缩数据,使用更好但开销较大的数据挖掘算法
方法
简单随机抽样
选取任何特定项的概率相等
- 无放回抽样
每个选中项立即从够成总体的所有对象集中删除 - 有放回抽样
对象被选中时不从总体中删除,相同对象可被多次抽取 - 分层抽样
适用于为稀有类构建分类模型。将对象分组,从每个分组中抽取一定数量
信息损失
大容量增大了样本具有代表性的概率,但抵消了抽样带来的好处。
小容量可能丢失了模式或检测出错误模式。
渐进抽样
实时判断样本容量是否足够,并选择是否继续增加容量。
维归约
当数据集包含大量特征的时候,删除不相关的特征并降低噪声。
使只能涉及少量属性的模型能理解大量特征的数据集
使数据更易可视化
降低了数据挖掘的始建于内存
维归约的线性代数技术
将数据由高维投影到低维空间,特别是连续数据
- 主成分分析
用于连续属性。找出新的属性(主成分),这些属性使原属性的线性组合,之间相互正交,且捕获数据的变差 - 奇异值分解
特征子集选择
数据集中或多或少会存在冗余特征(重复了包含在一个或多个其他属性中的许多或所有信息)和不相关特征(包含了对手头的数据挖掘任务几乎完全没用的信息)
- 嵌入方法
将特征选择作为数据挖掘算法的一部分 - 过滤方法
使用独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择 - 包装方法
将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常并不美剧所有可能的子集来找出最佳的属性子集
特征子集选择体系结构
停止搜索判断常常基于以下一个或多个条件:迭代次数、自己评估的度量值是否最有或超过给定的阈值,是否得到某个特定大小的子集、大小和评估标准是否同时达到、搜索策略得到的选择能否改进
特征加权
根据特征的重要性加权,在向量机中有所应用
特征创建
由原属性集创造数量更少更准确的新属性集
特征提取
由原始数据创建新的特征集
映射数据到新的空间
改变数据挖掘的视角,得到更多重要的特征
傅里叶变换
一种用于信号在时域(或空域)和频域之间的线性积分变换。
分析数据集,找出其模式
小波变换
用有限长或快速衰减的“母小波”的振荡波形来表示信号。用该波形被缩放和平移以匹配输入的信号。
特征构造
当原数据集的特征不适合数据挖掘算法时,使用一个或多个特征构造新特征以适应算法
离散化和二元化
将连续属性离散化或二元化以适应某些求关联性的算法
-
二元化
-
连续属性离散化
根据需要的分类值,设置分割点,将问题转化为选择多少分割点以及确定分割点的位置
非监督离散化当离群点过多时,按等宽的切割方式会降低性能。此时等频率、等深的方法将相同数量的对象放入每个区间更为可取。 -
监督离散化
熵:接收的每条消息中包含的信息的平均量
书中给出一种简单的基于熵的方法
设k时不同的类标号数,mi时某划分的地i个区间中值的个数,而mij是区间i中类j的值的个数。第i个区间的熵ei由如下等式给出
其中,pij = mij/mi 时第i个区间中类j的概率(值的比例)。该划分的总熵e时每个区间的熵的加权平均,即
其中,m时值的个数,wi = mi/m 时第i个区间的值的比例,而n时区间个数。直观上,区间的熵时区间纯度的度量。如果一个区间值包含一个类的值(该区间非常纯),则其熵为0并且不影响总熵。如果一个区间中的值类出现的频率相等(该区间尽可能不纯),则其熵最大。 -
具有过多值的分类属性
当分类属性有过多值时,减少分类的个数,序数离散处理,标称合并处理
变量变换
变量代指属性。用于变量的所有值的变换。
简单函数
通常将不具有高斯(正态)分布的数据变换成具有搞事(正态)分布的数据。
关注于改变换的效果
规范化或标准化
目的:使整个值的几何具有特定的性质