Feature Selection: A Data Perspective --阅读笔记2 传统数据的特征选择算法
FEATURE SELECTION ON CONVENTIONAL DATA
在本节中,我们根据所使用的技术对传统数据的传统特征选择算法进行了广泛的分类:
- 基于相似性(Similarity based Methods);
- 基于信息理论();
- 基于稀疏学习;
- 基于统计;
- 其他方法。
Similarity based Methods
不同的特征选择算法利用各种类型的标准来定义特征的相关性。
基于相似性的方法:通过保存数据相似性的能力来评估特征的重要性。
- 对于有监督的特征选择,可以从标签信息导出数据相似性;
- 而对于无监督的特征选择方法,大多数方法利用不同的距离度量来获得数据相似性。
给定一个具有
其中
公式(1)表明我们将从S中选择一个特征子集,以便它们能够很好地保留在
Laplacian Score
拉普拉斯分数是一种无监督的特征选择算法,它选择最能保留数据流形结构的特征。 它由三个阶段组成。
- 首先,它构造了亲和度矩阵
S(i,j) , 如果xi 是xj 的P 最近邻,则S(i,j)=e−∥xi−xj∥22t ;否则S(i,j)=0 。 - 构造对角矩阵
D ,D(i,i)=∑nj=1S(i,j) ; 拉普拉斯矩阵L ,L=D−S . - 最后对于每个特征
fi 的拉普拉斯分数如下:
由于拉普拉斯分数单独评估每个特征,选择
其中
SPEC
SPEC是拉普拉斯分数的一个扩展,适用于有监督和无监督两种情况。例如,在无监督情景下,数据相似性由RBF kernel测量; 而在监督情景下,数据相似性可以由以下公式定义:
其中
SPEC的基本思想与Laplacian Score相似:与数据流形结构一致的特征应该将相似的值分配给彼此相邻的实例。
在SPEC中,特征相关性通过三个不同的标准来衡量:
在上述公式中,