特征工程学习笔记

特征工程学习笔记
一.
特征工程的重要性:为了解决实际问题,通常需要收集大量的数据,这些数据未经过滤,可能非常杂乱,甚至不完整。为了更好地使用这些数据,需要对数据进行处理,这就需要用到特征工程。
特征工程是这样一个过程:将数据转换为能更好地表示潜在问题的特征,从而提高及其学习性能。
特征工程具体包括以下几个方面:
1.转换数据的过程:这里并不特指原始数据或未过滤的数据,特征工程适用于任何阶段的数据,通常,我们要将特征工程技术应用于在数据分析者眼中已经处理过的数据,还有很重要的一点是,我们要处理的数据经常是表格形式的,数据会被组织成行(观察值)和列(属性).
2.特征:特征是对机器学习过程有意义的属性,我们经常许需要查看表格,确定哪些列是特征,哪些列只是普通的属性.
3.更好地表示潜在问题:我们要使用的数据一定代表了某个领域的某个问题,转换数据的目的是要更好地表达更好的问题.
4.提高机器学习性能:特征工程最终目的是要获取更好的数据,以便学习算法从中挖掘模式,取得更好的效果.
二.
代码实战
1.删除异常值
特征工程学习笔记2.特征构造
特征工程学习笔记特征工程学习笔记3.归一化
特征工程学习笔记4.One-Hot编码
特征工程学习笔记5.特征选择
过滤式
特征工程学习笔记包裹式
特征工程学习笔记