数据预处理与特征工程

数据预处理与特征工程

数据预处理与特征工程
注意哑变量的问题
#将文本型数据转化为数值型数据 以适应只能处理数字型数据的算法
但是不能直接转化
要考虑是名义变量、有序变量还是有距变量
分类转换成数字的时候,不能忽略了数字中自带的数学性质,所 以给算法传达了一些不准确的信息,而这会影响我们的建模。
类别OrdinalEncoder可以用来处理有序变量,但对于名义变量,我们只有使用哑变量的方式来处理,才能够尽量 向算法传达最准确的信息:
此时要考虑onehot编码
这样的变化,让算法能够彻底领悟,原来三个取值是没有可计算性质的,是“有你就没有我”的不等概念。在我们的 数据中,性别和舱门,都是这样的名义变量。因此我们需要使用独热编码,将两个特征都转换为哑变量
独热编码要记得转换成数组toarray()
数据预处理与特征工程

连续型变量 可
二值化
分箱(分类)