DataWhale数据挖掘-Task1笔记
Q:数据处理-为什么要使用One-Hot
在机器学习的模型需要的数据是数字类型的,而特征有时候不是连续值,可能是一些分类值,比如性别分为male和female。通常我们需要对这类特征进行特征
数字化。
One-Hot介绍
One—Hot编码,又称为一位有效编码,主要使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效
One—Hot使用
Q:有如下的三个特征属性,有一个样本[“male”,“US”,“Internet Explorer”]使用One—Hot进行编码
- 性别:[“male”,“female”]
- 地区:[“Europe”,“US”,“Asia”]
- 浏览器:[“Firefox”,“Chrome”,“Safari”,“Internet Explorer”]
对上述的三个特征分别使用One-Hot编码处理
male对应[1,0]
US对应[0,1,0]
Internet Explorer对应[0,0,0,1]
完整的特征数字化结果:[1,0,0,1,0,0,0,0,1]
Q:可视化
箱型图的理解
箱型图通常用于描述性统计,以图形方式快速查看一个或多个数据集的方法。箱型图最大的优点是不受异常值的影响,能准确的描绘出数据的离散分布情况
通过箱型图可以观察到的结果:
- 关键数值,包括最大值、最小值、中位数和上下四分位数
- 数据分布是否对称
- 快速识别异常值
小提琴图的理解
小提琴图用于显示数据分布和概率密度,它结合来箱型图和密度图的特征,用来显示数据的分布形状。
关于95%置信区间的传送门:传送门1 传送门2
热图理解
热图通过色彩变化来显示数据。热图适合用来交叉检查多变量的数据,将变量置于行和列中,再将表格中的不同单元格着色。热图适用于显示多个变量之间的差异,显示是否有彼此相似的变量和检测彼此之间是否存在相关性。
Q:斯皮尔曼相关性
斯皮尔慢相性是衡量两个变量的依赖性的非参数指标。
定义:x,y为两组变数,di是x和y的等级差,n为组数
参考:
https://www.jianshu.com/p/6434d3e24ffb
https://datavizcatalogue.com/ZH/