动手学数据分析 Task02:数据清洗及特征处理

动手学数据分析

本次跟随Datawhale组织的动手学数据分析组队学习,对数据分析继续加强学习,希望能有所收获。Datawhale是一个很好的开源组织,会组织很多优质、开源的系列学习。

附上本次组队学习的计划和教程资料,如果链接失效,可点击这里前往Datawhale官网自行查找,即使没有当时加入组队学习,有兴趣的话从现在开始学习也不晚哦~

由于此次是需要有一些pandas基础,之前有做过pandas的脑图总结,有需要的同学可以点这里前往获取。

现在学习喜欢用脑图的方式,知识点清晰明了,易于查找和复习,希望也可以帮助大家梳理知识脉络,同时欢迎补充。

Task02:数据清洗及特征处理

动手学数据分析 Task02:数据清洗及特征处理
链接:https://pan.baidu.com/s/1vgHMknIps9e0oiLfyUKG0Q
提取码:d8cd

一、重点与思考

筛选了一些比较重要的操作以及一些思考的回答:

【思考1】dropna和fillna有哪些参数,分别如何使用呢?

  • dropna:
  1. axis{0 or ‘index’, 1 or ‘columns’}, default 0:删除包含缺失值的行(列)
  2. how{‘any’, ‘all’}, default ‘any’:所有都是na才删除,还是只要有一个na就删除
  3. thresh int, optional :删除到至少有多少na剩余
  4. subset array-like, optional:针对某几列删除删除缺失值
  5. inplace bool, default False:是否原地删除
  • fillna:
  1. value scalar, dict, Series, or DataFrame:缺失值的填充值
  2. method{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None:填充方法,前两个根据后面一个有效值填充,‘pad’、‘ffill’根据前一个有效值填充。
  3. axis{0 or ‘index’, 1 or ‘columns’}:延行(列)方向填充。
  4. inplace bool, default False:是否原地删除
  5. limit int, default None:如果指定了方法,则这是要向前/向后填充的连续NaN值的最大数目。换句话说,如果与超过这个数目的连续的Nans有一个差距,它将只会被部分填补。如果未指定方法,则这是将填充NAN的整个轴上的最大条目数。如果不是零,则必须大于0。
  6. downcast dict, default is None:填充缺失值后是否改变某列的Dtype,可以看下面示例。
    动手学数据分析 Task02:数据清洗及特征处理

分箱操作是什么?

找到一篇写的比较清楚地blog,点击这里

将文本变量Sex, Cabin ,Embarked用数值变量12345表示
动手学数据分析 Task02:数据清洗及特征处理
动手学数据分析 Task02:数据清洗及特征处理

将文本变量Sex, Cabin, Embarked用one-hot编码表示
动手学数据分析 Task02:数据清洗及特征处理
从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

对正则还是不太熟悉。。。
动手学数据分析 Task02:数据清洗及特征处理