如何利用函数和映射操作数据集,进行数据转换?
在数据分析过程中,我们往往将数据集(Series和DataFrame类型的)的每一列看作是一个特征或变量,然后进行求取一些统计量(例:mean,sum,std(当然这些特殊的统计量在pandas中已经有现成的定义好的函数可以使用,这里只是举个例子)),进行的操作也分为元素级的和数据集的列。
pandas中的map,applymap and apply就可以达到这样的目的。
1.applymap
将函数应用到数据集的每一个元素上,返回的数据集行数、列数和原来相同。
2.apply
将函数应用到数据集的列或行上,以进行数据聚集(sum,mean,std(很多的统计量已经被定义为函数封装称为DataFrame的方法了)),聚合之后的数据集会减少一个维度。
3.map
将函数(也可以是一个具有映射功能的字典)作用于一个Series的每一个元素(可以定义数据集中某一列到另一个新列的关系,以产生一个新列)。
现用字典对列name建立建立一个到qq的映射,并将新列加到数据集中。