pandas
pandas操作:
1 透视表
2 pivot_table == gropby
3 透视:由表及里
4 要对数据进行透视分组计算
values 透视的属性,列索引
index 透视表的行索引
columns 透视表的列索引
aggfunc 透视就是计算(执行什么样的计算)
Python库出现问题,需要彻底卸载安装
:
- 1、pip uninstall xxx
- 2、检查一下Python安装目录D:\Python3.7.4\Lib\site-packages跟卸载包相关文件手动删除(一般情况,不需要手动删除,以防万一)
- 3、缓存文件删除,目录:C:\Users\softpo.DESKTOP-PN692CT\AppData\Local\pip\cache删除
- 4、pip install xxx
pandas中时间序列
- pd.date_range():时间的序列
- 一系列的时间
- 给定参数,返回有间隔的时间
- 相当于np.arange方法
- 数据统计中非常重要的,很多数据跟时间有关
- 餐馆营业额,时间有很大关系,海底捞,西贝连锁餐厅,过年时候,过节的时候,周五晚上,周六日非常火爆
- resample重采样,之前的时间间隔是天,重采样变成月
- 以月为单位看统计数据,以年为单位,以季度单位
pandas可视化
- bar:条形图
- line:线形图
- hist:直方图(也是一种条形图),进行统计,分成多少份
- box:箱式图(0%,25%,50%,75%,100%)绘制,数据分布情况
- scatter:散点图(绘制点)
- pip install matplotlib(专门画图的一个库)
- pandas之所以可以画图,就是依赖了matplotlib
pandas加速操作
- pip install numexpr
- pip install bottleneck
- 这两个库,很小
- 当我们数据量比较大时,提升比较明显
- 面试中画龙点睛之笔
- 这两个支持库默认为启用状态
pd.set_option(‘compute.use_bottleneck’, False)
pd.set_option(‘compute.use_numexpr’, False)
pandas统计分析:
pandas 应用函数
- apply,分组计算时,用过
- transform 变形金刚 根据规则(方法)
- 不适用,聚合函数:mean、min、max、std、var
- agg:聚合运算