pandas高级篇

1.pandas数据分割,cut()

cut:是将数据划分成几个区间,每个区间长度一样,区间数据个数不一定一样
qcut:划分区间只能是0—1之间数,差值是分位数,包含0和1,按分位数划分,如果差值a小于1,就没有1000个值,共a*1000个数

pandas高级篇pandas高级篇pandas高级篇pandas高级篇

2.pandas数据过滤和筛选

np.random.seed(number) number是生成随机数的种子
np.random.randn() 默认生成随机数的种子数是当前时间的时间戳
定义一个种子数,种子数只能用一次
pandas高级篇pandas高级篇pandas高级篇

3.pandas读取文件数据

(1)pd.read_csv()
pandas高级篇
(2)pd.read_table(),默认逗号分隔,使用sep指定分隔符
pandas高级篇
(3)读取没有标题的csv文件,手动指定数据标题
pandas高级篇
添加names,即指定列索引
pandas高级篇
通过添加columns,指定行索引
pandas高级篇
(4).将读取的数据进行层次化索引

指定行索引
pandas高级篇
将文件以list形式打开
pandas高级篇
添加分隔符
pandas高级篇
(5)通过skiprows读取不规则文件
pandas高级篇
(6)处理存在NA的数据文件
pandas高级篇
(7)na_values=将数据进行NaN替换
pandas高级篇

4.pandas存储文件,df.to_csv(‘路径’)

(1)sys.stdout
不生成文件,不改变文件本身,如果要保存就将sys.stdout替换成要保存的文件名
pandas高级篇
(2)na_rep=’NULL’对缺失值进行NULL标记
pandas高级篇