python数据分析 第6天 数据的加载,存储与文件格式
1 有些表格可能不是用固定的分隔符去分割字段的。
可以编写一个正则表达式来作为read_table的分隔符
2 可以使用skiprows跳过文件的行
3 对于缺失值的处理
读取文件的时候,可以通过设置 na_values=[' '] 来说明数据中的缺失值为什么字符
更进一步,可以使用字典来为各列指定不同的NA值
4
逐块读取文件
1 只想读取文件的一小部分或逐块对文件进行迭代
2 要想读取几行,通过nrows进行指定即可
3 要想逐块读取文件 设置 chunksize 行数
返回一个 TextParser 对象,然后我们可以迭代处理数据.并 使用Series的 .sort_values() 函数进行排序
将数据写出到文本格式
1 利用DataFrame的 to_csv方法,将数据写到另一个以都好为分隔符的文件中
data.to_csv('路径')
当然,可以通过 sep=' ' 来设置分隔符
2 缺失值在结果中,会被表示为空字符串。可以使用 na_rep=' ' 来标记
也可以 header= index= 来设置是否含有标签
3 页可以只写出一部分列
4 Series也有一个to_csv方法, 可以写出文件
5 同理,也有一个 将CSV文件读取为Series的 方法
手工处理分隔符格式
对数据进行加载的时候,可能会接受畸形文件,所以需要手工处理
1 对于任何单字符分隔符文件,都可以使用csv模块。 传给csv.reader
2
下面是 csv.Dialect的属性