python数据分析 第6天 数据的加载,存储与文件格式

1  有些表格可能不是用固定的分隔符去分割字段的。

可以编写一个正则表达式来作为read_table的分隔符


2   可以使用skiprows跳过文件的行

python数据分析 第6天 数据的加载,存储与文件格式

3  对于缺失值的处理

读取文件的时候,可以通过设置  na_values=['  ']  来说明数据中的缺失值为什么字符


更进一步,可以使用字典来为各列指定不同的NA值

python数据分析 第6天 数据的加载,存储与文件格式

4

python数据分析 第6天 数据的加载,存储与文件格式

python数据分析 第6天 数据的加载,存储与文件格式python数据分析 第6天 数据的加载,存储与文件格式


逐块读取文件

1  只想读取文件的一小部分或逐块对文件进行迭代

2  要想读取几行,通过nrows进行指定即可

3  要想逐块读取文件  设置 chunksize  行数

python数据分析 第6天 数据的加载,存储与文件格式

返回一个  TextParser 对象,然后我们可以迭代处理数据.并 使用Series的   .sort_values() 函数进行排序


将数据写出到文本格式

1   利用DataFrame的 to_csv方法,将数据写到另一个以都好为分隔符的文件中

data.to_csv('路径')

当然,可以通过  sep='  '    来设置分隔符

2  缺失值在结果中,会被表示为空字符串。可以使用 na_rep='  '  来标记

也可以 header=      index=      来设置是否含有标签

3 页可以只写出一部分列

4  Series也有一个to_csv方法,  可以写出文件

python数据分析 第6天 数据的加载,存储与文件格式

5  同理,也有一个  将CSV文件读取为Series的 方法

python数据分析 第6天 数据的加载,存储与文件格式

手工处理分隔符格式

对数据进行加载的时候,可能会接受畸形文件,所以需要手工处理


1  对于任何单字符分隔符文件,都可以使用csv模块。   传给csv.reader

python数据分析 第6天 数据的加载,存储与文件格式

2

下面是   csv.Dialect的属性

python数据分析 第6天 数据的加载,存储与文件格式