python数据分析第6天数据的加载，存储与文件格式

1 有些表格可能不是用固定的分隔符去分割字段的。

可以编写一个正则表达式来作为read_table的分隔符

2 可以使用skiprows跳过文件的行

3 对于缺失值的处理

读取文件的时候，可以通过设置 na_values=[' '] 来说明数据中的缺失值为什么字符

更进一步，可以使用字典来为各列指定不同的NA值

python数据分析第6天数据的加载，存储与文件格式

1 只想读取文件的一小部分或逐块对文件进行迭代

2 要想读取几行，通过nrows进行指定即可

3 要想逐块读取文件设置 chunksize 行数

python数据分析第6天数据的加载，存储与文件格式

返回一个 TextParser 对象，然后我们可以迭代处理数据.并使用Series的 .sort_values() 函数进行排序

1 利用DataFrame的 to_csv方法，将数据写到另一个以都好为分隔符的文件中

data.to_csv('路径')

当然，可以通过 sep=' ' 来设置分隔符

2 缺失值在结果中，会被表示为空字符串。可以使用 na_rep=' ' 来标记

也可以 header= index= 来设置是否含有标签

3 页可以只写出一部分列

4 Series也有一个to_csv方法，可以写出文件

python数据分析第6天数据的加载，存储与文件格式

5 同理，也有一个将CSV文件读取为Series的方法

python数据分析第6天数据的加载，存储与文件格式

手工处理分隔符格式

对数据进行加载的时候，可能会接受畸形文件，所以需要手工处理

1 对于任何单字符分隔符文件，都可以使用csv模块。传给csv.reader

python数据分析第6天数据的加载，存储与文件格式

下面是 csv.Dialect的属性

python数据分析第6天数据的加载，存储与文件格式