[利用python进行数据分析 书笔记]第6章 数据加载、存储和文件格式
读取文本格式的数据
逐块读取文本文件
pd.read_csv(nrows = ) | 只读取几行 |
pd.read_csv(chunksize = ) | 逐块读取文件,根据chunksize对文件进行逐块迭代 |
将数据写出到文本格式
pd.to_csv |
pd.from_csv |
手工处理分隔符格式
JSON数据
import json | |
json.loads() | 将json字符串转换成python形式 |
json.dumps() | 将pythin对象转换成json格式 |
二进制数据格式
使用HDF5格式
HDF5中的HDF指的是层次型数据格式,能存储多个数据集并支持元数据 | |
pd.HDFStore('文件名') |
读取Microsoft Excel文件
xls_file = pd.ExcelFile('文件名') | 读取存储EXCEL的表格型数据 |
table = xls_file.parse('Sheet1') | 通过parse读取工作表中数据放到DataFrame中 |
使用数据库
SQL的关系型数据库(SQL Server/Postgre SQL/MySQL)