Python 3.6:比较两个大gzipped csv文件和获取差异记录
问题描述:
我有两个gzipped csv文件IMFBOP2017_1.csv.gz
和IMFBOP2017_2.csv.gz
在两个文件中都有相同的列,例如"Location, Indicator, Measure, Unit, Frequency, Date"
。Python 3.6:比较两个大gzipped csv文件和获取差异记录
共行60个百万+
我想的IMFBOP2017_1
不存在于IMFBOP2017_2
两个文件&显示行比较。
我的计划是将这两个文件导入到dataframes,增加一列“比较”既dataframes和更新所有字段合并像
位置|指示器|测量|单位|频|日期和不要操作。
我认为这是一个昂贵的过程,有没有简单的解决方案呢?
你应该先试试,然后问什么可以改进并提供代码 –
是的,这是一个昂贵的过程。文件中的行是以任何方式排序的? –
@ PM 2Ring,行不排序。 – Plinus