基于密钥的CSV加入

问题描述：

这可能是一个简单/重复的问题，但我可以找到/找出如何去做。基于密钥的CSV加入

我有两个CSV文件中：

info.csv：

"Last Name", First Name, ID, phone, adress, age X [Total age: 100] |009076 

abc, xyz, 1234, 982-128-0000, pqt, 

bcd, uvw, 3124, 813-222-1111, tre, 

poi, ccc, 9087, 123-45607890, weq,

然后

age.csv：

student_id,age_1 

3124,20 

9087,21 

1234,45

我想比较两个csv fi LES，从age.csv和基于列“id”从info.csv和“student_id”采取相应的“age_1”的数据，并把它纳入“age”列info.csv。

所以最终的输出应该是：

info.csv：

"Last Name", First Name, ID, phone, adress, age X [Total age: 100] |009076 
abc, xyz, 1234, 982-128-0000, pqt,45 
bcd, uvw, 3124, 813-222-1111, tre,20 
poi, ccc, 9087, 123-45607890, weq,21

我可以简单地根据按键上的表连接到new.csv，但可不要将数据放在列标题“age”中。我用“csvkit”来做到这一点。

下面是我用什么：

csvjoin -c 3,1 info.csv age.csv > new.csv

您可以发布您的代码的例子吗？ – alexbclay

答

尝试......

import csv 

info = list(csv.reader(open("info.csv", 'rb'))) 
age = list(csv.reader(open("age.csv", 'rb'))) 

def copyCSV(age, info, outFileName = 'out.csv'): 
    # put age into dict, indexed by ID 
    # assumes no duplicate entries 

    # 1 - build a dict ageDict to represent data 
    ageDict = dict([(entry[0].replace(' ',''), entry[1]) for entry in age[1:] if entry != []]) 

    # 2 - setup output 
    with open(outFileName, 'wb') as outFile: 
     outwriter = csv.writer(outFile) 
     # 3 - run through info and slot in ages and write to output 
     # nb: had to use .replace(' ','') to strip out whitespaces - these may not be in original .csv 
     outwriter.writerow(info[0]) 
     for entry in info[1:]: 
      if entry != []: 
       key = entry[2].replace(' ','') 
       if key in ageDict: # checks that you have data from age.csv 
        entry[5] = ageDict[key] 
      outwriter.writerow(entry) 

copyCSV(age, info)

让我知道，如果它的工作原理，或者如果有不清楚的地方。我使用了一个字典，因为如果您的文件很大，它应该会更快，因为您只需循环一次age.csv中的数据即可。

可能有一个更简单的方法/已经实现的东西......但这应该做的伎俩。

这工作得很好。 – user3285014

好东西！这是我第一个接受的答案！ – Aidenhjj

答

您可以使用Pandas并使用age数据更新info dataframe。您可以通过将两个数据帧的索引分别设置为ID和student_id，然后更新info dataframe中的年龄列。之后，您重置索引，以便ID再次成为列。

from StringIO import StringIO 
import pandas as pd 

info = StringIO("""Last Name,First Name,ID,phone,adress,age X [Total age: 100] |009076 
abc, xyz, 1234, 982-128-0000, pqt, 
bcd, uvw, 3124, 813-222-1111, tre, 
poi, ccc, 9087, 123-45607890, weq,""") 


age = StringIO("""student_id,age_1 
3124,20 
9087,21 
1234,45""") 

info_df = pd.read_csv(info, sep=",", engine='python') 
age_df = pd.read_csv(age, sep=",", engine='python') 

info_df = info_df.set_index('ID') 
age_df = age_df.set_index('student_id') 
info_df['age X [Total age: 100] |009076'].update(age_df.age_1) 
info_df.reset_index(level=0, inplace=True) 
info_df

输出：

ID  Last Name First Name  phone   adress age X [Total age: 100] |009076 
0 1234 abc   xyz    982-128-0000 pqt  45 
1 3124 bcd   uvw    813-222-1111 tre  20 
2 9087 poi   ccc    123-45607890 weq  21

我无法得到这个工作，在我的实际CSV中，最后一个列标题中有空间。这就像“年龄大学生|全部”。所以，当我用你的代码的这一行代码：info_df.age.update（age_df.age_1）与实际的头部，它给我语法错误。 – user3285014

你介意分享实际的头文件以及你正在获得的语法错误吗？有两件事，你可以重新命名csv文件中的头文件，或者使用'df.columns'来获取列名以查看列的实际名称。 –

这是需要更新的列名称： u'age X [Total age：100] | 009076' – user3285014

基于密钥的CSV加入

相关推荐