Python熊猫在csv文件中删除重复无标题

问题描述:

对于愚蠢的问题感到抱歉,我对python和pandas是新手。Python熊猫在csv文件中删除重复无标题

想象我有一些数据,每一行的CSV文件,例如:

data1, data2, data3, data4 

没有标题,只是数据,我需要的,如果

消除这些文件中的某些行
(row1.data3 and row1.data4) == (row2.data3 and row2.data4) 

整行被删除。

我该如何做到这一点?

我曾尝试使用remove_duplicates但没有标题,我不知道该怎么做。

欢呼

+0

只是为了确保您在remove_duplicates之后重置数据框,对不对?除非你问它,否则remove_duplicates不能正常工作。 标题在这里并不重要。如果一行是另一行的副本,并且它们是相同的数据类型,remove_duplicates应删除它。 –

+0

向我们展示您到目前为止的代码。 –

比方说,你恰好有一个df无头:

df = pd.read_csv("./try.csv", header=None) 
df 
# The first row is integers inserted instead of missing column names 
    0 1 2 
0 1 1 1 
1 1 1 1 
2 2 1 3 
3 2 1 3 
4 3 2 3 
5 3 3 3 

然后,在列的子集可以drop_duplicates

df.drop_duplicates([0]) 
    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3 

df.drop_duplicates([0,1]) 

    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3 
5 3 3 3 

不要忘记将结果分配给新变量或添加inplace=True

+0

@ user1583007为什么不接受答案,如果它适合你? –