Python熊猫在csv文件中删除重复无标题

问题描述：

对于愚蠢的问题感到抱歉，我对python和pandas是新手。Python熊猫在csv文件中删除重复无标题

想象我有一些数据，每一行的CSV文件，例如：

data1, data2, data3, data4

没有标题，只是数据，我需要的，如果

消除这些文件中的某些行

(row1.data3 and row1.data4) == (row2.data3 and row2.data4)

整行被删除。

我该如何做到这一点？

我曾尝试使用remove_duplicates但没有标题，我不知道该怎么做。

欢呼

只是为了确保您在remove_duplicates之后重置数据框，对不对？除非你问它，否则remove_duplicates不能正常工作。标题在这里并不重要。如果一行是另一行的副本，并且它们是相同的数据类型，remove_duplicates应删除它。 –

向我们展示您到目前为止的代码。 –

答

比方说，你恰好有一个df无头：

df = pd.read_csv("./try.csv", header=None) 
df 
# The first row is integers inserted instead of missing column names 
    0 1 2 
0 1 1 1 
1 1 1 1 
2 2 1 3 
3 2 1 3 
4 3 2 3 
5 3 3 3

然后，在列的子集可以drop_duplicates：

df.drop_duplicates([0]) 
    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3

或

df.drop_duplicates([0,1]) 

    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3 
5 3 3 3

不要忘记将结果分配给新变量或添加inplace=True

@ user1583007为什么不接受答案，如果它适合你？ –

Python熊猫在csv文件中删除重复无标题

相关推荐