Python熊猫在csv文件中删除重复无标题
问题描述:
对于愚蠢的问题感到抱歉,我对python和pandas是新手。Python熊猫在csv文件中删除重复无标题
想象我有一些数据,每一行的CSV文件,例如:
data1, data2, data3, data4
没有标题,只是数据,我需要的,如果
消除这些文件中的某些行(row1.data3 and row1.data4) == (row2.data3 and row2.data4)
整行被删除。
我该如何做到这一点?
我曾尝试使用remove_duplicates但没有标题,我不知道该怎么做。
欢呼
答
比方说,你恰好有一个df
无头:
df = pd.read_csv("./try.csv", header=None)
df
# The first row is integers inserted instead of missing column names
0 1 2
0 1 1 1
1 1 1 1
2 2 1 3
3 2 1 3
4 3 2 3
5 3 3 3
然后,在列的子集可以drop_duplicates
:
df.drop_duplicates([0])
0 1 2
0 1 1 1
2 2 1 3
4 3 2 3
或
df.drop_duplicates([0,1])
0 1 2
0 1 1 1
2 2 1 3
4 3 2 3
5 3 3 3
不要忘记将结果分配给新变量或添加inplace=True
+0
@ user1583007为什么不接受答案,如果它适合你? –
只是为了确保您在remove_duplicates之后重置数据框,对不对?除非你问它,否则remove_duplicates不能正常工作。 标题在这里并不重要。如果一行是另一行的副本,并且它们是相同的数据类型,remove_duplicates应删除它。 –
向我们展示您到目前为止的代码。 –