pandas.DataFrame.drop_duplicates()函数

官方文档给出的这个函数的作用是Return DataFrame with duplicate rows removed, optionally only considering certain columns.也就是删除重复的行之后返回一个DataFrame,可以选择只考虑某些列。

函数原型如下:

DataFrame.drop_duplicates(subset=Nonekeep='first'inplace=False)

对3个参数的解释如下:

pandas.DataFrame.drop_duplicates()函数

举个例子,a.csv内容如下。

id,name1,name2
1,bill,lily
2,bob,tom
3,tim,kity
1,ala,lukas

下面的代码

import pandas as pd

a = pd.read_csv("a.csv")
print(a)

的运行结果是

   id name1  name2
0   1  bill   lily
1   2   bob    tom
2   3   tim   kity
3   1   ala  lukas

执行下面的代码

a.drop_duplicates(["id"], keep='first', inplace=True)
print(a)

结果为

   id name1 name2
0   1  bill  lily
1   2   bob   tom
2   3   tim  kity