pandas.DataFrame.drop_duplicates()函数
官方文档给出的这个函数的作用是Return DataFrame with duplicate rows removed, optionally only considering certain columns.也就是删除重复的行之后返回一个DataFrame,可以选择只考虑某些列。
函数原型如下:
DataFrame.
drop_duplicates
(subset=None, keep='first', inplace=False)
对3个参数的解释如下:
举个例子,a.csv内容如下。
id,name1,name2
1,bill,lily
2,bob,tom
3,tim,kity
1,ala,lukas
下面的代码
import pandas as pd
a = pd.read_csv("a.csv")
print(a)
的运行结果是
id name1 name2
0 1 bill lily
1 2 bob tom
2 3 tim kity
3 1 ala lukas
执行下面的代码
a.drop_duplicates(["id"], keep='first', inplace=True)
print(a)
结果为
id name1 name2
0 1 bill lily
1 2 bob tom
2 3 tim kity