通过去重进行数据清洗

通过去重进行数据清洗

数据初始

通过去重进行数据清洗

Seqno列去重

查看Seqno列都有哪些值

df['Seqno'].unique()  # 查看唯一的值

duplicated方法
duplicated用于从上到下比较指定某一列的值,当这个值第一次出现时,返回False,当这个值和上一个比一样时,返回True

df['Seqno'].duplicated()

通过去重进行数据清洗

drop_duplicates去重复

通过去重进行数据清洗

drop_duplicates方法将会把这一列duplicated方法结果中为True的项删除,False的项保留。在不指定keep的时候,它的值默认为first,表示如果有多个重复的则保留第一个。也可以指定其他的值,比如last。

注意:

df1['Seqno'].drop_duplicates()   # 返回一个新的关于Seqno的Serirs
df1.drop_duplicates()            # 按照一行四个元素的一致性去重的
df.drop_duplicates(['Seqno'])    # 指定按照Seqno这一列的值为基准进行去重