创建一个每个值只有一行的新数据框
问题描述:
我想用原始数据框(数据框1)中的行填充熊猫数据框(Dataframe 2)。我在下面创建了一个模拟Dataframe 1:创建一个每个值只有一行的新数据框
Ref Number Name
1 Alpha
2 Alpha
3 Alpha
4 Alpha
5 Beta
6 Beta
7 Beta
8 Charlie
我想删除其中前一行中发生值Name的行。即Dataframe 2应该看起来像
Ref Number Name
1 Alpha
5 Beta
8 Charlie
Ref Number在这种情况下无关紧要。在我的工作文件中,我正计划添加一列来指定某些内容,然后在应用某个函数时引用该内容。
我会如何去熊猫这方面呢?我有一个约5000行的CSV,我想限制到~1000的第二个数据帧。
答
使用drop_duplicates
与指定列Name
为找到重复:
df = df.drop_duplicates('Name')
print (df)
Ref Number Name
0 1 Alpha
4 5 Beta
7 8 Charlie
+0
谢谢!加了! – christaylor
+9
我们应该可以找到一个体面的[重复](https://*.com/search?q=df.drop_duplicates).. – DSM
你是什么意思“REF号码也无所谓”是什么意思?它是多余的吗?在那种情况下,为什么还要使用表格格式呢?你只需要一组值(set)(df [“Name”])''。 – Denziloe