熊猫枢轴或groupby动态生成的列

问题描述:

我有一个超市的销售信息的数据框。数据框中的每一行代表一个项目,其中有几个特征作为列。原来的数据帧是这样的:熊猫枢轴或groupby动态生成的列

In [1]: import pandas as pd 
     my_data = [{'ticket_number' : '001', 'item' : 'tomato', 'ticket_price' : '21'}, 
       {'ticket_number' : '001', 'item' : 'candy', 'ticket_price' : '21'}, 
       {'ticket_number' : '001', 'item' : 'soup', 'ticket_price' : '21'}, 
       {'ticket_number' : '002', 'item' : 'soup', 'ticket_price' : '12'}, 
       {'ticket_number' : '002', 'item' : 'cola', 'ticket_price' : '12'}, 
       {'ticket_number' : '003', 'item' : 'beef', 'ticket_price' : '56'}, 
       {'ticket_number' : '003', 'item' : 'tomato', 'ticket_price' : '56'}, 
       {'ticket_number' : '003', 'item' : 'pork', 'ticket_price' : '56'}] 
     df = pd.DataFrame(my_data) 

In [2]: df 
Out [2]:  
      ticket_number ticket_price  item 
     0  001   21   tomato 
     1  001   21   candy 
     2  001   21   soup 
     3  002   12   soup 
     4  002   12   cola 
     5  003   56   beef 
     6  003   56   tomato 
     7  003   56   pork 

我需要一个数据帧,每一行代表与购买的全部商品和门票价格为列票。在这个例子中:

  ticket_number ticket_price  item1 item2 item3 
     0  001   21   tomato candy soup 
     1  002   12   soup cola 
     2  003   56   beef tomato pork 

我试着用df.groupby(ticket_number).item.value_counts(),但这并不能创建新列。我从来没有使用pivot_table,也许它很有用。

任何帮助将不胜感激。

谢谢!

+0

为**转换(您的数据帧)从广角形式长篇**这是已知的。使用这些关键字将会获得比当前标题更好的答案。 – smci

+0

它甚至不仅仅是一个数据透视表,因为你并没有将计数(特别是多个条目,例如多个'糖果')聚合到最终的计数表中,即'糖果','可乐'的单独列。 ..你想要项目未排序(即按发生或购买的顺序),或排序(例如按字母顺序?) – smci

使用GROUPBY做出那么可以变成列也列出一个可能的方式:

In [24]: res = df.groupby(['ticket_number', 'ticket_price'])['item'].apply(list).apply(pd.Series) 

In [25]: res 
Out[25]: 
           0  1  2 
ticket_number ticket_price 
001   21   tomato candy soup 
002   12    soup cola NaN 
003   56    beef tomato pork 

然后,清理这一结果后位:

In [27]: res.columns = ['item' + str(i + 1) for i in res.columns] 

In [29]: res.reset_index() 
Out[29]: 
    ticket_number ticket_price item1 item2 item3 
0   001   21 tomato candy soup 
1   002   12 soup cola NaN 
2   003   56 beef tomato pork 

另一个可能的方法来创建一个新的列,其中每个组的项目编号为groupby.cumcount

In [38]: df['item_number'] = df.groupby('ticket_number').cumcount() 

In [39]: df 
Out[39]: 
    item ticket_number ticket_price item_number 
0 tomato   001   21   0 
1 candy   001   21   1 
2 soup   001   21   2 
3 soup   002   12   0 
4 cola   002   12   1 
5 beef   003   56   0 
6 tomato   003   56   1 
7 pork   003   56   2 

,然后做一些整形:

In [40]: df.set_index(['ticket_number', 'ticket_price', 'item_number']).unstack(-1) 
Out[40]: 
           item 
item_number      0  1  2 
ticket_number ticket_price 
001   21   tomato candy soup 
002   12    soup cola NaN 
003   56    beef tomato pork 

从这里,与列名的一些清洁,可以实现与上述相同。

与​​和untack的成形步骤也可以与pivot_table来完成:df.pivot_table(columns=['item_number'], index=['ticket_number', 'ticket _price'], values='item', aggfunc='first')