在熊猫数据框和平均数组中按列分组
我有一个电影数据框,其中包含电影名称,它们各自的类型和矢量表示(numpy数组)。在熊猫数据框和平均数组中按列分组
ID Year Title Genre Word Vector
1 2003.0 Dinosaur Planet Documentary [-0.55423898, -0.72544044, 0.33189204, -0.1720...
2 2004.0 Isle of Man TT 2004 Review Sports & Fitness [-0.373265237, -1.07549703, -0.469254494, -0.4...
3 1997.0 Character Foreign [-1.57682264, -0.91265768, 2.43038678, -0.2114...
4 1994.0 Paula Abdul's Get Up & Dance Sports & Fitness [0.3096168, -0.57186663, 0.39008939, 0.2868615...
5 2004.0 The Rise and Fall of ECW Sports & Fitness [0.17175879, -2.38005066, -0.45771399, 1.32608...
我想组按流派,并得到各流派的平均向量表示(在体裁每部电影矢量分量明智的平均值)。
我第一次尝试:
movie_df.groupby(['Genre']).mean()
但内置的均值函数不能采取numpy的阵列的平均值。
我试图创造我自己的函数来进行,然后将其应用到各组,但我不知道这是用正确适用:
def vector_average(group):
series_to_array = np.array(group.tolist())
return np.mean(series_to_array, axis = 0)
movie_df.groupby(['Genre']).apply(vector_average)
任何指针将不胜感激!
如果我理解正确的话,让你可以简单地应用np.mean
到'Word Vector'
SeriesGroupBy明确的逐分量的平均值。
df.groupby('Genre')['Word Vector'].apply(np.mean)
演示
>>> df = pd.DataFrame({'Title': list('ABCDEFGHIJ'),
'Genre': list('ABCBBDCDED'),
'Word Vector': [np.random.randint(0, 10, 10)
for _ in range(len('ABCDEFGHIJ'))]})
>>> df
Genre Title Word Vector
0 A A [3, 6, 8, 0, 4, 8, 1, 4, 0, 1]
1 B B [5, 4, 4, 4, 8, 7, 4, 3, 7, 2]
2 C C [1, 7, 6, 7, 3, 3, 8, 1, 8, 1]
3 B D [0, 4, 6, 7, 1, 5, 5, 0, 6, 7]
4 B E [8, 2, 1, 4, 1, 2, 0, 4, 9, 1]
5 D F [7, 9, 7, 8, 8, 7, 2, 9, 1, 3]
6 C G [0, 7, 1, 9, 6, 2, 1, 0, 3, 7]
7 D H [4, 7, 9, 4, 1, 5, 0, 3, 0, 6]
8 E I [5, 1, 5, 1, 8, 1, 1, 4, 5, 6]
9 D J [7, 9, 0, 1, 8, 3, 8, 8, 1, 0]
>>> df.groupby('Genre')['Word Vector'].apply(np.mean)
Genre
A [3.0, 6.0, 8.0, 0.0, 4.0, 8.0, 1.0, 4.0, 0.0, ...
B [4.33333333333, 3.33333333333, 3.66666666667, ...
C [0.5, 7.0, 3.5, 8.0, 4.5, 2.5, 4.5, 0.5, 5.5, ...
D [6.0, 8.33333333333, 5.33333333333, 4.33333333...
E [5.0, 1.0, 5.0, 1.0, 8.0, 1.0, 1.0, 4.0, 5.0, ...
Name: Word Vector, dtype: object
谢谢你这个作品!为了完整起见,我尝试了movie_df.groupby(['Genre'])。apply(np.mean)。它具有ID和年份列的输出,但没有列入矢量列? – Matt
@perennial_nomad如果您尝试在整个DataFrame上调用'np.mean',它将仅为具有数字数据类型的列提供结果 - 在这里,''Word Vector''是类型对象。不客气! – miradulo
另一个后续 - 这会返回一个熊猫系列,当我尝试使用to_frame将其写入数据框时,它只返回带有流派作为标签的Word向量列。有没有一种方法可以直接转换为20×2的DF和'流派'和'字矢量'? – Matt
可否请您打印出'df.head(5)'和它贴在这里? –
是的,但在问题中。 –
我不熟悉提供数据框样本的最佳方式 - 此处的建议也将不胜感激! – Matt