如何使用pyspark
问题描述:
做在数据帧有两个柱数学运算我有数据帧有三个栏的“x”,“y”和“Z”如何使用pyspark
x y z
bn 12452 221
mb 14521 330
pl 12563 160
lo 22516 142
我需要创建一个是由衍生另一列这个公式
(m = z/y+z)
因此,新的数据frameshould是这个样子:
x y z m
bn 12452 221 .01743
mb 14521 330 .02222
pl 12563 160 .01257
lo 22516 142 .00626
答
df = sqlContext.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330)], ['x', 'y', 'z'])
df = df.withColumn('m', df['z']/(df['y'] + df['z']))
df.head(2)