如何使用pyspark

问题描述:

做在数据帧有两个柱数学运算我有数据帧有三个栏的“x”,“y”和“Z”如何使用pyspark

x  y   z 
bn  12452  221 
mb  14521  330 
pl  12563  160 
lo  22516  142 

我需要创建一个是由衍生另一列这个公式

(m = z/y+z) 

因此,新的数据frameshould是这个样子:

x  y   z  m 
bn  12452  221  .01743 
mb  14521  330  .02222 
pl  12563  160  .01257 
lo  22516  142  .00626 

df = sqlContext.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330)], ['x', 'y', 'z']) 
df = df.withColumn('m', df['z']/(df['y'] + df['z'])) 
df.head(2)