2.2 自定义数据列
前面所学的数据纵向完全合并和数据横向关联合并,都是对数据进行原封不动的操作。有时,为了分析的需要,需要我们新增一些数据列,比如算出销售总额等等,这就是所谓的自定义数据列。下面我们想将顾客的花费金额,作为新的数据列添加到 join_data 中,就可以用销售数量“quantity”乘以商品单价“item_price”达到目的。
代码如下:
join_data["price"] = join_data["quantity"]*join_data["item_price"] join_data[["quantity","item_price","price"]].head()
解释一下代码:
第1行:join_data["price"],相当于自定义一个新的数据列——price,它的值等于 join_data["quantity"]和join_data["item_price"]的乘积。
第2行:使用head()函数,只将 join_data 数据集中"quantity","item_price","price"数据列的前5行显示出来。
点击"运行",执行效果如下图所示。
我们知道,在前面合并的transaction变量中,已经存在一个“price”数据列,表示交易的金额。那么,我们可以使用如下代码,来验证目前处理的数据是否正确。
print(join_data["price"].sum()) print(transaction["price"].sum())
解释一下代码:
sum()函数可以将数据列中的数据累计相加。
点击"运行",执行效果如下图所示。
观察结果,出现了两个一样的58268100,说明目前我们的操作结果是正确的。
大家可以发现,从开始到现在,我们的数据处理过程是环环相扣,一个变量接着一个变量。其中一个过程处理错误的话,整个数据分析结果的准确性就大打折扣。所以在数据分析中,应时刻检验数据操作是否准确无误。
接下来,开始分析数据!
此处为语雀文档,点击链接查看:https://www.yuque.com/codeclub/yvmeco/friz9v