2.2 自定义数据列

前面所学的数据纵向完全合并和数据横向关联合并，都是对数据进行原封不动的操作。有时，为了分析的需要，需要我们新增一些数据列，比如算出销售总额等等，这就是所谓的自定义数据列。下面我们想将顾客的花费金额，作为新的数据列添加到 join_data 中，就可以用销售数量“quantity”乘以商品单价“item_price”达到目的。

代码如下：

join_data["price"] = join_data["quantity"]*join_data["item_price"]
join_data[["quantity","item_price","price"]].head()

解释一下代码：

第1行：join_data["price"]，相当于自定义一个新的数据列——price，它的值等于 join_data["quantity"]和join_data["item_price"]的乘积。

第2行：使用head()函数，只将 join_data 数据集中"quantity","item_price","price"数据列的前5行显示出来。

点击"运行"，执行效果如下图所示。

2.2 自定义数据列

我们知道，在前面合并的transaction变量中，已经存在一个“price”数据列，表示交易的金额。那么，我们可以使用如下代码，来验证目前处理的数据是否正确。

print(join_data["price"].sum())
print(transaction["price"].sum())

解释一下代码：

sum()函数可以将数据列中的数据累计相加。

点击"运行"，执行效果如下图所示。

2.2 自定义数据列

观察结果，出现了两个一样的58268100，说明目前我们的操作结果是正确的。

大家可以发现，从开始到现在，我们的数据处理过程是环环相扣，一个变量接着一个变量。其中一个过程处理错误的话，整个数据分析结果的准确性就大打折扣。所以在数据分析中，应时刻检验数据操作是否准确无误。

接下来，开始分析数据！

此处为语雀文档，点击链接查看：https://www.yuque.com/codeclub/yvmeco/friz9v

2.2 自定义数据列

相关推荐