大数据概论作业(一)——在sakila数据包中寻找最具有购买潜力的顾客

在sakila数据包中,一共给出了23个表格。其中actor表为演员的名字以及编号;actor_info表为演员所拍的不同类型的电影汇总;address表为客户、员工、商店的一些地址信息;category表为不同的电影类别;city表为一些城市的名字与编号;country表为不同国家的名字与编号;customer表和customer_list表为所有消费者的信息;film表和film_list表为一些电影的信息;film_actor表为电影的一些参演演员;film_Category表为不同电影的类型;film_text表为电影的一些描述;inventory表为存放在一个给定的商店里的一个给定的电影的copy副本;language表为一些语言名称以及编号;payment表记录每个客户的付款,如支付的金额和租金的资料;rental表表示每个租借客户、租借时间、归还时间;staff表列出了所有的工作人员,包括电子邮件地址,登录信息和图片信息;store表为系统中的所有商店。
经过观察,我发现表与表之间的一些联系:
1.演员表和电影表之间是多对多的关系,通过film_actor表建立关系;
2.地址表的主键出现在顾客、员工和存储表的外键;
3.分类和电影是多对多的关系,通过表film_category建立关系;
4.客户表在支付表和租金表被作为外键使用,客户表使用外键来表示地址和存储;
5.电影表指使用外键来标示语言表,在film_category、film_actor和库存表中作为外键使用;
6.film_actor表指的是使用外键的电影和演员表;
7.film_category表是指使用外键的电影和类别表;
8.inventory表是使用外键来识别电影和存储,在出租表中使用外键来识别库存;
9.语言表在电压表中被作为外键来使用;
10.付款表使用外键来表示客户、出租、和工作人员;
11.租借表是使用外键来标识库存,顾客 和工作人员;在支付表中使用了外键来标识租金;
12.工作人员表是指使用外键来标识存储和地址表,在出租、支付和商店表中作为外键;
13.store使用外键来标识工作人员和地址,在员工、客户、库存表被作为外键使用。
通过以上联系,我用ProcessOn在线作图工具建立了如下的关系图:
大数据概论作业(一)——在sakila数据包中寻找最具有购买潜力的顾客
通过上图,很清晰的就能看出各表之间的联系。
因为我们的目标是去发现最具有购买潜力的顾客,并给他们发送感谢邮件,所以我决定先从payment表格入手,通过excel表格的条件求和,在进行降序排列可以算出customer_id为526的顾客消费最多,金额为221.55,如下图所示:
大数据概论作业(一)——在sakila数据包中寻找最具有购买潜力的顾客
然后我选择rental表格继续进行分析,通过快速统计可以发现customer_id为148的顾客租借次数最多,次数高达46次,如下图所示:
大数据概论作业(一)——在sakila数据包中寻找最具有购买潜力的顾客
然后我在通过customer表和customer_list表,可以从中得到顾客相关的email信息。
最后我将我分析的所有数据归纳到一个表中,如下图所示:
大数据概论作业(一)——在sakila数据包中寻找最具有购买潜力的顾客
不难看出,消费金额前十名顾客的ID分别是526、148、144、137、178、459、469、468、236、181,而租借次数前十名的顾客ID分别是148、526、144、236、75、469、197、137、178、468
。取两个集合的交集就可以得出以下结论:
customer_id为526、148、144、236、469、137、178、468的顾客是最具有消费潜力的,而他们的email如下图:
大数据概论作业(一)——在sakila数据包中寻找最具有购买潜力的顾客
即可向这最具有购买潜力的8名顾客发送感谢邮件。
Bingo!任务完成!