基于Excel下的电商数据分析
一.数据来源
阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
数据集包含了2017年11月25日至2017年12月3日之间,约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集大小情况为:用户数量约100万(987,994),商品数量约410万(4,162,024),商品类目数量9,439以及总的淘宝用户行为记录数量为1亿条(100,150,807)。
二、数据清洗
-
选择子集
数据集的每一个字段都有效,此处全部选择。 -
列名重命名
原数据集没有表头,用sql语句创建表及6个字段,把淘宝用户行为数据导入Mysql数据库。 -
删除重复值
数据导入时,将主键定义为:user_id,item_id,timestamps,保证没有重复数据。 -
缺失值处理
在创建表格的时候,5个字段均定义为NOT NULL,数据导入保证没有缺失值。
5.一致化处理
转换时间数据类型,并添加datentime,dates,hours三个字段,将转换好的数据放进去
四、构建模型
1.分析用户行为的漏斗模型
数据主要涉及每日新增用户数,用户购买转化环节从浏览到最终购买整个流程的流失情况(包括浏览、收藏、加购、购买),用户次日、3日、7日留存情况,以及用户在研究时段内的复购次数和复购率
三、数据分析
1)获客:每日新增用户情况
此处选取2017年11月25日为APP启用的首天,并定义新增用户为出现第一次购买行为的用户。
如下图所示,2017年11月25日至2017年12月3日期间,每天都有新增用户,但是新增用户在递减,在12月2日当天有小幅回涨,故周末推出的营销活动或正在预热的双十二营销活动能够吸引新用户。
2)复购率分析
下图展示了不同复购次数对应的用户数量,发现复购5次以上的用户仅占有购买行为用户数的10%,我们发现高复购次数的用户很少,商家可以从商品质量、服务质量、物流体验三方面寻找原因,定位所在问题点,寻求高复购率突破。
)分析一天中每小时的用户行为
这里用SQL提取每天的数据,用Excel绘成动态图表,观察发现每日各项行为数据变化趋势相同,这里我们仅选择一个周五2017年12月1日进行分析;
观察下图发现,12月1日这天共有两个高峰期,分别是晚上20点至22点和上午10点至下午13点,对应了许多上班族中午和晚上休息的时间,符合大部分人的作息规律;
另外,我们发现加购和收藏量的峰值出现在晚上20-22点,而购买量的峰值则在早上10点,大部分人喜欢晚上收藏加购,早晨购买,说明收藏和购买是异步的用户行为,收藏的峰值通常发生在购买行为的前一段时间,加购则是购买的前置动作,其峰值也会发生在购买行为前。