淘宝母婴用品分析(Excel)
1.前期准备
数据来源
阿里巴巴天池:baby goods info data
字段含义
总共有两个csv文件,用excel打开。
此为婴儿信息表。
三个字段:用户ID, birthday:出生日期 gender:性别(0 male,1 female, 2 未知)
总共953条记录
此为商品购买记录表。
七个字段:用户ID, 购买行为编号,商品***,商品类别号,商品属性,购买数量,购买日期。
共29971条记录
业务分析角度
由于缺少大量必要数据(客单价,订单金额等),只从以下三个角度分析:
- 销售角度
销量对比、销量变化趋势 - 产品角度
商品市场额度(大类、具体商品) - 用户角度
用户购买行为、用户画像
2.数据清洗(Excel)
-
查重
婴儿信息表,针对id查重,无重复
购买表整行查重,无重复。id重复代表复购 -
缺失值
用countblank函数求每一列的空值,property存在144空值。 -
性别处理
用替换实现: 1男 0女 2未知 -
日期处理
1 用分列 将两个表中的日期改为日期格式
2 在购买表中添加婴儿的出生日期、性别,用vlookup,以user_id为查找目标
3 添加一列计算婴儿年龄
用datediff来计算。返回错误值意味着购买日期早于出生日期,表示未出生
4年龄分段
用if实现年龄分段。未出生,0-6个月,6-12个月,1-3岁,3-6岁,6岁以上 -
字段名改为中文,除去不需要字段,易于理解
-
数据预处理结束,图为清理后数据格式
数据可视化及分析
销量分析
- 年度汇总
数据记录的是2012年7月至2015二月的销售数据。为保持有效对比,选取2012-2014年的7至12月销售数据。可以看出总体销量是迅速上升的。
-
季度汇总
2012,2015数据不全,从13、14年的数据来看,第一季度的销量最低,第四季度最高,且从第一季度到第四季度整体呈现一个上升趋势 -
同比增长率
同比增长率, 一般指和去年同期相比较的增长率。能反应平台的发展状况和产品的需求变化。 -
同季度对比,第三四季度增幅较大(7-12月份)。12年到14年底,整体销量保持上升,特别是每年第三四季度销量的增长在80%~120%。这表明这三年在淘宝母婴用品的需求增长迅速。
-
第四季度保持最高销量、高增长,可能跟假期及促销活动有关(国庆、双十一、圣诞、年终促销)。
产品分析
- 商品种类分析
首先,我们按照商品类别分析,看一下哪类产品最受欢迎
商品总共有六个大类。可见最受欢迎的商品种类编号是28。所有的销售量中,前三种商品(28、50008168、50014815)市场占比将近90%。 - 商品分析
其次,我们按具体的商品分析,看看哪几个商品最受欢迎。
销量前三的商品序号为50018831(17%)、50011993(5%)、50012788(4%).总得来说商品种类多,需求多样化。50018831商品销量远远领先其他,要保持供应充足。
用户分析
因为用户信息缺失严重,正确填写婴儿性别和生日的记录大概1000+条,所以只能以这些数据来分析。可视为抽样分析。
- 婴儿性别比例
婴儿性别为男的数量是438,婴儿性别为女的数量是492。
男女比例基本一致,未知是性别填错,可忽略
- 婴儿性别偏好
整体数量上女婴家长购买力强于男婴家长。
女婴家长中最受欢迎的商品种类是50014815,男婴家长中最受欢迎的商品种类是50008168。
38、50014815两类商品可能主要是针对女性婴儿的产品,因为女婴消费占比超过70%。 - 婴儿年龄分布
购买人群中,婴儿年龄段为1-3岁的父母最多,6岁以上最少。其他年龄段类似。 - 重复购买情况
29919人次发生一次购买行为,48人次发生2次购买行为,4人次发生四次购买行为。总体来说复购率很低。
总结
- 母婴产品销量总体来看呈上升趋势,上升幅度大幅度。
- 母婴产品的销售高峰集中在每年的第四季度
- 28、50008168、50014815三类商品市场份额接近90%,50018831商品是爆款。
- 1-3岁的婴儿父母是最大消费人群,同时购买意愿也最强烈。六岁以上婴儿数量最少,市场份额低。
- 绝大多数消费者只发生一次购买行为。应该想办法提高复购率。