某航空公司客户价值分析

研究目的:
借助航空公司客户数据,对客户进行分类,对不同的客户类别进行特征分析,比较不同类客户的客户价值,对不同价值的客户类别提供个性化服务,制定相应的营销策略。
数据说明:
该数据包含了62988个客户的基本信息、乘机信息以及积分信息其中包含了会员卡号、入会时间、性别、年龄、会员卡级别、在观测窗口内的飞行公里数、飞行时间等44个特征属性。具体详细描述如下:
某航空公司客户价值分析
某航空公司客户价值分析
某航空公司客户价值分析

数据的探索分析:
利用Pandas库将数据导入,首先看看数据集的大小:
某航空公司客户价值分析
变量信息:
某航空公司客户价值分析
看看数据的前5行:
某航空公司客户价值分析
基本的描述性分析:
某航空公司客户价值分析

数据预处理

通过对探索分析结果的观测可知,数据集中存在缺失值和票价为零但是平均折扣率与总飞行公里数大于零的不合理值,但是所占比例较小,这里直接删去。

某航空公司客户价值分析
删除后剩余的样本值是62044个,可见异常样本的比例不足1.5%,因此不会对分析结果产生较大的影响。

由于数据属性特征太多,并不是每个属性提供的信息都是有价值的,故需要对特征进行选择。这里选取入会时间、观测窗口的结束时间、第一年总票价、第二年总票价、观测窗口总飞行公里数、飞行次数、平均乘机时间间隔、最后一次乘机时间至观察窗口末端时长、平均折扣率这九个特征。选取理由如下:

1、 通过选取入会时间、观测窗口的结束时间可以算出会员入会时间距离观测窗口的结束时间的时长,反映会员是不是老用户。

2、 通过第一年总票价、第二年总票价、观测窗口总飞行公里数可以计算平均飞行每公里的票价,看出哪些用户能够带来更大的利润。

3、 通过总飞行公里数、飞行次数可以反映客户的忠诚度。

4、 通过平均乘机时间间隔看客户的乘机频率。

5、 通过平均折扣率可以看客户的价值,一般价值越高折扣率也越高。

得到处理后的数据如下:
某航空公司客户价值分析

由于数据量纲不同,数据差异较大,对数据进行归一化之后,数据如下:

某航空公司客户价值分析

聚类算法实现:
在聚类之前先通过肘部图大致判断聚类簇数:
某航空公司客户价值分析
图中可以发现簇数为4、5、6时较好,但具体取哪个值还需要进一步分析。当聚类数为4、5、6时,得到各类别的聚类中心和样例数分别如下:
某航空公司客户价值分析某航空公司客户价值分析
某航空公司客户价值分析

其雷达图分别为:

某航空公司客户价值分析
某航空公司客户价值分析
某航空公司客户价值分析

从雷达图可以发现:

当k取值4时,在入会时间与平均折扣率方面,簇的表现不明显,聚类效果没有达到最佳。

当k取值5时,分析的结果比较合理,分出的五种类型人群都有自己的特点又不相互重复

当k取值6时,各种人群也都有自己的特点,但是第1簇人群完全在第4簇人群特征相近,聚类稍显冗余。

综上,当k取值为5时,得到最好的聚类效果,将所有的客户分成5个人群,再进一步分析可以得到以下结论:

1.第一簇人群,16560人,这类人最大的特点就是入会的时间较长,属于老客户,但是其飞行次数、总里程都不多,平均每公里票价以及平均折扣率都不高,且平均乘机时间间隔也不长,说明这类客户在入会以后的活跃度不高,可能乘坐少数几次后就没有再乘坐过该航空公司的飞机,算是已经流失的客户,针对这类客户,应该尽量掌握这类客户的最新信息,保持与客户的互动,采取一定的营销手段例如优惠措施、交叉销售等来挽回这类客户。

2.第二簇人群,3799人,最大的特点就是平均乘机时间间隔长,飞行次数与总里程都少,平均每公里票价以及平均折扣率都不高,入会时间也较短,这类用户一般是偶尔一次消费,可能是季节原因,也可能与促销活动有关,对于这类用户要尽量维持并刺激消费。

3.第三簇人群,9549人,最大的特点就是平均每公里票价以及平均折扣率都最高,飞行次数、总里程以及入会时间都较少,这类客户属于高价值客户,一般为乘坐高等舱的商务人员,是重点保持与发展对象,可对其采取相关的优惠政策例如会员升级措施使他们的乘坐次数增加。

4.第四簇人群,5571人,最大的特点总里程和飞行次数都是最多的,平均每公里票价以及平均折扣率都较高,入会时间较长,这类客户的忠诚度较高,需要好好维持,也可以采用会员升级措施。

5.第五簇人群,26565人, 各方面的数据都是比较低的,属于低价值用户,对于这类用户先要尽量维持,然后刺激其消费,激发其消费活力。

总体来看,该航空公司的低价值客户与一般客户较多,其中有一些客户存在流失的风险,对于这些客户,在维持的基础上要想办法来刺激他们消费;对于高价值以及忠诚度较好的客户要重点维持。