科比职业生涯数据集分析

1.项目目标

通过分析科比职业生涯比赛的相关数据,掌握Numpy, Pandas, Matplotlib, Seaborn等常用数据分析库的用法,掌握常规的数据预处理的方法以及特征工程。掌握建立随机森林模型,模型参数调整,构建最好的模型,预测测试数据,并保存测试数据的方法。

2.科比生涯简介

不论你是否看NBA,都应该听说过科比布莱恩特这个名字,它是最接近篮球之神乔丹的运动员。科比于1996年以13顺位的选秀身份进入联盟,一生都效力于洛杉矶湖人队。于2016年宣布退役,职业生涯获奖无数,5次NBA总冠军,2次FMVP,1次MVP,4次AMVP,18次全明星,生涯总得分超33000分,未来的名人堂球员等。在今年的1月26日,科比乘坐的私人飞机不幸失事,科比和二女儿吉安娜永远地离开了我们,这对无数球迷是一个莫大的打击。虽然科比离开了我们,但曼巴精神将激励着一代又一代的年轻人去追逐自己的梦想。
科比职业生涯数据集分析

3.该数据集简介

该数据集收录了自96赛季~2016赛季,科比整个职业生涯的比赛记录,共有30697条数据。每一条数据都是一次出手记录,其中包括动作类型,投篮类型,投射距离,投射位置,是否命中等25个特征。在该数据集中我们将以是否命中篮筐为标签值来进行分析,带有标签值的数据共25697条。我们将以这25697条数据作为训练数据进行建模,来对不带标签的5000条数据进行预测。

4.数据集中各列特征说明

列名称 含义
action_type 动作类型,如跳投,扣篮,上篮
combined_shot_type 组合投篮类型,如跳投,扣篮,勾手,擦板,罚球
game_event_id 比赛的编号
lat 出手的纬度
loc_x 出手的x坐标
loc_y 出手的y坐标
lon 出手的经度
minutes_remaining 距离比赛结束,还剩多少分钟
period 交手的场次,取值为1~7
playoffs 是否是打季后赛
season 赛季,如13~14赛季
seconds_remaining 距离比赛结束,还剩多少秒
shot_distance 出手距离
shot_made_flag 是否命中
shot_type 投射类型,两分球还是三分球
shot_zone_area 出手区域,左侧,右侧,中场,后场等
shot_zone_basic 另一种划分出手区域的方式,中线,禁区,油漆区,左侧底角,右侧底角等
shot_zone_range 出手区域的距离,小于8英尺,816英尺,1624英尺,24英尺以上等
team_id 球队编号
team_name 球队名称
game_date 比赛日期
matchup 对阵双方
opponent 对手
game_id 比赛的编号
shot_id 出手的编号

5.流程简介

  • 读取数据并做简单的描述性统计
  • 探索性分析,单变量分析,双变量分析
  • 数据与处理和特征工程
  • 建立随机森林模型并进行调参,选择最优参数
  • 对测试数据进行预测,并保存模型结果

数据集和代码请参考:
科比职业生涯数据集分析