kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

赛题地址

https://dianshi.baidu.com/competition/29/question

竞赛目的

根据用户以往点击情况和路线推荐  对用户的行走方式选择进行预测,这里区分好sid和pid(sid是session会话的意思,表示一次导航过程  ,pid表示的是一个人),pid是直接关联于属性的,sid是关联于一次导航任务。  是根据query表、plans表、profiles表情况去预测    click表对应的click信息。  

 kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

也就是给定用户信息和  始终点 情况下,预测用户的行走模式选择(比如步行、出租、自驾,每个对应一个mode编号,编号可能表示组合方案)

           kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

 

数据介绍(审题)

1.数提供的数据分为以下几个表:

      *用户属性信息表profiles,里面pid是用户的变化,后面是对用户信息的one-hot表示形式,里面包含了对用户交通模式选择的偏好,这里有个很特别的地方,就是   对于有相同特征的用户其实是融合到一个user ID上,但是不是同一个人。

    kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

      *用户查询表querys,这里的sid表示用户编号,pid表示导航事件编号,后面表示查询事件和想要导航的起点和终点。  (但是也发现有些查询并没有产生会话,这可能是个特征,也许是没网了吧)

kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

      *plans表提供了针对这次导航任务,  百度地图api所提供的路线选择,sid表示导航事件,经过发现其中时间和query是一致的,所以这里表示点击查询之后立即显示的路线选择,可以发现其中标识了路线的距离、耗时和行走模式。

kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

       *最后的clicks是  包含目标标签信息的,表示的是对于当前导航任务,用户是从plans表中选择了哪种导航模式,对应了编号。    后面的clickmode就是要预测的目标。(这里运输模式是可以多种组合形式,既可以是单个运行过程,也可以是多种运输过程的选择,kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读,反正没有明说 ,到时候直接多标签预测就可以了),一个用户可能点击过多次运输方式的选择,但是这里我们只是让预测  用户第一次选择路线规划方式,反馈了用户对多种推荐的选择。

       kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

2.以上就基本是完全的过程了,现在介绍下评价标准吧,毕竟我们的目标就是评价标准进行好, 所以可以在评价标准角度进行模型部分函数的选取和设置, 这本身是从数学意义上根据评价指标的特点进行方案的设定。(数据、特征、评价、模型样样都是非常大的思考点)

本赛题针对多分类问题设定了F1 score值作为评价指标每一类的得分如下计算。

                        kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

最后会综合不同分类,使用权重对不同类别的F1得分进行结合,作为最后的计分(多分类的F1 socre,可以参考这里https://blog.****.net/sinat_28576553/article/details/80258619

      kdd cup 2019赛题Context-Aware Multi-Modal Transportation Recommendation解读

3.使用eda对数据进行精细的分析,去比对  pid和sid的完整情况,  以及  不同的路线和选择的对应关系。