【榜首团队专访】冲刺复赛,他们有绝招

距离复赛结束仅剩一周的时间,排行榜上的队伍竞争也越来越激烈。紧张之余,选手们可能也注意到初赛和复赛的排行榜榜首,有个叫DYG的队伍强劲霸榜。队伍中几位大神的身份,也让吃瓜群众们产生了好奇。为了解开大家的疑惑,也为了在复赛最后阶段帮助大家拓展上分思路,主办方特地邀请了DYG成员之一——鱼佬王贺,来分享他们的团队故事。

Q&A

Q: 王贺你好!相信你在官方群里有看到,选手们都在挖掘DYG队伍的成员信息。但是你之前一直没有透露到底谁才是你的队友。复赛即将结束,能给大家介绍一下你们队伍的成员吗?

相信很多人都已经猜到我们团队的成员组成了。成员三人的ID首字母组成了队名“DYG”,分别是大白(D)、鱼(Y)和郭大(G)

如果大家还不熟悉,那我就详细介绍下我的队友吧:

大白,从事 NLP 相关工作,业余喜欢参加各类数据比赛,从实践中摸索算法,国内NLP和数据挖掘比赛中多次名列Top5;

郭大,中山大学直博生,曾获2019年腾讯比赛冠军及CCF 2018数据竞赛亚军,并在国际会议NeurIPS、AAAI、ACL和EMNLP发表过多篇一作论文。

Q: 郭大是你的老队友了。去年也是他和你一起登上腾讯广告算法大赛的冠军舞台,今年队伍加上大白可谓锦上添花!可以介绍下你们最终组队的原因吗?

我和郭大是在18年腾讯赛认识的。多年的关系,以及19年合作的默契,促使我俩在今年比赛还未开始时就确认组队意向。大白首次提交直接Top,这一举动进入了我和郭大的视线,他也因此成为我们想要邀请组队的对象。事实上,“DYG”也不负期望,一路霸榜至今。默契的配合,也让我们在比赛中高效率上分,没有浪费太多时间。

Q: 重头戏来了。初复赛DYG队伍的成绩一直保持排行榜第一,并且初赛期间你和队友给众多选手提供过一些上分思路。现在距离复赛结束还有一周的冲刺时间,可以请你分享一下DYG复赛的上分思路吗?

最后一两周,相信很多队伍在思路上已经“弹尽粮绝”。当然,我们团队也是如此。不过还是有上分思路的,我们团队后期主要围绕着模型融合进行,收益也非常明显。

模型融合的关键是差异性,因此构造具有差异性的结果成为关键。我们团队成员先是分开各自融合,然后再将融合后的三个结果进行融合得到最终结果。接下来我就来讲讲如何构造差异性吧:

1. 输入样本差异:这部分操作还是蛮简单的。进行简单的序列调整,比如调整序列长度、序列顺序。同时还可以进行数据增强。这一部分提升还是蛮多的。凡是自己能想到的都跑一下,保证差异。衡量差异性的话,大概两个结果有5w+个不同的label吧。

2. 模型选择差异:这个在群里讨论的是蛮多的。即使换了个模型或者网络结构后,分数差三四个千,只有结果存在差异性,还是可以融合的。构造差异性的方式具体有LSTM、GRU、CNN、LSTM + Attention、LSTM + CNN、Transformer、Transformer + LSTM、LightGBM、XGBoost等各式各样的组合。当然也可以从模型内部的参数出发,比如**函数、dropout等。

3. 训练目标差异:最基本的是age的十分类和gender的二分类,可以将其组合成二十分类,也可对age转换成十个二分类(未尝试)。

构造好这些结果后怎么进行融合也是值得思考的。用投票?用加权?还是用stacking?这些还都得一一尝试。初赛最后阶段,stacking的效果比加权法高两三个万分位。我们团队线下对比了两个结果,有14w+个label不同,如果能够改善这14w+个样本结果,那么提升将会非常之大。不过目前还没有好的优化方法。

Q: 感谢DYG队伍的上分方法分享!最后,请王贺代表DYG队伍,对所有参赛选手说一句鼓励的话吧。

对于一个竞赛而言,最重要的不是成绩,而是在比赛中有所收获,并不断突破自己

复赛即将进入尾声,祝各位选手都能高效备战、思如泉涌,在赛场上发挥出自己的最佳实力。

同时,欢迎选手们到“官网---个人信息”页面上传简历。加入腾讯,就趁现在!

扫码加入大赛官方QQ群

或搜索群号:1094257162

和小伙伴一起解锁更多内容

【榜首团队专访】冲刺复赛,他们有绝招

点此进入官网了解更多大赛动向

【榜首团队专访】冲刺复赛,他们有绝招