机器学习的正负样本

这两天看一个数据分析的比赛,刚开始搞比赛,很多知识点都还不清楚。记录在这里,方便以后忘记的时候查看。

参加的比赛是“基于Adversarial Attack的问题等价性判别比赛“,参考网址:https://biendata.com/competition/2019diac/
机器学习的正负样本
将其中介绍的内容截图如上。
在数据详情部分,对于数据的介绍是这样说的。”训练集根据在实际项目中的数据情况,以问题组的形式提供,每组问句又分为等价部分和不等价部分,等价问句之间互相组合可以生成正样本,等价问句和不等价问句之间互相组合可以生成负样本。“
看到正负样本,我就去搜了下。网上的说法为:


针对与分类问题,正样本则是我们想要正确分类出的类别所对应的样本,例如,我们要对一张图片进行分类,以确定其是否属于汽车,那么在训练的时候,汽车的图片则为正样本,负样本原则上可以选取任何不是汽车的其他图片,这样就可以训练出来一个汽车的分类网络,对这个网络进行测试会发现,它会将一些非汽车的图片误报成汽车,这些误报的图片则为“难分样本”,后续进行训练的时候,将这些难分样本加入至负样本集合中进行训练,最后得到的网络模效果会更好一些,这个过程就叫做“难例挖掘”。另外,在选取负样本的时候,原则上是可以选择任意非汽车的图片作为负样本,但是比较合理的情况应该是要考虑到实际应用场景,例如实际应用是对行车记录仪上面捕捉到的图片进行分类,那么,负样本则应该是捕捉到的其他非汽车的图片,例如马路,树木,路灯等。

针对与检测问题,需要确定哪里有什么,也就是既要对位置进行回归,还要进行分类,这时的正样本就是我们事先标注出来的bbox框之中的部分,但是一般的检测框架,都是按照一定的规则生成一些预测bbox,那么在进行正样本的选取时,就需要判断这些生成的bbox与GT的bbox之间的overlap,如果overlap大于某一阈值,则将该预测bbox作为正样本,如果没有超过这一阈值,则认为是负样本。“引用自https://www.cnblogs.com/rainsoul/p/7890641.html

结合这个竞赛题目,自然语言处理方面的正负样本可以更好理解。这道题本质上还是一个分类问题。将给出的数据集,解析xml文件后,重新做一个新的数据集。分为等价(1)和不等价(0)的组合,进行训练。