机器学习的正负样本

这两天看一个数据分析的比赛，刚开始搞比赛，很多知识点都还不清楚。记录在这里，方便以后忘记的时候查看。

参加的比赛是“基于Adversarial Attack的问题等价性判别比赛“，参考网址：https://biendata.com/competition/2019diac/
机器学习的正负样本
将其中介绍的内容截图如上。
在数据详情部分，对于数据的介绍是这样说的。”训练集根据在实际项目中的数据情况，以问题组的形式提供，每组问句又分为等价部分和不等价部分，等价问句之间互相组合可以生成正样本，等价问句和不等价问句之间互相组合可以生成负样本。“
看到正负样本，我就去搜了下。网上的说法为：

”
针对与分类问题，正样本则是我们想要正确分类出的类别所对应的样本，例如，我们要对一张图片进行分类，以确定其是否属于汽车，那么在训练的时候，汽车的图片则为正样本，负样本原则上可以选取任何不是汽车的其他图片，这样就可以训练出来一个汽车的分类网络，对这个网络进行测试会发现，它会将一些非汽车的图片误报成汽车，这些误报的图片则为“难分样本”，后续进行训练的时候，将这些难分样本加入至负样本集合中进行训练，最后得到的网络模效果会更好一些，这个过程就叫做“难例挖掘”。另外，在选取负样本的时候，原则上是可以选择任意非汽车的图片作为负样本，但是比较合理的情况应该是要考虑到实际应用场景，例如实际应用是对行车记录仪上面捕捉到的图片进行分类，那么，负样本则应该是捕捉到的其他非汽车的图片，例如马路，树木，路灯等。

针对与检测问题，需要确定哪里有什么，也就是既要对位置进行回归，还要进行分类，这时的正样本就是我们事先标注出来的bbox框之中的部分，但是一般的检测框架，都是按照一定的规则生成一些预测bbox，那么在进行正样本的选取时，就需要判断这些生成的bbox与GT的bbox之间的overlap，如果overlap大于某一阈值，则将该预测bbox作为正样本，如果没有超过这一阈值，则认为是负样本。“引用自https://www.cnblogs.com/rainsoul/p/7890641.html

结合这个竞赛题目，自然语言处理方面的正负样本可以更好理解。这道题本质上还是一个分类问题。将给出的数据集，解析xml文件后，重新做一个新的数据集。分为等价（1）和不等价（0）的组合，进行训练。

机器学习的正负样本

相关推荐