中国人工智能学会通讯——众包中的统计推断与激励机制 1 为什么需要众包

中国人工智能学会通讯——众包中的统计推断与激励机制 1 为什么需要众包

我今天要讲的是众包。具体来说,我将讨论如何通过众包获取高质量的数据标签。为开发一个机器学习的智能系统,我们第一步要做的事情就是获得高质量的带标签的数据。

1 为什么需要众包

通过众包我们很容易拿到大量的带有标签的数据。众包有两个优点。

●速度快。一个商业众包平台或许有上百万甚至几百万的数据标记人员。

●便宜。在亚马逊众包平台标注一个图像数据通常都不到1美分。

所以,通过众包可以以很少的花费在短时间内获得大量的带标签数据。在机器学习里大家经常会说的一句话:更多的数据会打败一个聪明的算法。