高质量的数据是人工智能的基础

高质量的数据是人工智能的基础

人工智能技术可能有几十年的历史,但在获取大量数据方面,却一直缺少一部分。事情发生了变化,这是第一次,由于数字化的能力,我们现在不仅拥有所有类型的数据,还可以实时、在线和随时访问各种各样的数据流。

教计算机理解信息,像什么东西包含在图像中,以及事物如何被适当分类,需要大量的数据,数据和人工智能的融合正在引导我们进入一个有前途的路径来塑造最大化的人工智能效益的未来。

数据到人工智能-“垃圾输入,垃圾输出”

产业发展是国际竞争的结果,产业龙头企业的发展往往是推动产业走向成熟的主力军。

“糟糕的数据质量是机器学习广泛、有益的应用的头号敌人,”托马斯·C·雷德曼(Thomas C.Redman)说,也就是“数据文档”(the data Doc)——数据质量管理的最初先驱之一。我们都知道任何AI和ML的应用都只会和数据的质量一样好,基本上你得到的是高度依赖于输入的。

有缺陷的数据让我们付出了什么代价?

为了加快人工智能技术的发展,数据采集和标注的整体性能直接反映了训练结果及其迭代速度。近年来,人脸识别技术取得了令人难以置信的进步,但无论这台机器有多好,如果仍然输入错误的数据,我们都不会得到好的输出。下面是一些例子:

“误认董明珠”事件中,中国最大的空调制造商总裁董明珠的形象在宁波市的公共显示屏上闪现,标题是她在红灯下非法过马路。原来,是摄像头误把公车旁的广告当成了她的真面目”

而在董明珠被诬告前几个月,亚马逊的人脸识别工具“Rekognition”将28名国会议员即议员与抢劫犯配对,并错误地将他们认定为违法者。它提出了目前阶段人脸识别的不可靠性以及我们应该让技术在多大程度上干预我们的系统的讨论。我的意思是,如果创新技术意味着把无辜的人关进监狱,我们可以做得更好。

唤醒矢量的工作流程,一个卓越的数据服务提供商,尤其是在数据质量方面

虽然劳动密集,但当前的数据注释工作流过于依赖劳动。事实上,基于作为“唤醒矢量”联合创始人两年的工作经验,我认为该行业在所有团队成员之间高效协调方面的价值,这可以进一步分解为灵活的数据分发、收集和质量保证系统,这是一个利用质量、效率和数据安全的平台。

我们已经开发了一个在线SaaS平台LabelHub,我们提供了一个灵活的工作流程,包括自动数据分布,注释者性能跟踪,集中数据库和足够的模板在广泛的行业项目。labelhub官网

预算有限的中小型人工智能公司可能会被困在他们能得到的东西上,但顶级玩家更可能转向高质量的数据服务提供商。

总而言之

与其钻研改进ML算法,不如采取措施,通过有缺陷或不完整的数据来降低风险。从本质上说,你越了解你的数据,模型就越有可能获得成功的结果。在未来我们在设计将初次模型结果导入未标注的数据中,再进行处理,做到模型与数据循环促进。