不需要程序员,产品经理也能10分钟打造一个深度学习模型

想要给产品加上图像识别或声音识别的AI能力需要做哪些工作?

第一步:定义和明确需求,第二步:采集和标注大量的数据,第三步:写算法、调参数,第四步:校验模型效果并持续反复第二步和第三步,第五步:将模型做工程化的服务封装为API或者SDK。

近日,百度EasyDL定制化训练和服务平台,全新上线了定制声音识别,称无需深度学习基础,每个人都可以定制模型。那是不是以后在没有程序员的情况下,产品经理就能够自己完成图像识别或声音识别的项目呢?

欲知答案如何,且看下文分解。

AI 很好,应用也很多,比如语音助手,又比如人脸打卡。

如今,国内外AI巨头们都在谈“AI *化”、“平等赋能每一个开发者”,期望将“高不可攀”的AI快速应用到生产生活中。但是理想很丰满,现实很骨感,人才贵、GPU贵、耗时长是挡在AI*化门口的三座大山。

人才贵:《纽约时报》的一篇报道显示,著名的 OpenAI 在 2016 年向其顶尖研究员 Ilya Sutskever 支付了超过了 190 万美元的薪酬。如今,甲骨文公司为挖人,给 AI 专家开出了 600 万美元高薪。而猎聘网的数据显示,2017 第三季度国内 AI 方向的平均年薪为 32.95 万元,比互联网行业的平均薪资高出一大截。

GPU贵、耗时长:Facebook 训练 OpenGo 这个围棋 AI 使用了 2000 块 GPU,一共训练了两到三周的时间。当然,如果你只有一块 GPU(而且也不便宜),要想训练出一个 OpenGo 得花多少时间?差不多 77 年。一位网友估算,训练一个 OpenGo 要消耗 148 MWh 的电量,可以为 148000 户美国家庭供电一小时。

举个离我们更近的例子:过去七八年,百度每年把约15%的收入投到AI技术研发上,总投入超百亿,百度有上万名AI工程师、百万台服务器集群、千亿级的参数和样本参与训练、万亿级训练数据,才不断推动算法、算力的提升和迭代。可以说,这样大的投入,对绝大部分公司来说都是不可能的。

不需要程序员,产品经理也能10分钟打造一个深度学习模型

2016 年,凯文·凯利曾在公开演讲中表示,未来,AI会成为一种基础服务,并且具有流动性。同时,这种服务会像电力一样通过网络进行传输,人们对AI也会像对待日用品一样顺手。当越来越多的人使用AI,它就会变得更加聪明。它变得更聪明后,也会有更多人使用。然而,AI 想要和电力一样赋能万物,那就必须借助某种方式变得触手可及,并且大幅降低使用成本和使用门槛。

为了解决这些问题,包括 Google 、微软、以及百度在内的诸多科技巨头都把可定制化的 AI 服务搬到了云端。比如 Google 的 Cloud AutoML 、微软的Custom Vision以及百度的 EasyDL 等,其中EasyDL也支持离线终端使用。

有了这些服务,即便你不懂 AI 知识,只要有数据,就能在短时间内得到一个符合要求的算法模型,剩下的事交给机器去做就好了。

Google在2018年1月发布Cloud AutoML Vision,根据Google介绍,即使不懂深度学习,也可以借助这项服务搭建定制化的图像识别模型。7月30号,Google又新增了Cloud AutoML Natural Language与Cloud AutoML Translation两大工具。AutoML Natural Language用于解析文本的结构和含义,可从文本文档、新闻或博客文章中提取有关人物、地点、事件等信息。AutoML Translation可使用最新的神经机器翻译技术将一串字符翻译成任何支持的语言。目前,这三项工具都已发布了面向公众的beta测试版,不过开发者使用这些工具每小时需要花费20美元。Google称希望通过Cloud AutoML降低开发者、研究者和企业群体使用人工智能相关工具和框架的门槛。

Google并不是业内第一例,微软在2017年年中就发布了Custom Vision,用户只需要几十个摄影样本,Custom Vision就可以完成模型训练、分析等后续工作。不过,这个平台只是图像分类,同时,用户需要一个Azure 帐户,每个月 的基础技术支持需要29 美元。

为了满足庞大的中国开发者群体的需求,百度也在2017年11月推出定制化训练和服务平台 EasyDL。作为目前国内这个方向首批正式对外开放的产品,EasyDL 自 2017 年 11 月上线以来大幅推进了 AI 在中国的落地,目前已经可以支持定制化图像识别(图像分类和物体检测)以及定制化声音识别两大类服务。

  • 图像分类:识别一张图中是否是某类物体/状态/场景,可以识别图片中主体或者状态单一的场景。训练数据每类仅需 20-100 张图片,最快 10
    分钟可训练完毕。
  • 物体检测:定制识别出图片里每个物体的位置、名称。可以识别图片中有多个主体、或者要识别位置及数量的场景。训练数据每个标签仅需20-100张图片。训练时间可在小时级完成。
  • 声音分类:可基于一个音频文件识别出是什么声音或者谁的声音,或者是什么状态/场景的声音。训练数据每类仅需 50 个以上音频,1000个音频可在 1 个小时左右训练完毕。

截止到今年7月,已有超过6000个企业和开发者使用EasyDL,累计创建定制模型超过1万个,被应用于互联网、零售、医药、制造业、交通、仓储物流、安防监控等众多行业。

比如,在刚刚过去的百度 AI 开发者大会(Baidu Create 2018)上,援藏医生陈静飞利用EasyDL进行显微镜下寄生虫虫卵识别。

不需要程序员,产品经理也能10分钟打造一个深度学习模型

在缺医少药的藏区,陈静飞运用 EasyDL 开发了“寄生虫虫卵识别系统”,辅助检验人员进行相关诊断,有效改善人工识别的诸多不足。目前模型已经在临床进行小范围试点,辅助检验人员进行相关诊断,经临床试点测试准确率达 97%。

EasyDL 吸引的不只是中国开发者,还有美国的开发者。

例如美国零售安防提供商 Checkpoint 的 BOB SYSTEM 设备,就运用百度的 EasyDL 技术,实现了对购物车下层的商品的准确判断。一旦识别出未结算商品时,收银员就会实时收到提醒,这大大提升了收银员的结账效率,更帮助超市降低了运营成本和商品损耗。目前,该设备已经被美国纽约州、新泽西州、宾夕法尼亚州等周边七个州的 160 个超市顺利应用。在应用 EasyDL 之后,超市识别有商品购物车准确率可达 95% 以上,远超之前靠传感器判断的准确率。

不需要程序员,产品经理也能10分钟打造一个深度学习模型

通过上面的案例,想必最开始的问题已经得到解答:如果没有程序员,产品经理能够自己完成图像识别或声音识别的项目吗?能!

而且,只要你有数据,只需四步就可以。

以EaadyDL新上的声音分类为例,几分钟即可掌握这个教程。

不需要程序员,产品经理也能10分钟打造一个深度学习模型

一、创建模型

在目录【创建模型】中,只需选择模型类型、提交模型名称、模型描述、联系方式即可创建模型。

不需要程序员,产品经理也能10分钟打造一个深度学习模型

二、上传并标注数据

在训练之前需要在【数据集管理】中创建数据集,输入数据集名称即可创建一个空数据集。每个数据集里面可以包含有多个标签的音频数据。

不需要程序员,产品经理也能10分钟打造一个深度学习模型

三、训练模型并校验模型效果

数据提交后,可以在目录中找到【训练模型】操作训练。首先选择一个模型,然后勾选要训练的数据标签。训练时间与数据量大小有关,1000个音频文件大约可以在30分钟内训练完成。

训练完成后,可以在【我的模型】列表中看到模型效果,以及详细的模型评估报告。实际效果可以在左侧目录中找到【模型校验】功能进行校验,或者发布为接口后测试。

一个模型很难一次性就训练到最佳的效果,可能需要结合模型评估报告和校验结果不断扩充数据和调优。百度EasyDL还设计模型迭代功能,确定一个模型后,之后有迭代需求只需要在训练模型中选择一个历史版本号,就可以基于历史版本进行迭代。

四、发布模型——在线API和离线SDK

模型训练完毕后,自定义接口地址后缀、服务名称,即可申请发布。EasyDL支持发布在线API和离线SDK,其中,离线SDK可部署在手机、摄像头终端的场景中离线运行。申请发布后,通常的审核周期为T+1,即当天申请第二天可以审核完成。这时,这个模型就可以从众多声音中识别出猫叫、狗叫还是人说话的声音,并自动分类。

不需要程序员,产品经理也能10分钟打造一个深度学习模型

上线模型后可以免费获得 500次/天,qps=2的接口调用服务,而且超过这个量级也可以与官方联系进行扩容。

总结一下,EasyDL 具备以下四大核心优势:

  • 可即用:业务流程极简,而且有详尽的中文文档,无需深度学习基础便可上手,十分易用。
  • 更轻快:算法与工程优化,平均训练耗时 < 15 分钟。EasyDL 应用全球首创 AI Workflow 引擎,实现了从数据到服务 API
    的一站式流程,并且大大缩减了数据训练时间,从几十小时降到分钟级。
  • 高精度:EasyDL 采用高性能分布式深度学习框架 PaddlePaddle,在模型效果上也有保障,超过三分之二的模型,准确率 >
    90%。
  • 强安全:通过数据加密与隔离而做到完善服务调用鉴权。

可以说,EasyDL 真正做到了零门槛,也就是“Everyone can AI”。

得开发者得天下,有了 EasyDL,每个人都可以成为 AI 开发者,而这将是百度的核心竞争力所在。

未来已来,Everyon can AI。