不需要程序员，产品经理也能10分钟打造一个深度学习模型

想要给产品加上图像识别或声音识别的AI能力需要做哪些工作？

第一步：定义和明确需求，第二步：采集和标注大量的数据，第三步：写算法、调参数，第四步：校验模型效果并持续反复第二步和第三步，第五步：将模型做工程化的服务封装为API或者SDK。

近日，百度EasyDL定制化训练和服务平台，全新上线了定制声音识别，称无需深度学习基础，每个人都可以定制模型。那是不是以后在没有程序员的情况下，产品经理就能够自己完成图像识别或声音识别的项目呢？

欲知答案如何，且看下文分解。

AI 很好，应用也很多，比如语音助手，又比如人脸打卡。

如今，国内外AI巨头们都在谈“AI *化”、“平等赋能每一个开发者”，期望将“高不可攀”的AI快速应用到生产生活中。但是理想很丰满，现实很骨感，人才贵、GPU贵、耗时长是挡在AI*化门口的三座大山。

人才贵：《纽约时报》的一篇报道显示，著名的 OpenAI 在 2016 年向其顶尖研究员 Ilya Sutskever 支付了超过了 190 万美元的薪酬。如今，甲骨文公司为挖人，给 AI 专家开出了 600 万美元高薪。而猎聘网的数据显示，2017 第三季度国内 AI 方向的平均年薪为 32.95 万元，比互联网行业的平均薪资高出一大截。

GPU贵、耗时长：Facebook 训练 OpenGo 这个围棋 AI 使用了 2000 块 GPU，一共训练了两到三周的时间。当然，如果你只有一块 GPU（而且也不便宜），要想训练出一个 OpenGo 得花多少时间？差不多 77 年。一位网友估算，训练一个 OpenGo 要消耗 148 MWh 的电量，可以为 148000 户美国家庭供电一小时。

举个离我们更近的例子：过去七八年，百度每年把约15%的收入投到AI技术研发上，总投入超百亿，百度有上万名AI工程师、百万台服务器集群、千亿级的参数和样本参与训练、万亿级训练数据，才不断推动算法、算力的提升和迭代。可以说，这样大的投入，对绝大部分公司来说都是不可能的。

2016 年，凯文·凯利曾在公开演讲中表示，未来，AI会成为一种基础服务，并且具有流动性。同时，这种服务会像电力一样通过网络进行传输，人们对AI也会像对待日用品一样顺手。当越来越多的人使用AI，它就会变得更加聪明。它变得更聪明后，也会有更多人使用。然而，AI 想要和电力一样赋能万物，那就必须借助某种方式变得触手可及，并且大幅降低使用成本和使用门槛。

为了解决这些问题，包括 Google 、微软、以及百度在内的诸多科技巨头都把可定制化的 AI 服务搬到了云端。比如 Google 的 Cloud AutoML 、微软的Custom Vision以及百度的 EasyDL 等，其中EasyDL也支持离线终端使用。

有了这些服务，即便你不懂 AI 知识，只要有数据，就能在短时间内得到一个符合要求的算法模型，剩下的事交给机器去做就好了。

Google在2018年1月发布Cloud AutoML Vision，根据Google介绍，即使不懂深度学习，也可以借助这项服务搭建定制化的图像识别模型。7月30号，Google又新增了Cloud AutoML Natural Language与Cloud AutoML Translation两大工具。AutoML Natural Language用于解析文本的结构和含义，可从文本文档、新闻或博客文章中提取有关人物、地点、事件等信息。AutoML Translation可使用最新的神经机器翻译技术将一串字符翻译成任何支持的语言。目前，这三项工具都已发布了面向公众的beta测试版，不过开发者使用这些工具每小时需要花费20美元。Google称希望通过Cloud AutoML降低开发者、研究者和企业群体使用人工智能相关工具和框架的门槛。

Google并不是业内第一例，微软在2017年年中就发布了Custom Vision，用户只需要几十个摄影样本，Custom Vision就可以完成模型训练、分析等后续工作。不过，这个平台只是图像分类，同时，用户需要一个Azure 帐户，每个月的基础技术支持需要29 美元。

为了满足庞大的中国开发者群体的需求，百度也在2017年11月推出定制化训练和服务平台 EasyDL。作为目前国内这个方向首批正式对外开放的产品，EasyDL 自 2017 年 11 月上线以来大幅推进了 AI 在中国的落地，目前已经可以支持定制化图像识别（图像分类和物体检测）以及定制化声音识别两大类服务。

图像分类：识别一张图中是否是某类物体/状态/场景，可以识别图片中主体或者状态单一的场景。训练数据每类仅需 20-100 张图片，最快 10
分钟可训练完毕。
物体检测：定制识别出图片里每个物体的位置、名称。可以识别图片中有多个主体、或者要识别位置及数量的场景。训练数据每个标签仅需20-100张图片。训练时间可在小时级完成。
声音分类：可基于一个音频文件识别出是什么声音或者谁的声音，或者是什么状态/场景的声音。训练数据每类仅需 50 个以上音频，1000个音频可在 1 个小时左右训练完毕。

截止到今年7月，已有超过6000个企业和开发者使用EasyDL，累计创建定制模型超过1万个，被应用于互联网、零售、医药、制造业、交通、仓储物流、安防监控等众多行业。

比如，在刚刚过去的百度 AI 开发者大会（Baidu Create 2018）上，援藏医生陈静飞利用EasyDL进行显微镜下寄生虫虫卵识别。

在缺医少药的藏区，陈静飞运用 EasyDL 开发了“寄生虫虫卵识别系统”，辅助检验人员进行相关诊断，有效改善人工识别的诸多不足。目前模型已经在临床进行小范围试点，辅助检验人员进行相关诊断，经临床试点测试准确率达 97%。

EasyDL 吸引的不只是中国开发者，还有美国的开发者。

例如美国零售安防提供商 Checkpoint 的 BOB SYSTEM 设备，就运用百度的 EasyDL 技术，实现了对购物车下层的商品的准确判断。一旦识别出未结算商品时，收银员就会实时收到提醒，这大大提升了收银员的结账效率，更帮助超市降低了运营成本和商品损耗。目前，该设备已经被美国纽约州、新泽西州、宾夕法尼亚州等周边七个州的 160 个超市顺利应用。在应用 EasyDL 之后，超市识别有商品购物车准确率可达 95% 以上，远超之前靠传感器判断的准确率。

不需要程序员，产品经理也能10分钟打造一个深度学习模型

通过上面的案例，想必最开始的问题已经得到解答：如果没有程序员，产品经理能够自己完成图像识别或声音识别的项目吗？能！

而且，只要你有数据，只需四步就可以。

以EaadyDL新上的声音分类为例，几分钟即可掌握这个教程。

一、创建模型

在目录【创建模型】中，只需选择模型类型、提交模型名称、模型描述、联系方式即可创建模型。

二、上传并标注数据

在训练之前需要在【数据集管理】中创建数据集，输入数据集名称即可创建一个空数据集。每个数据集里面可以包含有多个标签的音频数据。

三、训练模型并校验模型效果

数据提交后，可以在目录中找到【训练模型】操作训练。首先选择一个模型，然后勾选要训练的数据标签。训练时间与数据量大小有关，1000个音频文件大约可以在30分钟内训练完成。

训练完成后，可以在【我的模型】列表中看到模型效果，以及详细的模型评估报告。实际效果可以在左侧目录中找到【模型校验】功能进行校验，或者发布为接口后测试。

一个模型很难一次性就训练到最佳的效果，可能需要结合模型评估报告和校验结果不断扩充数据和调优。百度EasyDL还设计模型迭代功能，确定一个模型后，之后有迭代需求只需要在训练模型中选择一个历史版本号，就可以基于历史版本进行迭代。

四、发布模型——在线API和离线SDK

模型训练完毕后，自定义接口地址后缀、服务名称，即可申请发布。EasyDL支持发布在线API和离线SDK，其中，离线SDK可部署在手机、摄像头终端的场景中离线运行。申请发布后，通常的审核周期为T+1，即当天申请第二天可以审核完成。这时，这个模型就可以从众多声音中识别出猫叫、狗叫还是人说话的声音，并自动分类。

上线模型后可以免费获得 500次/天，qps=2的接口调用服务，而且超过这个量级也可以与官方联系进行扩容。

总结一下，EasyDL 具备以下四大核心优势：

可即用：业务流程极简，而且有详尽的中文文档，无需深度学习基础便可上手，十分易用。
更轻快：算法与工程优化，平均训练耗时 < 15 分钟。EasyDL 应用全球首创 AI Workflow 引擎，实现了从数据到服务 API
的一站式流程，并且大大缩减了数据训练时间，从几十小时降到分钟级。
高精度：EasyDL 采用高性能分布式深度学习框架 PaddlePaddle，在模型效果上也有保障，超过三分之二的模型，准确率 >
90%。
强安全：通过数据加密与隔离而做到完善服务调用鉴权。

可以说，EasyDL 真正做到了零门槛，也就是“Everyone can AI”。

得开发者得天下，有了 EasyDL，每个人都可以成为 AI 开发者，而这将是百度的核心竞争力所在。

未来已来，Everyon can AI。