首发地图智能语音交互解决方案,你值得拥有

现在用户不仅可以在百度地图体验语音交互,在很多集成了地图服务的智能终端和APP上,也有地图语音交互需求。

例如家居智能音箱,用户可以吃着早餐、换着衣服问:“去公司要多久后?”、“后场村路堵不堵?”不用再拿起手机操作。

对于车载智能机器人,在开车时可以直接询问:“最近的加油站/充电桩在哪?”

对于智能穿戴设备,例如智能儿童手表,手表可操作的界面很小,它是天然的语音交互场景。比如儿童可以对着手表说“请带我回家”,直接发起语音导航带着儿童回家。

对于交通出行类手机应用,如网约车、分时租赁、物流等,通过语音查询地点、查询路线也是很常见的应用需求。

针对以上场景,百度地图开放平台联合百度AI开放平台将百度地图语音交互能力向第三方开发者开放——“地图智能语音交互解决方案”,帮助更多的智能硬件和手机应用便捷地集成地图语音交互能力。整个方案包括语音唤醒与识别、语义的理解与交互、地图服务调用语言生成、语音合成五个步骤。

首发地图智能语音交互解决方案,你值得拥有

 

地图语音交互解决方案如何工作

 

第一个步骤语音唤醒与识别,成功唤醒之后机器人开始接收我们的指令。百度语音SDK里集成了语音唤醒能力,开发者可以定义唤醒词,例如百度地图的唤醒词是“小度小度”,当然开发者也可以根据自己的产品设计其他唤醒词。

 

在语音识别方面(将语音准确地转化为文字)。针对基于位置服务的语音交互场景,语音识别提供了两个产品,第一个是远场的语音识别,第二个是近场的语音识别。远场的语音识别适用于人和设备在3—5米的距离,它适用于智能音箱、智能车载设备这样用户和设备较远的场景。近场语音识别适用于人和设备在1米以内的场景,例如智能穿戴设备或者手机应用。针对这两种场景提供了不同的语音服务和识别模型,帮助我们提高语音识别的准确率。除此以外,语音开放平台针对基于位置服务的场景优化了语音识别的模型,对地图的数据,包括地图特殊的指令,进行语音识别模型的专项训练,使得百度的语音识别在地图的使用场景里达到非常高的识别率。

    

当通过语音识别将语音转成文字后,机器人还是不能理解用户的指令,需要通过语义理解与交互将文字转换为机器能理解的意图和关键信息,这就是第二步语义理解与交互。例如“附近的麦当劳”这句话,需要通过语义理解将其拆解为意图是“查找地点”,关键信息是地点“麦当劳”,进行这样的拆解后,机器人才能知道我接下来需要调用查找地点接口,并传入“麦当劳”关键字来获取结果答复给用户。以上是一个单轮交互的示例,事实上很多的场景,单轮的交互并不能让机器人理解你的意思,例如找完附近的麦当劳之后我还需要导航去最近的一个,这就是一种多轮交互,或者用户第一次没有表达完整他的意思,机器人要询问和引导用户进一步澄清命令,通过多轮的交互明确用户的指令。那么如何让机器具备语义理解和复杂对话管的能力呢,百度AI开放平台了UNIT -- 语义理解与交互技术平台,开发者可以利用这个平台定制属于自己的对话机器人。通过开发者在平台上配置的对话模板、词槽、训练数据等,可以教授它各种语义理解和交互的技能,比如说如何理解用户要缩放地图的语义,如何理解用户找地点的语义。通过一系列这样的定制,开发者可以拥有一个自己的理解自己业务场景语义,并具备交互能力的小机器人。

 

当机器人理解用户指令后,就要开始调用地图服务来完成指令了。目前地图服务全面向语音场景开放,包括定位能力,比如说用户可以问“我在哪儿”。包括地图展示的操控能力,比如“地图放大一点”,“地图缩小一点”,或者“想看全景地图”。包括地点搜索能力,比如搜索“附近的银行”,“附近的洗衣店在哪儿”,或者查询一个精确的地点,比如:“国家图书馆在哪儿”,这些地图命令都能很好的执行或返回。同时包括驾车和公交等等路线规划和导航能力,以及道路路况查询。用户可以问“后厂村路堵不堵”,它会告诉你“后厂村路拥堵500米,较10分钟前加重”。

 

请求完地图服务之后,需要将获取到的结果进行拼装,组成用户能理解的流畅语言。例如进行路线规划后,会返回路线的耗时是多少秒,路线距离多长等结构化数据,需要组装成“从当前位置出发去国家图书馆,全程22千米,耗时55分钟,途径京承高速、北三环西路...”这就涉及到一个语言的生成过程。目前地图正在一些产品上进行升级,不仅仅只输出结构化的结果,还会将结构化的输出拼装成用户理解的语义。这样开发者不需要拼装语言了,可以直接拿拼装好的语言输出结果并播报给用户。

 

开发者如何集成

 

语言生成完毕之后,还需要通过语音合成技术将语言转化为自然流畅的语音播报给用户。自此就完成了一个完整的地图语音交互。如果开发者也希望在自己的应用和硬件中集成地图语音交互能力,具体该如何操作呢?目前百度地图开放平台为开发者提供了三种集成方式:第一种方式就是低耦合方案用户可以在地图和AI开放平台上分别获取到地图和语音SDK和API,这种方式的特点是*度非常大,可以任意组合,但成本较高。第二种是中耦合的方案,开发者集成语音识别和语音合成的SDK,百度地图封装地图类语义理解和交互能力,提前训练好地图机器人,这样开发者不用再去理解地图复杂的交互场景了。第三种就是高度耦合的方案,那就是将语音、语义、地图服务封装在一起,开发者直接拿到就可以用

 

最后,开放君强烈推荐开发者用第三种高度耦合的集成方案,方便快捷、简单易用。