全双工语音对话以及在智能硬件上的应用 --- 学习笔记

1、全双工交互 --- 类比的是 人们之间的交谈过程一样

     在一般的问答系统里面,问一句答一句,或者使用多轮交互,全双工交互希望可以达到的效果是类似人与人之间打电话一样,

不仅仅是一问一答,可能是用户说多句话,然后机器人回答一下;甚至机器人可以主动提问来帮助交互

全双工语音对话以及在智能硬件上的应用 --- 学习笔记

2、面向任务的对话系统 VS 面向过程的对话系统

面向任务的对话系统 --- 将用户的query进行意图识别,然后划分为某个任务,针对性的来进行回答。

面向过程的对话系统 --- 将怎个对话过程全部记住,会记忆住前面的对话内容,来回答,甚至就是将某个人的回答收集在一起,分析他的性格、性别以及以往的兴趣爱好。

3、一些技术细节

边听边想,就是在开始进行语音识别的时候,就进行识别,用模型预估后面可能的话是什么,以及意图是什么,这样可以

减少做出反应的时间

全双工语音对话以及在智能硬件上的应用 --- 学习笔记

节奏控制 --- 因为要做到人与人之间交互过程一样的效果,所以得控制好节奏,不可以中间停顿的时间太长;当时间合适的时候,要作出回复,或者进行对话引导

另外对话引导 --- 判断用户的话是不是具有很高的信息熵(回复的内容是不是有信息含量),来判断是不是应该给出一个新的话题出来。新的话题应该是 和 用户的兴趣 热门话题 以及 应该和前面的交谈内容应该有些关联 等多个维度

全双工语音对话以及在智能硬件上的应用 --- 学习笔记

全双工语音对话以及在智能硬件上的应用 --- 学习笔记

生成模型比检索模型具有更好的效果 --- 很多的时候是语音识别的时候,具有一些误差,深度学习模型具有更好的容错性

全双工语音对话以及在智能硬件上的应用 --- 学习笔记

4、节奏控制:内容池的调度系统

每段音频输出可以定义一个『模式』指定如何调度协调

协调包括的工作,就是什么时候该机器人作出response,以及用户上几句话,是怎么做处理,保存起来或者直接忽略掉。

5、还有一些技巧性的设计

预测回复的时间,要是时间较长,机器还没有回应成功,可以先回复一个 “嗯”之类的通用词,使交互过程更加人性化吧。