智能语音技术助力,推进人机交互新时代


过去的70年,人机交互形式不断进化,从计算机时代的键盘,到智能手机时代的触摸屏,如今语音交互正在引领人工智能为主导的下一个人机交互的新时代,它能够在社交、导航、搜索、机器人等领域大规模应用。

 智能语音技术助力,推进人机交互新时代

起初智能语音备受公众关注还是由于苹果Siri的出现。实际上,Siri并按不是手机上出现的第一个智能语音助手,最早出现的语音助手的弊端在于只能听话,不能说话,这在一定程度上桎梏了他们的发展速度。

 

而当年市场上出现的语音产品,给使用者的普遍的感受是智能化程度不够高。对于一些关于日常的衣食住行或是相对简单的问题,这些语音助手基本上都能够给予相对明确的答复,但是对于一些稍微复杂的问题,尽管与其交流的时候“鸡同鸭讲”得挺热闹,但通常给出的答案都是模糊两可或者干脆打起了太极。

 

在产品应用方面,智能语音最初只能在银行柜台、医院排号,以及电话呼叫中心这场景中应用。体验者与产品互动过程中听到的是充满机械感的声音,试问在听到电话那头冷冰冰的:“普通话服务请按1...”的时候,你有没有马上转人工服务的冲动?

 

随着人工智能技术的高速发展,语音技术在语音识别和语义分析上日趋成熟的技术上继续蓬勃发展,更多能听懂人类,或者能与人类深刻交流的智能产品将不断丰富大众的生活。

 

微软小冰、Siri等人工智能语音产品为当今社会提供了很多应用场景,如:查询实时天气、播报新闻简讯、体育赛事、推荐热门电影、出行导航,还能控制物联网打开电灯、窗帘和咖啡机......语音智能产品的应用,让整个人工智能产业拥有了更大的想象空间。

 

如今,我们期待智能语音产品不仅能“说人话”,而且能“更像人”,“懂你”,只是个开始,语音智能最重要的部分,在于情感化的TTS。标贝科技上线的TTS评测系统让客户可以专心于合成技术的研发,快速实现高质量的合成系统,为针对韵律、多音字、数字符号及分词词性四个模块进行客观测评,结合ABX、MOS评分评测,为提升语音系统合成效果提供更高效的方案。

 

在昨天(3月22日),微软(亚洲)互联网工程院宣布推出新一代的语音交互技术:全双工语音交互感官。与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,实时生成回应并控制对话节奏,从而使长程语音交互成为可能。

 

未来,语音智能的发展方向,其实很简单,就是如何解决语音识别、语义理解、操作执行等存在的问题。