全双工就够了吗?应该有更强的持续性会话能力
浏览:326 时间:2022-2-3

AI语音已经逐渐渗透到人们的生活中,但死板的对话模式似乎依然困扰着用户。

全双工的概念对于人工智能行业从业者来说并不陌生。说到全双工,此前,谷歌双工通过电话帮助人们为餐厅和美发店预约,带来了有趣的视觉体验。在I/O2019上,谷歌宣布对Duplex进行重大扩展。

谷歌复式

在推动对话互动智能的市场应用过程中,思必驰也发现,自然流畅的对话体验和人性化的互动体验已经变得绝对必要。

因此,具有上述两个特点的全双工语音交互技术成为人们关注的焦点。早在剑桥大学,思必驰,联合创始人、首席科学家俞凯,就领导了全双工口语对话系统的开发。2010年参加国际对话系统研究挑战赛时,获得可控测试冠军,这也是世界上最早的全双工端到端语言对话系统之一。不同的是,与物联网智能终端设备中广泛使用的全双工交互系统相比,当时的主要应用是基于电话通道的人机交互。

全双工是一个系统工程

全双工作为一项系统工程,需要综合利用语音和语言技术的各个模块,实现前后联动。比如对前端信号处理和AEC回声消除有很强的相关性依赖,实时上传的音频对噪声处理和音频质量有更高的要求。同时,全双工作为一项系统工程,涉及到全链路语音交互的各个模块,也需要对识别出的识别信息和语义信息进行综合判断和处理,并做出决策。

半双工全双工

因此,全双工交互技术的推广涉及到对话系统的各个模块,不仅各个模块的功能需要提升,模块之间的协作能力也需要提升。

在推动全双工交互技术市场落地的过程中,思必驰发现了一个更有效的东西。“全双工语义否认”让交互体验更加优化。全双工很重要,但是语义拒绝算法经常被忽略。

语义拒绝算法

受语音技术发展的限制,现有对话系统受噪声条件影响明显,缺乏鲁棒性。在对话系统中,说话人检测和基于语义的拒绝是非常重要的组成部分。当说话人的语音有歧义或语音数据不在已有的训练集中时,识别系统会产生识别错误,影响对话系统的识别和理解效果。

半双工状态下,环境噪音和周围人声容易造成无效输入、对话系统或错误响应,或给出“听不懂”的呆板播报,且播报无法中断,极大影响交互效率。在全双工模式下,如果没有实际的语义,就不会对输入做出响应。

拒绝算法的主要目的是去除没有语义意义的音频片段,节省后端处理的计算资源,提高整个对话系统的交互鲁棒性,增强用户体验,避免因错误的语义理解而给用户带来错误的反馈。

思必驰语义拒绝算法

思必驰拒绝算法可以解决用户无意义的嗡嗡声、背景噪声和聊天声、纯音乐声、小振幅声、各种笑声尖叫声、无厘头声等许多噪声和语义无意义的问题。

语义否认对于全双工对话和交互非常重要。可以说,如果否认做得不好,全双工的效果往往会不尽人意。

思必驰全双工互动技术,更强的持续对话能力

思必驰全双工互动技术让更流畅的多轮对话成为常态,让陈述更自由。

l持续互动免费唤醒

过去在半双工状态下,用户需要在跨域交互中再次唤醒,因此免唤醒技术成为提升体验的重点。近年来,免唤醒技术并不是什么新方案,有的采用“方便的唤醒词定制”,有的采用“唤醒识别与理解”

“你好,明天小驰的天气怎么样?”

缺失的单词通常出现在句子的中间,唤醒单词与后面的识别文本相连。当系统在识别过程中漏掉“明”字时,会造成时间信息不清晰(“明天”还是“今天”?),系统无法指定用户的实时指令。现在,思必驰全双工技术方案可以实现唤醒、多领域连续交互、跨域参考分辨率。

动态断句

日常生活中,很多用户在说话的时候会有拖延的现象,说话的时候会有一个思考/打断的过程,所以会出现很多半句话。简单粗暴地调整语音端点检测阈值,往往会导致对话堵塞的现象。

在半双工状态下,对话系统设置了固定的停顿检测时间,如果用户在表达完整句子前犹豫/停顿,语音端点检测系统会误断句子,导致输入不完整,机器无法理解。

思必驰全双工交互技术忽略无意义噪音,在云端根据用户的说话节奏和内容动态断句,既能保证用户输入的完整性,又能保证更快的响应速度。回复时可以及时回复“嗯”等字。系统打破了对用户说话规则的要求。用户可以根据自己的说话习惯进行交流,互动过程更加人性化。

l语义中断,避免误中断

在半双工状态下,很难中断语音合成回放。在一些终端设备上,业界常用的中断方式是“快速唤醒词中断”,这种方式非常固定,不能一概而论,需要定制多个唤醒词。当用户想要打断时,必须重复唤醒词,容易被误打断。同时,对话中断对环境要求高,有噪音时容易被误打断。

思必驰全双工交互技术可以在通话过程中实时打断语义,不易被误打断。同时,如果没有语义输入,语音合成也不会中断。

这项技术将大大提升消费者在智能客服领域的体验,消费者可以随时中断机器人客服的无效对话信息,进行信息咨询。

如何判断什么时候接听电话,什么时候提问,机器需要智能决策的能力,这也是思必驰全双工技术的一大特点:主动交互。根据用户的表情状态,如“正常说话”、“主动沉默”、“无意义表达”,给出相应的主动反馈。

思必驰全双工交互技术支持智能判断,尤其能主动打断用户复杂冗长的表情,主动打破沉默僵局,实现用户流畅自然的口语交流习惯。当用户的正常表情被识别后,机器等待回复和反馈;当用户进行大量无意义输入或表达过于复杂时,会主动打断并提示反问句;在交互过程中,当用户沉默时,可以主动发起对话交互。

同时,经过反复打磨和优化,该技术对系统功耗几乎没有影响,以低功耗实现了最佳品质体验。

思必驰全双工语音交互

实践是检验真理的唯一标准

目前,思必驰的全双工交互技术已经渗透到包括AIOT方案、企业信息智能服务在内的全线方案,并已深入应用于汽车、家居、电子、教育、医疗、政务、金融、物流、酒店等场景。以说话人方案为例,接入全双工系统后,这款“智能助手设备终端”会更像是一个真正的助手,具有人情味和逻辑思维能力的特点,整个对话体验会更加自然流畅。

思必驰商业场景

云全双工中控脑持续优化

对于全双工交互技术,思必驰将持续优化云端全双工中控大脑,持续优化策略、场景

未来,多模态交互将使全双工交互技术发挥更大能量,配合声纹识别、图像处理、虹膜识别等技术过滤无用信息,人机交互将变得更加人性化。也许在不久的将来,你甚至分不清和你隔着屏幕说话的是人类还是机器人。