全双工就够了吗？应该有更强的持续性会话能力

浏览：326 时间：2022-2-3

AI语音已经逐渐渗透到人们的生活中，但死板的对话模式似乎依然困扰着用户。

全双工的概念对于人工智能行业从业者来说并不陌生。说到全双工，此前，谷歌双工通过电话帮助人们为餐厅和美发店预约，带来了有趣的视觉体验。在I/O2019上，谷歌宣布对Duplex进行重大扩展。

谷歌复式

在推动对话互动智能的市场应用过程中，思必驰也发现，自然流畅的对话体验和人性化的互动体验已经变得绝对必要。

因此，具有上述两个特点的全双工语音交互技术成为人们关注的焦点。早在剑桥大学，思必驰，联合创始人、首席科学家俞凯，就领导了全双工口语对话系统的开发。2010年参加国际对话系统研究挑战赛时，获得可控测试冠军，这也是世界上最早的全双工端到端语言对话系统之一。不同的是，与物联网智能终端设备中广泛使用的全双工交互系统相比，当时的主要应用是基于电话通道的人机交互。

全双工是一个系统工程

全双工作为一项系统工程，需要综合利用语音和语言技术的各个模块，实现前后联动。比如对前端信号处理和AEC回声消除有很强的相关性依赖，实时上传的音频对噪声处理和音频质量有更高的要求。同时，全双工作为一项系统工程，涉及到全链路语音交互的各个模块，也需要对识别出的识别信息和语义信息进行综合判断和处理，并做出决策。

半双工全双工

因此，全双工交互技术的推广涉及到对话系统的各个模块，不仅各个模块的功能需要提升，模块之间的协作能力也需要提升。

在推动全双工交互技术市场落地的过程中，思必驰发现了一个更有效的东西。“全双工语义否认”让交互体验更加优化。全双工很重要，但是语义拒绝算法经常被忽略。

语义拒绝算法

受语音技术发展的限制，现有对话系统受噪声条件影响明显，缺乏鲁棒性。在对话系统中，说话人检测和基于语义的拒绝是非常重要的组成部分。当说话人的语音有歧义或语音数据不在已有的训练集中时，识别系统会产生识别错误，影响对话系统的识别和理解效果。

半双工状态下，环境噪音和周围人声容易造成无效输入、对话系统或错误响应，或给出“听不懂”的呆板播报，且播报无法中断，极大影响交互效率。在全双工模式下，如果没有实际的语义，就不会对输入做出响应。

拒绝算法的主要目的是去除没有语义意义的音频片段，节省后端处理的计算资源，提高整个对话系统的交互鲁棒性，增强用户体验，避免因错误的语义理解而给用户带来错误的反馈。

思必驰语义拒绝算法

思必驰拒绝算法可以解决用户无意义的嗡嗡声、背景噪声和聊天声、纯音乐声、小振幅声、各种笑声尖叫声、无厘头声等许多噪声和语义无意义的问题。

语义否认对于全双工对话和交互非常重要。可以说，如果否认做得不好，全双工的效果往往会不尽人意。

思必驰全双工互动技术，更强的持续对话能力

思必驰全双工互动技术让更流畅的多轮对话成为常态，让陈述更自由。

l持续互动免费唤醒

过去在半双工状态下，用户需要在跨域交互中再次唤醒，因此免唤醒技术成为提升体验的重点。近年来，免唤醒技术并不是什么新方案，有的采用“方便的唤醒词定制”，有的采用“唤醒识别与理解”

“你好，明天小驰的天气怎么样？”

缺失的单词通常出现在句子的中间，唤醒单词与后面的识别文本相连。当系统在识别过程中漏掉“明”字时，会造成时间信息不清晰(“明天”还是“今天”？)，系统无法指定用户的实时指令。现在，思必驰全双工技术方案可以实现唤醒、多领域连续交互、跨域参考分辨率。

动态断句

日常生活中，很多用户在说话的时候会有拖延的现象，说话的时候会有一个思考/打断的过程，所以会出现很多半句话。简单粗暴地调整语音端点检测阈值，往往会导致对话堵塞的现象。

在半双工状态下，对话系统设置了固定的停顿检测时间，如果用户在表达完整句子前犹豫/停顿，语音端点检测系统会误断句子，导致输入不完整，机器无法理解。

思必驰全双工交互技术忽略无意义噪音，在云端根据用户的说话节奏和内容动态断句，既能保证用户输入的完整性，又能保证更快的响应速度。回复时可以及时回复“嗯”等字。系统打破了对用户说话规则的要求。用户可以根据自己的说话习惯进行交流，互动过程更加人性化。

l语义中断，避免误中断

在半双工状态下，很难中断语音合成回放。在一些终端设备上，业界常用的中断方式是“快速唤醒词中断”，这种方式非常固定，不能一概而论，需要定制多个唤醒词。当用户想要打断时，必须重复唤醒词，容易被误打断。同时，对话中断对环境要求高，有噪音时容易被误打断。

思必驰全双工交互技术可以在通话过程中实时打断语义，不易被误打断。同时，如果没有语义输入，语音合成也不会中断。

这项技术将大大提升消费者在智能客服领域的体验，消费者可以随时中断机器人客服的无效对话信息，进行信息咨询。

如何判断什么时候接听电话，什么时候提问，机器需要智能决策的能力，这也是思必驰全双工技术的一大特点：主动交互。根据用户的表情状态，如“正常说话”、“主动沉默”、“无意义表达”，给出相应的主动反馈。

思必驰全双工交互技术支持智能判断，尤其能主动打断用户复杂冗长的表情，主动打破沉默僵局，实现用户流畅自然的口语交流习惯。当用户的正常表情被识别后，机器等待回复和反馈；当用户进行大量无意义输入或表达过于复杂时，会主动打断并提示反问句；在交互过程中，当用户沉默时，可以主动发起对话交互。

同时，经过反复打磨和优化，该技术对系统功耗几乎没有影响，以低功耗实现了最佳品质体验。

思必驰全双工语音交互

实践是检验真理的唯一标准

目前，思必驰的全双工交互技术已经渗透到包括AIOT方案、企业信息智能服务在内的全线方案，并已深入应用于汽车、家居、电子、教育、医疗、政务、金融、物流、酒店等场景。以说话人方案为例，接入全双工系统后，这款“智能助手设备终端”会更像是一个真正的助手，具有人情味和逻辑思维能力的特点，整个对话体验会更加自然流畅。

思必驰商业场景

云全双工中控脑持续优化

对于全双工交互技术，思必驰将持续优化云端全双工中控大脑，持续优化策略、场景

未来，多模态交互将使全双工交互技术发挥更大能量，配合声纹识别、图像处理、虹膜识别等技术过滤无用信息，人机交互将变得更加人性化。也许在不久的将来，你甚至分不清和你隔着屏幕说话的是人类还是机器人。

« 提高百度的权重：优化网站的结构是必不可少的 | 促进新消费新品牌：66个新锐品牌首秀天猫双11 »