语音交互科学：AI可以和你聊天吗？

浏览：582 时间：2020-9-19

为什么会有语音交互？它适用于什么场景？什么不适用于？这篇文章供你解读。

什么是语音互动

在机器之前，最早的人类互动是语言和行动。如今，在自然互动的趋势中，我们又回到了语言的互动形式。

最初的互动方式是人们与语言，行动和眼睛互动，人们与事物互动。当机器首次出现时，没有人机交互的概念。机器难以操作，需要人们学习和适应。 Shoals的“QWERTY”键盘将会传播，因为字母的排列可以降低打字速度并避免快速输入按钮链接。

第二次世界大战期间的研究促进了人因工程的发展，并开发了使机器适应人类和提高人类效率的概念。在计算机领域，从命令行界面（CLI）访问图形用户界面（GUI）是一个重大突破，然后发展成当前主流的操作模式触摸，用手指在屏幕上滑动。语音用户界面（VUI），手势，动作，表达式交互，甚至脑机接口都属于自然用户界面（NUI）。

从运营商处，语音交互由移动电话或计算机或其他硬件执行。除此之外，还有客户服务，教育和医疗行业的应用，如客户服务语音质量检查，口头评估。

图1语音交互界面的形式

如何评估语音交互

VUI的效率是高还是低？

一种有效的交互方式是一种很好的交互方式。人机交互是为了提高人们的表现，从三个方面进行衡量：速度，准确性和注意力负荷。这是一种很好的互动，可以使用户更快，更准确，并且最少关注。我们来看几个情况。

输入文字：效率很高。人们说话比打字更快，不需要分心看屏幕。考虑到输入错误，语音交互在输入文本中运行良好。这么多产品都会在文本输入中添加语音输入。

安排任务：如果我们想乘快车回家，请更快地使用语音助手或图形界面出租车应用程序？由于路径短，语音助手的理论速度更快，唤醒Siri并说，不需要打开APP然后点击。在当前情况下，输入任务容易出错。如果命令语言存在偏差，则语音助手无法理解您的意思，并且会导致任务失败。我们需要考虑如何安排任务，即“我想乘出租车回家”或“打开XX并乘出租车回家”？如果语音助手三次无法理解命令，你会继续尝试吗？放弃语音要布置任务，只需打开应用程序并找到熟悉的条目单击操作。

输出：语音是比即时图形反馈更不合格的输出，这太慢而且效率低。由于听力是线性的，我们只能听一个句子然后听下一个句子。我们无法以与视觉相同的方式完成图像处理，我们无法扫描和跳过文本。电话语音服务系统是浪费时间。另外，连续收听语音会消耗大量的注意力和内存资源。如果客户服务已经完成，但没有听到所需的内容，那么听0是另一场噩梦。另一方面，我们的大部分信息来自视觉，但语音方法无法输出视觉信息。

适合双手被占用的情况

适合使用的语音交互在哪里？当手被占用时，例如驾驶，烹饪，游戏等。例如，当驾驶时，眼睛需要看着道路，方向盘被双手握住，并且车内的环境是安静和私密的。。在这种情况下，语音交互是合适的。此外，在输出级别，如果视觉频道被占用，则听觉频道更适合于接收紧急和重要的通知。

门槛非常低

语音交互的支持者认为语音是最自然的交互方式。每个人都说话，门槛极低，特别是对于输出困难的人（如视障人士），他们可以完全使用语音交互的形式。另一方面，习惯于触摸的人不一定愿意转向声音。害怕新技术的人也可能不愿意尝试语音交互的“相互作用”技术。

声音可以传达情感，但人们不习惯与机器交谈

由于语气和节奏，声音可以传达情感而不是语言。问题是我们不习惯与机器人或手机交谈。据统计，只有3％的人在公共场合使用Siri。我们的默认语言是人们彼此沟通的方式，或者我们与猫，狗，我们认为是人类的动物交流的方式。当人们与事物进行交流时，会使用更多的动作交互。因此，人们和手机在与手机通话时会有一种非常奇怪的感觉，特别是对于东方人来说，心理障碍可能更大。

为了减轻用户的压力，缩小心理距离，许多智能语音助手都会设置自己的“人物形象”。例如，Siri冷酷而忠诚，微软小冰很可爱。此外，语音助手大多是女性的声音，因为女性的声音听起来更加亲切和包容。操作过程中出现问题。如果听到男声，很容易让用户感到受到指责和批评。

但是，语音助手不能像真人一样。恐怖谷理论认为，对于那些越来越像人的东西，我们的好感会上升，但我们讨厌的是人类而不是人类的东西，比如僵尸。从恐怖谷的理论来看，我们可能害怕现实的语音助手。

图2恐怖谷

不适合公共使用

语音交互不适合公共使用，特别是在图书馆和办公室等安静的地方。

识别问题。在汉堡王的视频广告中，售货员终于靠近屏幕并说“好吧谷歌，什么’是谁？”。 “好的谷歌”是Android手机和谷歌首页的唤醒词。用户将发现该设备已启动并搜索皇家城堡而未发出订单。这是由于设备上缺少识别系统造成的。为此，已经引入了声纹识别系统来保护支付安全问题，并且声纹验证的可靠性是另一个问题。

图3汉堡王的视频广告

隐私也是如此，公共场所的输入和输出对话比屏幕上更容易听到。敏感的财务，医疗和私人信息面临更大的风险。

场景分析

通常，语音交互需要满足至少两个低噪声和隐私的要求。在许多场景中，室内和家庭都满足要求，加上手机上的移动场景，共有三个场景。 Mary Meeker的2016年报告还指出，美国语音使用的主要方案是家庭（43％），船上（30％），在路上（19％），工作仅占3％。

语音交互发展的难点

语音交互系统的发展历史不短。早在1952年，贝尔实验室开发了奥黛丽，这是一个识别阿拉伯数字的系统。 1962年，IBM发明了第一台可以使用语音进行简单数学计算的机器Shoebox。

图4 IBM的Shoebox系统

经过半个多世纪的发展，语音交互还没有达到成熟应用的水平，遇到的困难经历了发展到使用过程。

完整的语音交互系统有三个典型的模块。自动语音识别（ASR）将声音转换为文本，自然语言处理（NLP）解释文本的含义并提供反馈。最后，输出信息通过文本到语音（TTS）转换为声音。

图5典型的语音交互系统模块

远场识别问题

第一个问题是获得声音的问题。在高语音质量的前提下，可以获得更好的语音识别结果。有些公司声称其语音识别率为95％甚至99％，但前提条件是声源非常接近，环境特别安静，扬声器的普通话是一种特殊标准，而不是日常应用场景。

获得用户语音，根据近场识别和远场识别将距离分为两种情况，后者更难。

移动电话上的语音交互是典型的近场，其接近声源并且语音信号的质量高。另一方面，收集语音的交互相对简单，通过触摸屏辅助，用户通过点击开始和结束来收集信号，并确保可以记录用户说出的单词。

远场语音交互由智能扬声器代表。声源很远。声源的具体位置未知。环境中有噪音，混响和反射。单个麦克风不符合要求，需要麦克风阵列支持。用户可以站在任何位置，在被声音唤醒后，需要定位声源位置，并在此方向上定向拾取声音，增强声音，降低其他区域和环境的噪音。

图6远场识别示意图（来源：雷锋）

语音识别正确率

实际上，常用的指标是字错误率。微软语音和对话研究团队负责人黄学东最近宣布，微软语音识别系统的错误率已经从5.9％进一步降低到5.1％，这与专业速记员相当。进展来自两个方面，一个是技术，包括隐马尔可夫模型，机器学习和各种信号处理方法，另一个是巨大的计算资源和培训数据。

语义识别

如果您与语音助手进行了对话，您会发现它的语义理解仍然停留在固定模式识别的集合上。响应用户单词中的特定单词可能无法给出正确的答案。

约翰·希勒提出了“中国房间”思想实验，一个不懂中文的人，可以在一个封闭的房间里说英语，房间里有一本英文手册，告诉如何处理相应的中文信息。用中文写的问题从窗口传到了房间里。该人搜查了该手册，并在纸上写下了相应的中文答案并将其交付出来。房间外的人可能会觉得这个人非常了解中文。实际上，他对此一无所知。训练机器以理解语义与此过程类似。通过培训，我们使机器的响应接近可理解，但我们无法像人类那样真正理解语言。

语言是人与人之间交流的工具，在某种程度上适合人们的认知系统，如何期待机器更好地理解我们？

目前，遇到的问题至少是分词，模糊和未知的语言处理。中文没有单独的空格，如英文单词，模糊性高，对AI有更高的要求。例如，“南京长江大桥”可分为“南京城/长江大桥”和“南京市长/江桥大桥”，“只是不吃饭”，有很多含义，而Siri Say“全开外卖“，如果它没有学会”完整“”这个词，它将如何处理？

多轮对话

我们觉得语音助手是愚蠢的，有时是因为它违反了人类对话的原则。人类对话看似简单，但它会根据对方的背景及其所具有的信息来调整对话的内容，并且在情境之间将存在回声关系。但是，在许多现有产品中，对话缺乏相关性，语音助理不了解背景，只能进行单轮对话。看似多轮对话实际上只是多轮对话的组合。

“愚蠢”是不自然的，第二是增加任务的难度。例如，当你问语音助手时，“明天天气怎么样？”它说下雨了，然后问“今天是星期几？”，它不明白后天的天气只是完成了。问一次，后天的天气是什么？”

在接下来的对话中，小冰说，阴阳师是一个游戏，电影是电影，没有对话的记忆。

图7小冰没有记忆对话

语音交互设计规范

因为语言，特别是口语的形式，并没有固定，所以它会发生很大的变化。 VUI的交互设计与GUI完全不同，后者更加详细和繁琐。亚马逊为开发人员提供了成熟的交互设计规范。

语音交互设计可以分为至少几个步骤：首先，建立功能的目的;其次，编写脚本，即用户和系统如何通话;第三步是制定流程，用户使用路径等，还需要定义技能的结构，包括完成功能的需要。哪些参数和术语发生了变化？例如，对于相同的功能，用户可以说“天气如何”，你也可以问“外面会下雨吗？”。

远场语音互动产品的冷启动

远场语音交互产品具有冷启动周期。只有累积了一定数量的数据，才能更好地改善产品体验。但是，如何增加销售额和累积数据是产品启动时需要考虑的问题。如果您希望语音交互产品成为一个平台，数千万级别是基本门槛。如果Echo今年的销量可以达到估计的2000万台，基本上有足够的数据可以成为一个平台。一些国内模仿者使用假日促销模式，比如99天猫精灵的价格99元，卖出100万套，希望以这种方式初步积累数据。

缺乏持续使用电源和核心方案

在新鲜能量之后，很多人会失去对语音交互的兴趣，而触摸仍然是主要的互动方式。 Creative Strategies的数据显示，97％的人在两周内对Alexa的新功能失去了兴趣。根据Voice Lab的数据，62％的Android用户使用语音助手很少或偶尔使用语音助手，占iOS用户的70％。目前，语音交互缺乏只有它才能实现的核心功能。即使是亚马逊的Echo，其最常用的仍然是听歌，缺乏核心竞争力和不可替代性。

问题讨论

语音交互是否会成为主流的交互方式

笔者认为，就像触摸不能取代鼠标和键盘一样，语音交互不太可能成为主流互动。交互式界面本质上是多模式的，语音交互丰富了现有的交互，而不会替换其他交互。如前所述，语音交互并不能解决所有问题，但仅适用于特定场景。

多个带语音的互动频道是不错的选择。例如，语音和触摸的组合可以提高准确性，语音和视觉组合，语音输入加视觉反馈或手势。

是否需要追求纯粹的语音互动

Echo团队认为语音是最自然的交互方式，因此坚持设计语音交互，但语音输入和视觉输出模型已经证明了它们的成功，我们在手机上使用的语音交互模型也是如此。新的Echo Show也安装在屏幕上以显示视觉信息。那么有必要坚持纯粹的语音交互模型吗？答案似乎很明显。新问题是，如果Echo添加了一个屏幕，用户会认为它是扬声器还是平板电脑？

图8加上屏幕上的Echo Show

语音交互的定位

实质上，语音交互允许人们通过语音完成任务。它可以通过语音完成，触摸也可以完成，Siri可以做到，Echo也可以，不能做到。那么语音交互能够完成哪些独特的任务来反映其价值呢？

VUI与CUI

演讲设计师Cheryl Platz在她的Medium，VUI或Conversational UI中多次提到一个问题？

语音交互界面是基于一个单独的任务，其模式很简单“在命令下 - 完成任务”，但这不是一个自然对话，我们需要考虑如何订购，太远了对话。如果您想要实现CUI的目标，语音交互必须更加智能和流畅，允许通过真实对话完成任务，就像与真人交谈一样。

隐私问题

如果语音助理更好，更聪明，他们需要不断收集用户信息。那么我们需要语音助手来改变我们的反应吗？如果语音助手是商业用途，那么我们是否相信它并提供信息以便它更了解我的偏好？

另一方面，语音助手安全吗？通过唤醒单词唤醒的语音交互式产品保持待机状态并从环境中获取声音。可以利用这种机制。在一则新闻中，Echo破获并成为一个24小时的漏洞，并且有一个连接，一个在德国被禁止的儿童语音玩具，“我的朋友Cayla”，其蓝牙连接被证明是不安全的。孩子与玩具对话的声音可以由第三方获得。

图9儿童的声音玩具My Friend Cayla

如何测试语音交互界面

常见的产品研究方法，可用性测试，访谈和其他方法的共同点仍然适用于语音交互系统的研究。在测试VUI时，您可以特别注意某些方面，例如用户响应，成功率，暂停或失败。有一些特定的指标可用于评估，如速度准确性，认知努力，清晰度，系统友好性和音质。

下面介绍一种有趣的语音交互界面测试方法：Woz方法。由于语音交互系统的高成本，在系统开发之前，Woz（Wizard of Oz）原型测试发现了这个问题，并且成本非常低。研究人员在一般研究人员的协助下扮演向导，用户在操作后手动在黑暗中播放反馈。

图10车载Woz测试（来源：《Designing Voice User Interfaces》）

语音交互仍需要发展，技术成熟需要时间。但它的出现意味着我们可以操作设备并以更多方式传递信息，我们距离理想接口更近了一步。以上对语音交互进行了简要总结，有遗漏和不成熟的想法，欢迎交流纠正。

参考文献：

凯茜珍珠。设计语音用户界面。 O’ Reilly Media，2016

Clifford Nass，Scott Brave。连线演讲。麻省理工学院出版社

Cheryl Platz。 Narrowing Rift:语音UI和会话UI。中等: Microsoft设计

亚马逊Alexa：语音设计指南。亚马逊

限制元素，阅读智能语音前端处理的关键问题，雷锋网络

作者：网易用户产品开发研究员王美子，目前停靠智能硬件用户研究。我喜欢我不知道的事情，并继续在用户研究的道路（树）上成长。

本文作者@武慧新，@盐有点咸（微信公众号：盐有点咸）授权发布，未经许可，不得转载。

该地图来自unsplash，基于CC0协议

« 唯品会将推出从C到B的“胜利仓库”。社交+库存新游戏？ | SEO链优化策略：你只重视它吗？ »