智能助手推动语音革命-EDA365

家电数码 > 人工智能 > 详情

智能助手推动语音革命

发布时间：

语音通信技术面临又一次革命。 FXwednc

150多年前，电话的发明掀起了一场通信革命。如今，随着各种新型智能设备利用人工智能（AI）从语音中提取含义，人们能够通过更加直观的新途径与身边的设备进行交互，一场新的语音通信革命正在到来。本文探讨了技术发展的现状，并预测了哪些技术将最终使无处不在的语音助手成为我们日常生活的一部分。FXwednc

“沃森先生，请过来……”FXwednc

1876年亚历山大·格拉汉姆·贝尔说出的这句举世闻名的话，标志着声音首次成功地通过电话传输。从那以后，人们的工作、生活和娱乐方式发生了翻天覆地的变化，而这项改变世界的创新始终是这些变化的核心。现在，人们与世界交互的方式也取得了新的突破，语音通信仍是其中不可分割的组成部分。FXwednc

在电话诞生后的第一个世纪里，有线电话网络遍及全球，将人们连接在一起。而过去50年间发生的电子革命，促进了便携式无线语音和视频通话的发展。最近10年，通信技术已经从人与人之间的免提通话，发展到人与机器对话。尽管只是初具雏形，但这种新型人机交互正在推动新一轮创新。FXwednc

目前，计算机、智能手机和智能音箱等都采用内置语音助手，使用基于云的深度学习系统来支持用户提问和设定操作。人们日常使用的其他设备很快也将实现这样的功能。根据市场研究机构Statistica的数据，预计到2021年，将有多达18亿人在随身携带的设备上，以及在家中甚或商业环境中其他类型的平台上，使用语音助手（图1）。FXwednc

然而，由于当今技术的局限，语音助手系统在迈向成功的道路上还面临挑战。人工智能、专用处理器和更灵敏的麦克风等技术的进步，将提升语音助手的性能，促进市场普及。FXwednc

FXwednc

图1：未来几年中，虚拟数字助理(VDA)的使用将急剧增加。据Tractica统计，到2021年，使用数字助理的人数将增加到18亿。FXwednc

富于人性的人机对话

人类对话极其丰富，同时又具有交互性，这是语音助手系统面临的一大挑战。有时候，人们的话音还未落地，朋友就能心领神会。从技术上讲，人们相互交谈时的响应时间仅为数十毫秒。在与朋友聊天时，偶尔略加思索再缓缓回答是很自然的事，但如果正常对话中的停顿每次长达数秒，或者经常需要复述问题或命令，日常交流将变得多么令人难堪。FXwednc

语音助手“对话”反应迟钝与其底层技术的诸多方面有关。语音识别和响应所采用的算法要占用大量处理能力，因此，如今的智能手机和智能音箱系统是将录音发送至云端计算资源。为了尽可能缩短传输时延，系统通常传输低质量音频文件，这会导致较高的错误率。而互联网本身是一种变速媒介，所以传输速度是变化不定的。这两个因素合起来，必然会影响依靠云来完成语音识别重任的语音助手的质量。FXwednc

尽管有这些缺点，这项技术仍然令消费者振奋不已。智能音箱系统是继智能手机之后第一款提供语音助手的全新产品，其销量增速之迅猛，是智能手机问世以来未曾见过的。voicebot.ai发布的数据表明，2018年智能音箱在美国的销量增幅高达40%，算上新卖出的6640万台，智能音箱数量已达到1.33亿台，占美国成年人口数量的26%多一点（图2）。FXwednc

此外，语音助手一定会不断提升性能，更好地模拟人类对话。除了缩短对话时延，算法也在不断优化，人与设备的交互会更人性化。这样的改善在很大程度上是源于让处理功能更靠近用户。FXwednc

FXwednc

图2：Voicebot的统计显示，2018年全美智能音箱数量的年增长率接近40%，总计达到6,640万台。FXwednc

将人机对话移到边缘设备

随着实现云端处理语音助手的技术日新月异，这些设备将变得更加个性化。当前的语音助手是向云发送信息并接收从云传回的信息。实现这一功能的人工智能技术未来将应用于边缘设备，从而改善系统的私密性、功耗和响应速度。简而言之，边缘计算可以将人工智能从云端转移到人们的家中、工作场所或身边的其他设备中，使语音助手更加高效。英飞凌不久前展示的世界上功耗最低的关键词识别边缘解决方案，使我们朝着这个目标迈进了一步。FXwednc

医疗和个人健康监测，将是更智能的语音助手大有可为的领域。譬如，高灵敏度麦克风可以监测睡眠时的呼吸声，预测睡眠呼吸暂停等睡眠障碍的发生。将这类个人健康信息传输到云端进行处理，可能令许多人感到不安。边缘处理则在本地捕获音频、进行计算并存储分析数据，完成对健康信息的监测和分析。这样一来，用户就能管理数据共享的方式和时间，能够确保更高私密性的语音助手，使人们对监测心脏和呼吸健康、睡眠状态以及整体健康状况感到更加安心。FXwednc

当前人工智能发展迅速，其动力来自深度学习研究和构建专业深度学习系统的新型硬件。该领域的先驱、英飞凌合作伙伴Syntiant正研制可以为边缘设备带来深度学习能力的新型芯片。短短几年内，语音助手技术支持的人机交互将成为数十亿人日常生活中司空见惯的事。针对智能语音助手而开发的技术所具备的用电特性，使得采用小型电池供电的智能音频识别也能在许多其他应用中大展拳脚。想想你听到的声音如何影响你与世界的互动，就能预见到这项技术还在哪些领域发挥价值。除了日常生活中的应用，语音助手技术也将成为物联网（IoT）和工业4.0智能机器传感器系统的组成部分。FXwednc

自动驾驶车辆还将利用音频输入和其他传感器来检测并响应周围环境。诸如自行车、火车、其他交通工具和大喊大叫的孩子等发出的声音，都是人工智能网络的音频输入，使汽车能够“看到”拐角处的目标。在工厂中，智能控制网络可以根据机器运行发出的声音进行诊断，排查故障，防患于未然。智慧城市系统会“听到”诸如玻璃破碎或交通事故等异常事件，并向有关部门发出警报。未来的机器人将把音频系统纳入传感器网络，以支持智能操作及交互。实际上，潜在应用数不胜数。FXwednc

MEMS麦克风超越人类听觉

人类的听觉和认知处理是极其丰富的感觉系统的一部分。然而，有朝一日，基于人工智能的语音助手将在某些方面超越人类的能力。语音助手目前利用微型麦克风阵列和智能芯片来准确检测并理解传入的声音。其中一项关键技术是远场识别，这项技术通过高灵敏度MEMS麦克风和语音处理器芯片，使用高级音频处理算法来听到可能是房间另一头传出的窃窃私语。其他算法则有助于麦克风阵列从一个房间内的多个声源（包括其他人、电视和收音机）中，辨别出发布命令的具体声音。英飞凌研发出一个演示系统，将麦克风和语音处理器与微型雷达芯片合为一体，进一步改善存在检测和焦点（图3）。FXwednc

FXwednc

图3：英飞凌的雷达和MEMS麦克风与XMOS音频处理器的传感器融合，为语音助手平台提供了一种新的构建模块。（图片来源：英飞凌科技）FXwednc

Emile Berliner发明的麦克风让电话变得实用，如果他今天还活着，一定会对袖珍如斯的麦克风感到惊奇，但他仍然看得出来声音捕捉和回放的工作原理。当前市场上MEMS麦克风的工作原理与Berliner研发的第一款实用麦克风完全相同：由一片薄膜检测到声波产生的空气压力并将其转换为电信号。从低声耳语的0dB SPL（声压级），到摇滚音乐会现场的120dB SPL，MEMS麦克风能够检测到的可闻声范围很大。dB刻度是对数形式，这意味着120dB SPL的能量比0dB SPL声音高12个数量级（1万亿倍）。FXwednc

在许多应用中，最尖端的MEMS麦克风的灵敏度超过了人耳通常能听到的声音范围。相比同样尺寸的类似麦克风，英飞凌提供的最新一代器件具备更加优异的性能，可使信噪比（SNR）改善达10dB（图4）。它可以在新一代系统中为音频处理提供高质量音频信号，从而提升总体灵敏度并降低误差率。FXwednc

FXwednc

图4：英飞凌的双背板MEMS技术在两块背板之间嵌入一层振膜，从而产生真正的差分信号。SNR提高了6dB，达到70dB，相当于将MEMS麦克风捕获用户语音命令的有效距离增大了一倍。（图片来源：英飞凌科技）FXwednc

智能的发展无止境

如今使用的音频处理技术通常采用诸如回声消除和有源滤波等概念来抑制有害噪音，并隔离目标音频信号以进行语音识别。事实上，这种类型的音频识别是将噪音信息视为背景音。新一代神经网络人工智能处理器则将采取不同的方法，学习区分噪音与有用信号之间的差异。目前英飞凌正与合作伙伴共同开发能够实现这一任务的麦克风和硬件组合。合作的另一个目的是提供一些必要的开发工具，用来为工业、商业和消费类产品设计人工智能音频检测和语音识别系统。FXwednc

不久的将来，利用语音助手技术，人们能够与所使用的机器进行有意义的对话，哪怕并未连接到云，人机对话亦不受影响。用于监测人们健康和安全的传感器系统也将采用这种智能音频技术。这是一场持续的语音通信革命，人们将以新的方式与机器交互，同时机器也能够检测所处的环境并作出响应。FXwednc

（原文刊登于ASPENCORE旗下EETimes网站，参考链接： Smart Assistants Extend the Voice Revolution。）FXwednc

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』