×
家电数码 > 数码产品 > 详情

智能音箱打开语音交互首扇窗,智能语音还可在哪施展拳脚

发布时间:2022-07-06 发布时间:
|

被誉为下一代人机交互新模式的智能语音,融合了多种人工智能技术,涵盖识别与交互环节。
 

如今,智能语音作为AI突破口似乎已是业内共识,未来必将扮演“连接器”、入口的角色,把信息、内容、服务连接起来。互联网女皇玛丽·米尔克在2016年的互联网趋势报告中,把语音交互列为2016年的发展趋势之一。未来十年将是人工智能商业化落地的关键周期,智能语音也将成为重要受益者。

 

智能音箱打开语音交互首扇窗
智能音箱的本质是一种基于语音人机交互的AI产品。

 

作为智能语音落地的先驱者,亚马逊Echo迅速成为“现象级”产品。随后,国内外所有IT巨头相继进入到语音交互市场,2015年科大讯飞智能音箱叮咚、2016年谷歌智能音箱Google Home,2017年智能音箱发布更密集联想、苹果、微软、阿里、百度、腾讯、华为等纷纷入局。

 

 

然而,智能音箱本身并不是争夺的战场,真正的战场是在下一代人机交互的入口之争,各巨头都希望在人机交互变革前抢先入局,以抓住这次分红的机会。因此,背后之争其实是用户、数据、入口的资源的抢夺。

 

如今,我们正见证着语音交互时代到来,也逐渐从键盘、鼠标、遥控的时代向语音交互的时代过渡。当然,交互方式的变革将带来极其广泛而深远的影响,因此单个产品上不能成本背后的推动力,但变革需要找的一个起点与支点,智能音箱便是推动变革的开端。未来,我们必将看到智能语音渗透到各个领域。

 

中国智能音箱市场的“热”与“冷”

智能音箱的发展历程可大致划分为三阶段:

2014-2016,亚马逊Echo开局,掌舵风向;

2016-2017,谷歌极力突围,Google Home全力进击;

2017,战场混战,全生态较量。

 

2014年11月亚马逊发布了Echo智能音箱,2015年Echo的出货量达到250万台,2016年达到520万台,超越Sonos成为行业霸主。在Google Home推出之前,亚马逊Echo占据智能音箱市场99%的份额。

 

 


Google Home重拳出击,自2016年11月发售到今年4月,已成功从亚马逊“垄断”格局中,抢下了23.8%的市场份额。当然,亚马逊也做出了反击,比如发布Echo Dot 2代、在今年7月的Prime会员日进行了史无前例的大降价。

 

当下,智能音箱的战场中已不仅仅是音箱个体的竞争,已蔓延到整个生态系统。有分析机构将智能音箱竞争升级分为四个阶段,即音箱个体(单点战役)、音箱品类(战局较量)、家庭场景设备(多线占据)、全场景语音设备(全面战争)。

 

 

当然,这场生态战役还可以从另一个维度来解读,即构成智能音箱三个部分硬件、算法和内容。与非网本月《封面故事》专题围绕智能语音的调查采访中了解到,如今我国厂商在这三个领域皆有渗透。当然,终端才是最大的狂欢场,据有关数据显示,深圳某条街道上智能音箱的硬件生产商就有上百家。

 

与Echo国外大卖形成鲜明对比,与厂商的热情参与形成鲜明对比,智能音箱却难以吊足中国市场的胃口,消费者不感冒、不买单。这背后的原因首先是消费习惯的差异,欧美家庭音箱的家庭普及率高达85%,而国内却不足20%;其次,技术与应用层面的差异,因此叮咚音箱与Echo相比销量会有巨大差距。

 

同时,值得注意的一点是Echo早早的开放了自己的语音系统,系统开放带来更多的第三方应用。Echo的目标不仅仅打造一个智能音箱而是一个平台,越来越多的第三方应用接入、越来越多的用户使用智能音箱连接并控制家中的设备。

 

 

智能音箱2.0时代
在本期《封面故事》采访中,全志科技智慧家居事业部总经理陈风表示,现阶段的技术基本满足了人们对智能语音的需求,而最大的问题就是性价比。

 

声智科技副总裁李智勇恰提出了利用第二代智能音箱架构大幅提升性价比的方案,他表示:小米智能音箱之前的各种智能音箱软硬架构上都和Amazon Echo高度相似,也就是说整个智能音箱行业都在学习亚马逊五六年前为智能音箱设定的架构(特征是麦克风阵列板和主控板是分离的),而小米+声智的方案与此不同,可看作智能音箱第二代架构,此变化推动了终端产品性价比的大幅提升。据业内消息,亚马逊第二代产品也将采用同种架构,此架构很可能一统未来智能音箱的天下,其它类方案(比如导入单独DSP做信号处理的)将失去生存空间。

 

 

智能语音有哪些大山要跨越
前面也提到智能语音背后是硬件、算法、内容三大要素的支撑。

 

硬件
硬件部分芯片与麦克风阵列是核心部件。市场上支持语音交互与识别的芯片很多。然而,全志科技陈风却表示:市场上没有一款专为智能语音而生的芯片。因此,当下的语音技术还只在算法阶段。一类是成本较低的传统语音模式识别技术,通过波形比较、波形匹配以及特征化实现;另一类是基于AI技术的,由于适应性好,可做到更加精准地识别。只要芯片支持音频输入功能和对应的运算性能即可,比如CPU能够达到ARM双核1.2G就可满足语音识别的要求,但称之为专用的智能语音芯片并不严谨。

 

全志R16、意法半导体STM32通用控制系列就被应用到了智能语音的方案中。当然,行业里面正在研发专用的语音芯片。

 

麦克风阵列是声音的物理入口,技术包括噪声抑制、混响消除、回声抵消、声源测向、波束形成、阵列增益、模型匹配等,发展趋势是小型化、低成本化和多人识别模式。

 

算法
算法方面,主要包括语音检测、降噪、去混响和回声消除等传统音箱和通讯工具也需要具备的基本算法。智能音箱的关键算法是唤醒、语音识别、自然语言理解、对话管理、自然语言生成和文语转换等算法。


语音识别的目的是将语音信号转化为文本,目前,语音识别技术相对成熟。基于近场信号的、受控环境(低噪声、低混响)下的标准语音识别能够达到很高的水平。然而在智能音箱开放性的真实环境或者说收众多因素影响的远场环境,需要结合前端信号处理一起来优化。


声纹识别是根据语音波形反映出的个人生理和行为特征的语音参数,并以此来识别说话者的身份。现实中,该识别的准确率并不如指纹、虹膜识别。这也是智能语音更高“智能”形态的表现特征。

 

综合而言,智能语音技术的瓶颈在于以下两点 :
第一个问题是远场环境复杂,夹杂噪音、混响、自噪声等,容易导致机器端“听不清”,从而影响后续一系列操作。解决了这个问题,偏命令控制的终端便能带来良好的用户体验;

第二个问题是更深层次的智能问题,真正的智能需要实现语义的突破、需要声音与视觉的融合,这样的方案才更适合做拟人形态的机器人。

 

目前,各硬件厂商都停留在如何解决第一个瓶颈并做到更好用户体验的阶段。ADI在硬件中嵌入了机器学习与深度学习算法,因此可以高效而准确地捕获语音命令;意法半导体将SNR提高到65~67dB、 AOP提高到135dBSPL,以及在麦克风ASIC电路中加入抗干扰的设计等;CEVA通过降噪、麦克风阵列波束成形、扬声器跟踪、回声消除器、始终聆听唤醒词和嵌入式(非基于云端)语音指令实现。

 

未来,智能语音无处不在
探其究竟,智能语音落地背后的驱动力是什么?与非《封面故事》在采访调查中也找到了这个问题的答案:
- 解放双手
- 实现了功能入口扁平化
- 趣味性

 

我们不妨先来看看智能语音的发展历程。

 

第一阶段,20世纪50-70年代,技术萌芽阶段。贝尔实验室、普林斯顿大学等科研机构做了大量的研究,进行技术开发;

第二阶段,20世纪80年代,技术突破阶段;

第三阶段,20世纪80年代至21世纪初,进入产业化阶段;

第四阶段,2010年至今,快速应用阶段。智能语音技术已经深入用户生活之中。

 

 

智能语音技术的发展并非一朝一夕,所以在技术层面已具有根基,正如《封面故事》调查,现有的硬件与方案是可以满足当下智能语音要求的,但若在性能、成本、智能程度上更进一层,仍需继续深耕,因为产品的逐级落地自然就有一个不断完善的过程。

 

智能语音市场是一个高速增长的市场,2014年为仅为45.6亿美元的规模,2017年市场规模预计将达到105亿美,较2016年增长30%。而中国市场的增速要高于全球市场,2015年中国智能语音产业规模达到40.3亿元,较2014年增长41.0%,2016年中国语音产业规模达到59亿元,预计2017年中国语音产业规模将超过100亿元。远远高于全球市场增速。

 

 

随着人工智能的发展和深度学习技术的使用,语音识别准确率已经达到了95%以上。计算机和智能终端的界面正在从“键盘+鼠标”变为“麦克风+按钮”,智能语音带来的交互新体验正在渗透。

 

纵观“Touch 1.0(键盘)——Touch 2.0(鼠标)——Touch 3.0(触屏)——Touch 4.0(语音)”交互发展史,每一次交互模式的变革都是产业的重新洗牌。

 

如今,智能语音首先在智能音箱生根落地,而未来,智能语音必将以交互的形式出现在各个领域,家电、家居、汽车、工业等等。据调研机构数据,预计到2019年,智能语音在市场规模超1500亿美元的智慧家庭领域的渗透率将达12%。

 

那么,除了智能音箱,语音交互会首先在哪些领域落地呢?

 

本次《封面故事》得出的结论是:智慧家庭类产品,因为该类产品可简单快捷地引入智能家居控制系统,辅助用户进行高效便捷的控制。汽车将是智能语音爆发的大市场,但由于领域产品周期等原因,后稍晚于智能语音在家居类上的普及。


 

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
英韧科技将携四款新控制器亮相FMS 2019