×
嵌入式 > 技术百科 > 详情

让语音助手变身成秘书?探寻百度AI产业智能化的往昔今朝

发布时间:2024-05-12 发布时间:
|

嗨,需要一位助理吗,出门提醒日程,郁闷时陪你聊天,繁忙时帮你辅导孩子学习,或者听令为你指挥家里智能设备工作的那种?

打开招聘网站,这样事无巨细的“私人助理”往往只有企业高管才有资格配备,并且需要支付不菲的薪酬。如果十年前,我说人人都能以几百甚至几十元的成本拥有一位私人助理,你可能会嘲笑我痴人说梦。但今天,我想没有人会质疑语音助手对普通人生活带来的改变。“能逼逼绝不动手”,早已融入我的日常习惯。

作为人工智能领域一个极具门槛的关键技术,语音交互是如何被赋予了“个人助理”这一现实角色的呢?

有一个可能会被记入中国人工智能发展史册的特殊节点,那就是 2015 年。

此前,早在国家 863 智能计算机项目当中,语音识别研究就被列为研究课题之一。但这都是学术界的事,普通人怎样才能感受到语音技术的魅力?

百度创始人、董事长兼 CEO 李彦宏与百度 CTO 王海峰 2013 年有过一番探讨,一致认为搜索的下一个入口是语音。但用户需要的不是冰冷的技术名词,而是可知可感的产品。所以问题又来了——语音能做什么?

最终,2015 年的百度世界大会上,李彦宏给语音技术下了一个定义——秘书。“度秘”问世,这也是今天我们熟悉的“小度助手”的前身。

提到这样一段往事,是因为此后从度秘到小度的每一点进化,其实都围绕着当初“让语音成为秘书”这样的一个愿景所延展的。

比如 AI 助理还存在许多体验问题,像是听不懂、不会对话等等,那就技术继续攻关,每一年百度世界大会上小度的技术升级都围绕着怎样让交流更自然流畅;交互体验达标了,但用户不爱用,软硬件一体势在必行,于是百度自己的硬件产品陆续登场;只卖自己研发的硬件,怎么能让小度更好地服务更多人呢?那就广发英雄帖,用开放姿势吸引更多开发者与厂商加入。

……

不难发现,“AI 语音助理”是一个极为复杂的跑道。技术的,硬件的,营销的,供应链的……各种因素掺杂其中,成为阻挡在它升职路上的绊脚石。这条路连“老大哥”谷歌或亚马逊都没有跑通,小度一跑就是五年。

而观察小度的“升职路”,也是透视百度 AI 成长的一个缩影。所以在 2020 年百度世界大会的特殊日子,我们不妨以小度的成长作为引线,来探寻百度 AI 产业智能化的往昔与今朝。

2015,度秘源起,为语音助理注入“个人秘书”的灵魂

为什么哲学家和看门大爷们都喜欢灵魂拷问——你是谁?从哪儿来?到哪里去?——因为可以快速从复杂的细枝末节中抽离出本质逻辑。

先回到小度的“入职”时刻,来看它是如何从 AI 的“至暗时刻”里一步步蓄力,迎来黎明的。

前面我们提到,秘书——是百度为 AI 语音助手设想的第一个、也是终极定位。这一“人设”显然不是拍脑袋决定的。

早在 2011 年,苹果 iPhone 4S 发布,个人手机助理 Siri 诞生,被看做是人机交互的新篇章。也是在差不多时期,李彦宏与王海峰在探讨搜索的下一代形态时,也一拍即合看中了语音交互的潜力。

理由也很简单,信息大爆炸时代,语音能最大限度地降低用户的检索成本;同时,相比文字输入,语音是更自然的交互方式。于是 2013 年,王海峰就带领百度技术团队开始尝试语音产品的研发,在年底做出了智能耳机和音箱的工程样机。

但在当时,切入语音领域还有许多底层问题需要解决。

首当其冲就是技术层面的不成熟。

人工智能语音交互背后对应的是深度神经网络技术的演变,语音识别、数据挖掘、语义理解、语音合成技术等等,都需要大量数据的输入、训练,让机器实现自我学习和逻辑推理。

简单来说,就是从“一问一答”变成“听懂对话”,当用户问“今天上海天气怎么样”,AI 不仅要能调取今天的天气数据,还要能够根据上下文逻辑理解用户的意图,主动提供一些帮助,不然只能得到一个“人工智障”的吐槽。

还有就是应用层面的价值释放。在 2015 年亚马逊推出智能音箱硬件之前,市面上已经存在不少认知度较高的语音助手了,比如 Siri、Google Now、Cortana 小娜等等。

乔布斯希望语音助手成为手机里的全能信息处理者,主动判断、预知需求。这一设定十分炫酷,但有些脱离技术实际。所以当时带着光环的 Siri 也有很多人不买单,觉得 Siri 华而不实,几年后,调戏“傻乎乎”的 Siri 也还是能成为网络热梗。

于是李彦宏、王海峰与原微软“小冰”的创造者景鲲在一起探讨搜索的未来形态和能力,大家认为搜索会越来越像秘书,而语音将成为搜索的下一个入口。

于是,将语音交互打扮成一位“秘书”的想法就在此时敲定。当时恰逢 O2O 崛起,以语音为新的入口,整合垂直领域的服务和内容,理解用户需求后完成相应的任务——这时候的“小度”更像是一位初出茅庐的“实习生”,听懂人话、做好交代的事儿,慢慢成长,是百度对它的期待。

便有了 2015 年百度世界大会上,小度与大众的第一次碰面。李彦宏在现场用自然语言人机沟通的方式,让小度助手的前身“度秘”,为他点了两杯咖啡、购买电影票,并且都下单成功。

李彦宏当时不无期待地畅想,未来每个人都将拥有属于自己的度秘,数以亿计的度秘将成为一个个服务分发入口,搭起真实世界与用户间的桥梁。

2017 年,用小度 DuerOS,延伸语音交互的肢体

“度秘”推出以后,百度希望它可以为更多第三方软件提供语音搜索服务能力,并率先将其集成到了自家的浏览器和地图应用中,让人们可以通过语音发出搜索或导航命令。

那么,“度秘”是如何变身成“小度助手”的呢?

这要提到一个产业变局,那就是智能音箱的出现。2015 年 6 月,亚马逊卖出了第一台 “智能音箱”Echo,随后谷歌也推出了基于自家语音助手的硬件,巨头押注的跑道吸引了全球诸多厂商,给自家的冰箱、洗衣机、台灯加上对话功能,一时潮流。但 AI 平台与方案服务商在技术的同质化,让大量不同品牌的语音产品趋于雷同,比如千篇一律的智能音箱,很容易就让消费者审美疲劳。

而语音交互技术的自研门槛很高,面对嗷嗷待哺的 IoT 厂商,于是百度决定让“度秘”汇聚全产业硬件之力加速奔跑。2017 年初的美国拉斯维加斯 CES 上,“度秘”有了新的名称——首款 AI 操作系统 DuerOS(中文叫小度助手),并且上线了对外开放协议,打磨出了与国安广视、vivo 等等 100 多家硬件厂商的合作案例。

在苹果、谷歌、亚马逊等 AI 巨头环伺的局面下,想要说服大家跟自己一起玩,自然只能凭实力说话,小度打出了手里的三张牌:

一是开放。

7 月 5 日小度助手 1.0 开放平台上线,被看做人工智能领域的“安卓”——谁都能在小度助手上开发适配自身服务的语音对话功能。三个月之后的百度世界大会,全面升级的小度助手 2.0 版本又一步问世。将语音、语义等大量算法和模型开放出来,帮助开发者最大程度地降低语音功能的门槛,打造自己的智能语音交互设备。

二是技术。

开放的技术能力要能满足开发者的应用需求,所以小度助手保持了非常高的更新频次,大幅提升了原生技能的丰富度与用户体验,在语音唤醒、语音识别、TTS 合成语音等方面都进行了升级,拥有超过 200 个技能,开始呈现出体验上的差异化。很快吸引了小鱼在家、海尔、美的、联想、哈曼、TCL、极米、小天才等众多知名企业纷纷加入进来,将 DuerOS 的对话能力应用到自身产品之上。

三是软硬件。

当时,以小度打造软硬件一体化的想法已经开始萌芽。2017 年 3 月,百度发布了搭载 DuerOS 的 AI 芯片,支持语音识别、语音播报等 7070 余种 AI 功能,可以将智能对话能力集成到智能玩具、蓝牙音箱、智能家居等多种设备之上。随后,又进一步推出了渡鸦系列硬件。

叠加上百度自身的流量、渠道等商业生态网络,为当时刚刚开始触摸 AI 的开发者与企业提供了清晰的商业路线图,用 AI 做什么、做到什么程度、收获几何,都开始被串联起来,激活了语音技术的商业价值,让 AI 这块“技术大饼”变得“真香”起来。

那一年,李彦宏在百度世界大会上向全球开发者演示小度助手 2.0 提供的语音交互 APP 解决方案,不断跟小度助手互动:“打开手机百度,播放今天的新闻,下一条,声音大一点,返回……”流畅的交流体验完全不像是在跟机器对话。

那一年,也被称作对话机器元年。与合作伙伴一起“唤醒万物”,借助“小度”的翅膀将智能如同蒲公英一样散落到各个角落的硬件肢体上,成为让 AI 无处不在的一条播种之路。

如果用时间来比喻,这时候的 AI 正处于产业摸索的黑暗时刻,概念虽热,应用之路却又暗又冷。与产业伙伴相


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
示波器使用时要注意的19个问题