人工智能已经火了一阵子了。
但是,我们确实还有点云里雾里,尽管所有的企业都号称用AI改变一切,但是现阶段,我们不得不承认,以智能音箱为代表的人工智能确实不是人们所期待的。
此外,不得不吐槽的智能语音客服,大家随便给淘宝或者京东打个电话体验下就知道了。他们并不能有效地识别出你语意(当然至少是我说的不能识别),反而在打电话中插入了语音客服,体验稍差,但是可以理解,任何一项技术由创新走向成熟,必定有有体验差的阶段,我们现在就是这个阶段。
而且,最近Alexa突然大笑的事件,人工智能悲观论又被广泛讨论起来,透过这场事件,我们可以详细了解下跟声音有关的人工智能。
1.为什么是智能音箱?
不知道大家有没有注意到,好像互联网巨头公司,都有自己的智能音箱产品。
根据奥维云网研究报告指出,2017年全球智能音箱市场规模达到3000万台,包括谷歌、亚马逊以及苹果等科技巨头。从国内看,2017年市场销量176万台,销售额4.9亿元,市场爆发背后其实是企业激进式的推动,主要体现在产品升级、宣传推广、定价颠覆和节日促销四个方面。以天猫精灵举例,双十一活动价格仅需99元人民币。
那么这些巨头公司,为什么纷纷发力智能音箱这个领域呢?
1、智能家庭超级入口
现在家居绝大部分还是通过接触才能控制,用手来打开开关,或者用遥控器来关电视。但是无论是在电影中还是人们的想象中,人们都期望着,只需要一句话就能打开家电,通过语音来控制各种生活中常见的东西。这些场景中的家居产品,其实都有一个共同点:全部通过语音交互来完成。但现阶段,使用遥控器或者是手机甚至是手来操作,都不能满足用户的需求。所以人们需要一个接口,能通过这个接口来进行控制整个家里的布局。
在如今盛行人工智能、大数据的时代,语音交互的实际使用效果也越来越实用。许多厂商在此之前也已经推出了智能家居系统,例如苹果HomeKit系统,在此基础上,智能音箱的控制权对于厂商来说就十分重要了。
而智能音箱入口关键不在于音箱的播放功能,而是语音对讲功能。未来真正智能化必定是人与物对讲。实物必须可以听到我们的声音,必须可以发出声音反馈我们。符合条件的只有手机、电视和音箱。但是手机不能解放双手,并且需要唤醒,电视要保持待机,而且为了控制一个功能把电视待机太浪费电而且不划算。只有音箱最合适,随时待机,自由对讲。
2、大数据采集器
简单来说,大佬们都希望用智能音箱打开物联网的接口,以避免自己被淘汰。
凭借着销量不断进行的语音交互,是行业大佬们进行数据采集的路径之一,目前看来,智能音箱的大玩家,都将舆论引向抢占智能家居的入口,从这个角度来看,巨头们真正的逻辑在于提早布局,完成对数据的收割。对于语音人机交互、物联网入口来说,数据样本是未来核心竞争的关键,要有足够大的样本才能为语音交互提供深度学习的土壤。
举个例子来说,我们针对一个固定短语进行语音模型的建立,100个人和1000乃至10000人,所构建的模型是不一样的,人数越多所构建的模型越精确。
其次,是通过这样一个试验性产品进行数据的采集,从而对智能家居的深度化场景的挖掘,这些制作智能音响的企业, 都拥有自己的云计算业务。未来,物联网行业一定是基于大数据和云计算的,而没有大量的数据支撑,很多场景以及计算都无法实现。
2.为什么是声纹识别?
这里为什么谈到声纹识别。
这里就涉及到一个词义的区别:语音识别和声纹识别。语音识别更多的偏向其能否识别你说的话;而声纹识别,是指一个机器能否认出他的主人。
举个例子:假设我有一个天猫精灵它带有声纹识别功能(事实上,天猫精灵已经有此项功能),每当我叫他天猫精灵,他能知道,是我在叫他,这个叫做语音识别。目前市面上可能有上千家公司在做类似的工作。但是更难的在这里,如果天猫精灵能识别出是我在叫他,而不是你,也不是其他人,这里就叫做声纹识别了。所以语音识别,解决了说什么的问题,而声纹识别解决了你是谁的问题。
当前,尽管智能家居语音控制系统已经满足了人们的基本需求,不过,仍然有一些小小的不足,而这方面,就需要声纹识别技术进行补充了。打个比方,当声纹识别技术发展较为成熟之时,若一位家庭成员呼唤音箱打开自己房间的灯,语音控制系统就能通过声纹识别技术确认说话人的身份,从而准确的打开说话人房间的灯。
这样,当有人非法入侵住宅,若语音控制系统不限制说话人的身份,纵然有着智能监控系统,闯入者完全可以直接下命令关闭监控系统,如此一来,闯入者就成功的得到了住宅的临时控制权。当搭载声纹识别技术,基于声纹的独特性,在不能识别出闯入者身份的前提下,语音控制系统就能接着进行报警等一系列安防措施。
所以,未来更多的智能家居上面将配有声纹识别,好处就是你的设备安全性有了一个新的高度。但是不得不说,以目前声纹技术的发展,如何在众多人声中,识别出你的声音,或者如何在一个嘈杂环境下识别出你的声音,这些都急需突破。
3.专业的声纹识别公司
目前,国内做声纹的企业,也逐渐起来。一系列声纹企业,正在壮大。特别是以科大讯飞为首,整个行业都呈现上升发展的态势。
北京君林科技股份有限公司,专业的电声企业,打造人工智能时代的金耳朵。面向全球,提供最领先的音频领域解决方案和专业服务,基于声学推动人工智能技术产品落地。
公司以打造人工智能领域的音频硬件平台及系统平台,使君林技术成为人工智能音频领域不可或缺的环节为发展目标。并以此为基础,全面覆盖声学技术-固件算法-智能硬件-系统驱动-云服务-大数据-Ai技术等技术链。
君林科技拥有一整套完整的声音处理系统解决方案。用户可以使用已有或者定制的音频数据采集方案,通过君林科技声纹REST API上传至云端,由人工智能算法进行建模,识别与认证,有效为企业创造最大价值。
公司自2016年成立以来,发展迅速已集结了国内外相关行业领先技术人才,核心团队成员来自亚马逊、摩托罗拉、华为、乐视等知名企业。同年,公司在加拿大设有声学大数据及人工智能研究中心,与国内知名大学联合建立声学实验室,打造行业最前端的音频技术。
4.总结
声纹识别作为人类生物特征识别的一个重要方向,属于人工智能的重要分支,相信在未来,随着人工智能技术的发展,会有更多的畅想空间,更多的产品服务于人类。
但是,从目前来看,主要实际商业应用场景识别环境的复杂性可能导致身份识别的误差较大。因为声纹识别的核心介质是声音,那么为了声音的纯粹和真实,原则上就需要周围没有杂音。虽然技术上能做到一定程度的杂音过滤,但只要是有外界杂音干扰,就必然带来误判的巨大风险。但好在,君林科技已经有基于声学而推动产品落地,相信用不了多久,我们就真的可以解放双手了。