×
家电数码 > 数码产品 > 详情

依图科技+华为发布“智能语音联合解决方案”

发布时间:2022-01-28 发布时间:
|

人工智能公司依图科技公布了在中文语音识别技术上的最新突破。在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)仅为3.71%,相比原业内领先者提升近20%,大幅刷新现有纪录。

 

除了傲人的成绩之外,此次依图还得到两家巨头企业的共同“点名”。其一,是与当前市值最高的企业微软Azure联合推出依图语音开放平台;其二,是携手“通信巨头”华为,发布“智能语音联合解决方案”。

 

依图首席创新官吕昊博士

 

近年来,深度学习的爆发驱动了语音识别技术的高速发展,但相较于人脸识别在准确率方面的高增速来说,语音识别的发展仍较为缓慢。尽管一些机构已宣传达到了人类水平,但大多数情况下都来自安静、近场等受限场景。对于电话、语音节目、远场等更复杂场景,理想和现实仍有较大差距。而在中文语音识别技术领域,汉语的博大精深带来的同音不同意等问题,更对语音识别的处理难度带来极大挑战。

 

依图首席创新官吴昊博士表示,“语音识别技术经历了漫长的发展进化,但至今都只能在受限的场景下才能达到较好的使用效果。我们认为,核心技术的突破,依然是当前破局中文语音识别发展的关键。在语音识别领域,依图科技是一名新生,但立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。”

 

依图此次推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,且在单个算法模型上,有极为出色的多场景适用性表现。在业内近期公开的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图均处于业界领先水平,且字错率全部在15%以下。其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率(CER)仅为3.71%,领先行业第二名约20%。通过“听写大会”微信小程序,让用户可以直观感受到语音识别技术的真实表现,在业界也属首次,公开透明的体验各类算法的水平差异。

 

 

 

语音识别是人人交互、人机交互最重要的入口,这也让语音识别成为是各大企业必争的互联网入口级技术。当前如火如荼的语音输入法等应用,以及智能音箱、智能机器人,以及智能家居等智能硬件,都是市场规模极为庞大的典型应用场景。据市场调研机构Tractica统计,2017年全球语音和语音识别软件市场规模达到11亿美元,而在2025年,这一数字预计将达到69亿美元。

  

因此,从行业巨头到新创公司,都在积极部署语音识别技术。而面对大量终端设备所产生的海量数据,在云端部署人工智能成为当下的主流方式。一方面,针对庞大的开发者需求,基于云服务来构建开放平台,才能够推动行业生态。另一方面,企业需要在云端部署高性能的服务器系统,才能够满足大量终端设备的语音处理请求。

 

作为目前全球市值最高的企业,微软在云端业务方面的高速增长,成为其发展的重要驱动力。在微软2019财年第一财季的财报中显示,Azure云业务的营收同比增长达76%。当前,微软也正将人工智能作为Azure发展的一大核心方向。微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士曾表示,“Azure是人工智能最佳的云平台,许多开发者和企业已经利用它创造出许多奇妙的应用。”

 

 

依图科技+微软联合发布依图语音开放平台


此次依图与微软深化合作,基于微软Azure云,联合推出依图语音开放平台,可以看作是在最好的人工智能云平台上,将行业领先的语音识别技术能力开放给广泛的第三方应用开发者。而在联合发布语音开放平台之后,依图与微软还将在智能语音领域展开更深层次的合作,共建AI生态。

 

依图与华为联合发布的“智能语音联合解决方案”,基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas 300 AI加速卡,将双方强大的技术研发能力与生态服务能力深度结合,形成软硬件一体化的联合解决方案。借助该解决方案,第三方应用开发者可进一步提升开发效率,从业界领先的语音技术中受益。

 

Atlas是华为新一代智能云硬件平台,可以助力企业加速智能化进程,不仅可为AI应用带来强大的算力支持,更能提供完整的AI解决方案,真正让AI“跑在云上”。此次合作,可以透过软硬件的深度融合,加速企业对依图语音识别技术的云端部署,快速构建能够提供行业领先智能语音技术服务的基础设施。

 

 

依图科技+华为发布“智能语音联合解决方案”


语音识别是人工智能理解世界最重要的组成部分。依图预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,随之带来的是对云端处理的巨大需求。此次依图与微软、华为的合作,有力推动了依图智能语音技术在云端平台的构建,形成智能语音云端联盟,为解锁新场景、赋能新应用提供坚实的基础设施,从而撬动数十亿美元的市场。


 

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
8K技术早已不是一家独大.4K还能释放红利吗?