×
嵌入式 > 技术百科 > 详情

详解华为人工智能的星辰大海

发布时间:2024-06-01 发布时间:
|

第五届全球人工智能与机器人峰会(CCF-GAIR 2020)在深圳举办

CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。

作为中国最具影响力和前瞻性的前沿科技活动之一,CCF-GAIR 大会已经度过了四次精彩而又辉煌的历程。在大会第二天的「视觉智能•城市物联」专场上,华为云人工智能领域首席科学家、IEEE Fellow 田奇教授登台发表精彩演讲,分享了华为在人工智能领域的理解与实践。

田奇介绍了华为在人工智能领域的十大愿景,华为为了实现这个战略目标,从中梳理出深耕基础研究、打造全栈方案、投资开放生态和人才培养、解决方案增强、内部效率提升五大方向,以此打造无所不及的 AI,构建万物互联的智能世界。

华为计算机视觉基础研究以数据高效和能耗高效为核心,覆盖从 2D 视觉到 3D 视觉的技术和应用,主要包含底层视觉、语义理解、三维视觉、数据生成、视觉计算、视觉多模态等方面。在此方向上,华为将基础研究进一步聚焦到数据、模型和知识三大挑战:

1、数据上,如何从海量的数据中挖掘有用的信息。田奇以生成数据训练和不同模态数据对齐这两个应用场景为例,介绍了华为如何使用知识蒸馏与自动数据扩增结合的方法让 AI 模型高效地挖掘数据中的有用信息。

2、模型上,怎样设计高效的视觉模型。田奇认为在深度学习年代,视觉模型主要包含神经网络模型设计和神经网络模型加速两个场景。具体地,田奇介绍了华为如何通过局部连接思路解决网络冗余问题、如何加入边正则化思想来解决局部连接带来的不稳定性等等。

3、知识上,如何定义视觉预训练模型、如何通过虚拟环境学习知识、如何表达并存储知识。为了实现华为打造通用视觉模型的目标,田奇认为推理预测是从视觉感知到认知的关键步骤。虽然预训练方法目前在视觉领域的应用还不成熟,但是近期自监督学习的成果为视觉通用模型的发展注入了新活力,这也将成为常识学习的必经之路。

基于三大挑战,田奇提出华为视觉六大研究计划:数据冰山计划、数据魔方计划、模型摸高计划、模型瘦身计划、万物预视计划、虚实合一计划,来帮助每一位 AI 开发者。

以下是田奇博士的大会演讲全文,雷锋网 AI 掘金志作了不改变原意的整理与编辑:

田奇:尊敬的各位嘉宾、各位老师、各位朋友,大家下午好!我是田奇,现任华为云人工智能领域首席科学家。非常感谢大会的邀请,很荣幸能在这里为大家介绍华为计算机视觉计划。

首先,我会简单介绍一下华为人工智能的研究背景和在计算机视觉领域的基础研究。然后,我会从模型、数据和知识三个核心点出发,来重点介绍华为视觉六大研究计划。最后,我会介绍一下华为云人工智能在人才培养方面的理念。

近年来,AI 的发展如火如荼,正在改变各行各业。华为预计:到 2025 年左右,97%的大企业都会上云,其中 77%的企业云服务都会涉及到 AI。

因此,在云上,AI 是一个关键的竞争点。如果把大企业的智能化升级比作一个赛道,那么 AI、IoT、5G 就是提高发展速度和商业高度的重要引擎。

以前我们的董事长徐直军阐述过华为在人工智能领域的十大愿景,这里我简单介绍几点。

过去,长达数年的分析时间,未来会是分钟级的训练耗时;

过去,需要天量的资源消耗,未来将是高性能的计算;

过去,计算主要集中在云端,未来主要是云端+终端;

过去,是大量的人工标注,未来将是自动标注、半自动标注的舞台;

过去,专业人员才能用 AI,未来是面向普通人的一站式开发平台。

基于这样的愿景,华为的 AI 发展战略就是打造无所不及的 AI,构建万物互联的智能世界。

华为将从以下五个方向进行研究或者投资。

第一:深耕基础研究,在计算机视觉、自然语言处理、决策推理等领域,构筑数据高效、能耗高效、安全可信、自动自治的机器学习的基础能力。

第二:打造全栈方案,面向云、边、端等全场景,全栈的解决方案,提供充裕的、经济的算力资源。

第三:投资开放生态和人才培养,将面向全球,持续与学术界、产业界和行业伙伴进行广泛的合作。

第四:把 AI 的思维和技术引入现有的产品和服务,实现更大的价值、更强的竞争力。

第五:提升内部的运营效率。

华为云 Cloud&AI 的定位就是围绕鲲鹏、昇腾和华为云构建生态,打造黑土地,成为数字世界的底座。为了实现这个目标,华为云提出了一云两翼双引擎+开放的生态目标。

就像这架飞机一样,双引擎是基于鲲鹏和昇腾构建的基础芯片架构;两翼是计算以及数据存储和机器视觉;一云是华为云,提供安全可靠的混合云,成为生态伙伴的黑土地,为世界提供普惠的算力。开放的生态是指硬件开放、软件开源,使能我们的合作伙伴。

华为云主要面向八大行业使能 AI 技术。到 2019 年底,我们已经提供了 60 种服务、170 多种功能,所涉及的行业包括:城市、互联网、家庭、车联网、物流、金融、园区、制造等等。

以上是对华为 AI 的简单介绍,下面将介绍我们在计算机视觉领域的一些基础研究。

众所周知,人类对外部世界的感知 80%以上来自于视觉信号。近年来,随着视觉终端设备的不断普及,如何让机器像人类一样拥有感知视觉信号的能力是计算机视觉的终极目标。

计算机视觉已在智能汽车、智能手机、无人机、智能眼镜等诸多行业得到了广泛应用。

总的来说,视觉研究可以分以下几个部分:

首先是基础理论,例如统计学习、优化方法、深度学习技术等;

接下来考虑底层视觉,如超分辨、图象增强、去模糊、去噪声、去反光等等;

再到中高层的语义理解,包括场景理解、物体分类与检测、人脸、手势、人体姿态的识别、分割和分组等等。

除了二维视觉以外,三维视觉的研究也有着极其重要的地位,包括三维重建、点云处理和分析、景深感知分析等等。

同时,在人工智能时代,数据生成的方法研究也是一项有价值的任务。在一些工业场景中,视觉计算借助海量算力来做一些神经网络架构搜索的研究,以及模型压缩与量化。

最后是视觉与其他模态的结合,比如视觉与语言的结合,视觉与图形学结合,这都是计算机视觉领域的一些基础性的研究课题。

华为的基础研究就是围绕底层视觉、语义理解、三维视觉、数据生成、视觉计算、视觉+多模态等方面,构建数据高效、能耗高效的机器学习能力。

华为对底层视觉的研究涉及诸多方面,这些技术有着广泛应用场景,比如,为了提升手机端的图片质量,我们对照片进行超分辨和去噪处理,并提出了一系列有针对性的算法以面对从 Raw 域到 sRGB 域去噪,来提高照片的清晰度。

在语义理解方面,由于图像视频包括丰富的语义信息,如何有效理解并分析它们是一项富有挑战性的课题。以下举几个例子来说明:

挑战之一:同一内容的视觉特征的差异性。比如说拥抱这个动作,虽然是内容相同,但视觉表征可能非常不同,我们称其为类内差异性。

挑战之二:不同内容的视觉特征十分相似,我们称其为类间相似性。比如上图的两个男子,从图像上看,他们的视觉特征非常相似。但是放到场景中,一个是在排队,一个是在对话,这直观地解释了不同类间具有很高的类间相似性。

挑战之三:如何区分正常事件与异常事件。比如一群人在晨跑和一群人在斗殴,这往往会造成边界模糊。

对于 3D 视觉而言,虽然三维数据比二维数据携带着更丰富的信息,但与之而来的是诸多挑战。

比如在医学领域,获取具有精准标注的医疗数据,往往需要专家的协助,这是困难并且昂贵的;同时,因为一些医疗影像通常是在一些很细微的地方有差异,所以区分正常样本和异常样本的难度非常大;此外,视频数据也存在大量的冗余,如何去除冗余并提取有效信息也很具挑战性。

最后,准确检测和追踪物体也极具挑战并值得进一步探索。

数据生成同样是一个热门研究方向。我们认为数据是视觉算法研究的保障和基石,在深度学习时代,大多数场景数据的收集越来越昂贵,所以数据生成具有直接的应用价值。

比如在安防企业中基于姿态的行人数据生成;在无人驾驶中街景数据的生成以及人脸数据的生成等。但目前该领域仍存在一些挑战:

挑战之一:通过人机交互对人脸特征的选择与标注需要大量的人力成本;

挑战之二:如何生成高质量的图像以及视频数据仍是巨大挑战;

挑战之三:生成数据同质化严重,


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
关于LED大屏幕保养你搞知道这些