×
嵌入式 > 技术百科 > 详情

安防行业前沿技术以及未来变革的探讨

发布时间:2024-05-13 发布时间:
|

2020 年 9 月 5 日,第三届「中国人工智能安防峰会 」即将于杭州强势重启。(原计划 6 月 20 日开幕,疫情原因延期召开)


一名科学家开山立派,最显著的标志就是世界级的重大研究方向,能够与该学者划上等号,如相对论之于爱因斯坦,神经网络之于 Geoffrey Hinton。


安防领域的这些研究方向是什么?代表人物是谁?


没有人知道标准答案。


上一个十年的安防技术创新,混沌、碎片、野蛮生长。


项目工程为导向的技术部署模式,也使得基础研究对这个行业的改变乏善可陈。


而在自主创新与新基建的时代浪潮推动下,前沿技术将进一步走到台前。


那么下一个十年安防技术的趋势是什么?


「中国人工智能安防峰会 」给出的答案是:城市大脑数字视网膜化、机器视觉三维化、数据建模联邦学习化。


数字视网膜、三维视觉、联邦学习,对应的世界级领军科学家,分别是高文、权龙、杨强。


高文,中国工程院院士,中国计算机学会前理事长


权龙,全球最高级别人工智能会议 CVPR 主席


杨强,国际人工智能联合会首位华人理事会主席


2018-2020 年间,中国人工智能安防峰会,分别邀请了高文、权龙、杨强,首次出席安防论坛,讲述世界级前沿技术,对安防行业的变革。


第一届「中国人工智能安防峰会 」

中国工程院院士、鹏城实验室主任 高文
城市大脑与数字视网膜

高文院士


2018 年 3 月,深圳,雷锋网 AI 掘金志举办中国首个以「动态人脸与车辆识别」为主题的AI 安防峰会。


这是业内第一次将五大安防企业(海大宇天网)及商汤等 AI 独角兽的首席技术高管,聚于一堂的行业盛会。


峰会之上,中国工程程院院士、鹏城实验室主任高文带来了题为《城市大脑与数字视网膜》的开场报告。


他提到,智慧城市已被谈及多年,“视频监控+AI”也成为众多公司研究的方向。


现阶段,通过监控摄像头让城市变得更智智慧,不仅仅是单一的视频检索和计算机视觉问题,而是在面临海量信息和突发事件时,能否能迅速做出反应、能否降低计算量、能否有效识别和检索等一系列庞大的系统工程。


现有视频监控体系的弊病,使得很多复杂任务无法完成,即便是人工智能大规模渗入后,需求方也往往为了一些特殊目的才加特定的智能摄像头和处理系统。有些专用摄像头只是用来识别车牌号,有些摄像头只用来识别人脸,这种打补丁式的方法实际会带来很多问题。
针对这些问题,高文院士提出了“数字视网膜”的概念。


所谓数字视网膜,即类比于人类视网膜,对传统摄像头乃至视觉计算架构进行演进与革新,从而能够更加智能地支持城市大脑,服务智能安防、城市精细管理等智能应用。


具体来说,传统摄像头只是把拍摄到的视频数据压缩后上传到云端进行存储,再做分析识别处理。


而数字视网膜则要求在摄像头端对拍摄视频进行高质量视频编码和视觉特征提取编码,对压缩编码过后的视频流进行本地存储的同时按需上传到云端,而所有的紧凑特征流同步实时同步到云端,从而既能够保证高效的存储,又能够便捷地支撑大数据查询分析。


与此同时,支持在端 - 边 - 云之间进行面向智能视频编码和特征分析的深度学习模型自适应迁移、压缩、更新与转换。


简而言之,数字视网膜就是这样一种包含视频编码流、特征编码流和模型更新流的可伸缩端边云协同视觉计算架构。


这一概念从正式提出至今,才不过三年,然而从最初构想、前期实践、到理论基础构建却花了近五年的时间。即使到现在,数据视网膜的技术框架也仍然在不断完善当中,但其影响却将是颠覆性的。


正如高文院士在 2018 年的一篇文章中提到:


我国已明确提出“到 2020 年,基本实现全域覆盖、全网共享、全时可用、全程可控的公共安全视频监控建设联网应用”,但是如果没有重大技术突破,数千万摄像头根本无法实现“全网共享”的实时数据汇聚,更不可能实现“全时可用”的联网分析识别,“数据大”变不成“大数据”,巨大潜在价值无法发掘。数字视网膜是应对上述挑战的一种可行的颠覆性技术发展方向。


高文院士对于「数字视网膜」的理解,是伴随着对城市中视频监控体系所存在问题的深刻认识而不断深化的。


据可考查资料,高文院士最早对城市中摄像头所存在缺陷以及可能的改进进行思考始于 2013 年初(或者稍早)。


在 2013 年新年伊始,高文院士曾接受人民网采访,他提到现代摄像头密布,但还需要后端人力去盯,一旦遇到重大案件,去调用录像资料,却往往起不到太大作用。


如果能够在设计视频编码时,让系统把数据中有用的信息抽取、挖掘并分析出来,不但能节省后期的人力投入,而且能起到应急作用。
可以合理猜测,这个时候他已经有了模糊的概念,但对于具体如何去做,却仍在酝酿当中。


在 2013 年 10 月,高文院士在中国信息化周报上发表了题为《智慧城市中的视频编码、分析与评测》的文章。在这篇文章中,他首次系统提出了他对“智慧城市”中视频监控所存在问题的深入思考,他指出:


1、目前的监控系统在设计时是为了视频存储和以人为核心的视频跟踪,而非以计算机为中心的自动分析,因此靠这样一套系统来实现智慧城市的视频系统,去做自动分析,是根本无法完成的。


2、智慧城市中的视频技术面临三大问题,分别是存储成本高(数据量太大)、检索困难、对象再标识难。而这三个问题归结到本质则是两个问题,一个是编码问题,而另一个是视频分析识别问题。因此如何对监控视频进行高效视频编码,以及如何对其进行分析和检索,是必须思考的两个本质问题。


3、在学术界存在一个奇怪现象,即做视频编码的学者对视频分析不感兴趣;而反过来,做视频分析的人对编码也不感兴趣。原因在于前者处理的是像素和图像块,属于图像处理领域,而后者处理的是图像特征,属于模式识别领域。就像两条路上跑的车很难交汇。


幸运的是,高文院士正好跨界这两个圈子,无论是在视频编码领域,还是在计算机视觉(特别是人脸识别)领域,他都有着重要的影响力。


其学生陈熙霖、山世光两位研究员继承了他在人脸识别领域的衣钵,如今已成为国际计算机视觉领域的领军人物;


而其学生黄铁军和马思伟两位教授则继承了他在编码领域的衣钵,在国际视频编码领域也有着重要的影响力。


高文院士对当代城市监控系统存在问题的本质分析,奠定了他在随后解决这一问题的研究思路和方向。


关于高文院士
高文,北京大学博雅讲席教授。1982 年于哈科大获得学士学位,1985 年于哈工大获得硕士学位,1988 年和 1991 分别获得哈工大计算机应用博士学位和东京大学电子工程博士学位。


1991 至 1996 年就职于哈尔滨工业大学,1996 至 2006 就职于中国科学院计算技术研究所,2006 年 2 月至今就职于北京大学。IEEE Fellow、ACM Fellow、中国工程院院士。


他的研究领域为多媒体和计算机视觉,包括视频编码、视频分析、多媒体检索、人脸识别、多模态接口和虚拟现实。


他最常被引用的工作是基于模型的视频编码与基于特征的对象表达。他先后出版著作七本,合作发表 300 余篇期刊论文、700 余篇国际会议论文。


他先后多次获得国家科技进步奖、国家技术发明奖、国家自然科学奖等学术奖励。


第二届「中国人工智能安防峰会 」

CVPR 大会主席 权龙教授
三维视觉重新定义智能安防

权龙教授


2019 年 3 月,雷锋网 AI 掘金志再次站在技术、产业和商业格局最前沿,在杭州举办第二届「中国人工智能安防峰会」。


大会共设置“城市大脑与边缘计算”·“全球顶尖算法应用”·“前端动态识别与智能视频云”·“城市 AIoT 与边缘智能引擎”四大议程主题。


这一次,海康、大华、华为、阿里、腾讯、松下,因“AI 安防”首次同台。


本次峰会之上,CVPR、ICCV 世界顶会主席权龙教授为与会者们带来了题为《三维视觉重新定义智能安防》的开场报告。


权龙教授认为,人工智能的核心是视觉,但现在的视觉仍局限在二维识别层面,未来三维视觉重建将会成为最重要的任务。


现在的计算机视觉就是基于卷积神经网络而来,整个 CNN 的架构非常简单,能做的事其实也没那么多,它提取了高维的特征,然后要结合其它方法解决视觉问题。


如果有足够的数据并且能够明确定义想要的东西,CNN 的效果很好,但是它并没有智能。


它能识别出猫和狗,但猫和狗的分类都是人类自己定义的,人们可以把猫和狗分开,也可以把复杂的狗类动物进行聚合和分类,这些东西本质上来说并不是客观的,而是主观的。


人们做计算机视觉研究的理想,是让机器进行理解图像。如何让它进行理解?这非常的困难,直到现在也没有人知道它怎么去进行理解。现在它能做的,只能做到认知。人们研究计算机视觉的目的是得到视觉特征,有了视觉特征后才能开展一系列工作。


为什么视觉特征如此重要?在语音识别领域,语音的特征已经定义得非常清晰——音素。


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
中国国产第三代核电实现并网发电