最近看到生物学教授王立铭的一个有趣假设,他说,假如存在外星高级智慧生物,那么它大概率和人类一样是用眼睛来感知外部世界的。
为什么这么说呢?因为视觉信息,也就是光这样的电磁波,是所有感知信息中反映环境变化最准确、承载环境信息最丰富的通道。但凡智慧生物,如果不是生活在黑暗地下或者是幽冥深海,基本上都会依靠视觉信息来捕食和逃生。
因为光是宇宙中最普遍的存在,不需要具体介质(空气、水等)也能直线传播,能够充分准确、及时的反映出空间和物体的信息,比声音、味道、触觉所承载的信息量大多了,同时也稳定多了。
这一假设从人类制造的智能设备中也可以得到验证。以智能手机为例,其最主要接收到的两类信息,一个是图像,一个是声音。声波的输入和输出,作为电话最初的功能,发展至今技术已臻于完善,只能在音质稳定性上进行小打小闹地改善。
而图像已经成为智能手机最核心功能,其拍摄技术和图像质量在不断升级,其所产生的数据也占据了手机最多的内存资源,也成为各种应用最主要的数据源头。
事物的影像通过光的反射进入眼睛当中,视网膜上的感光细胞就可以检测到这些光的强度、角度和位置,从而引发生物电信号,最后传递给大脑神经细胞进行视觉图像的成像,才让我们看到和记住看到过的事物。
和生物视觉的实现方式一样,图像视觉的处理过程也基本按照这一过程实现,包括收集光源的镜头、将光信号转化为电信号的图像传感器、对图像电信号进行数字处理的 ISP 芯片以及现在能对图像进行进行分析识别的当红辣子鸡的 AI 芯片。
在我们每一天拿起手机随手拍照、摄像的过程中,这些不起眼的设备都在进行着每秒数以亿次的庞大计算,才能让我们拥有五光十色的拍摄效果。
在图像技术一直逼近甚至挑战人类的视觉能力极限的过程中,ISP 芯片发挥着至关重要的作用。本文我们主要关心下 ISP 的技术逻辑、ISP 技术产业现状和发展趋势。
光的美颜师:ISP 的运行逻辑
ISP,即“Image Signal Processor”(图像信号处理器)的缩写,是用来对前端图像传感器输出信号进行处理的单元。通俗来理解就是,ISP 所要做到的就是将“数字眼睛”的视力水平提高到“人类眼睛”的水平,让人眼看到数字图像时的效果尽可能接近人眼看到实景时的效果。
一个 ISP 其实是一个 SoC 核心,内部包含 CPU、SUP IP、IF 等单元,可以运行各种算法程序,实时处理图像信号。ISP 的控制结构由 ISP 逻辑和运行在上面的 Firmware 两个部分组成,逻辑单元除了完成一部分算法处理外,还可以统计出当前图像的实时信息。Firmware 通过获取 ISP 逻辑的图像统计信息进行重新计算,反馈控制 Lens、Sensor 和 ISP 逻辑,以达到自动调节图像质量的目的。
根据专业人士的介绍,ISP 的具体处理流程是这样:Lens 将光信号投射到 sensor 的感光区域后,sensor 经过光电转换,将 Bayer 格式的原始图像送给 ISP,ISP 经过算法处理,输出 RGB 空间域的图像给后端的视频采集单元。在这一过程中,ISP 通过运行在其上的 Firmware 固件对 ISP 逻辑,从而对 Lens 和 sensor 进行相应控制,进而完成自动光圈、自动曝光、自动白平衡等功能。其中,Firmware 的运转靠视频采集单元的中断驱动。PQ Tools 工具通过网口或者串口完成对 ISP 的在线图像质量调节。
ISP 的算法处理,可以对 Bayer 图像进行黑电平补偿 (black level compensation)、镜头矫正(lens shading correction)、坏像素矫正(bad pixel correction)、颜色插值、Bayer 噪声去除、 白平衡(AWB) 矫正、 色彩矫正(color correction)、gamma 矫正、色彩空间转换(RGB 转换为 YUV)、在 YUV 色彩空间上进行彩噪去除与边缘加强、色彩与对比度加强,中间还要进行自动曝光控制等,然后输出 YUV 或者 RGB 格式的数据, 再通过 I/O 接口传输到 CPU 中处理,进行图像的存储和显示。
用我们拍照时常说到,就是图片的锐化、降噪、优化色彩等都是在 ISP 中处理完成的,而且 ISP 还肩负着实现相位、激光、反差等混合对焦运算以及提供对多摄像头支持等重任,是手机拍照中必不可少的关键一环。
最终我们看到,ISP 芯片就像一个光的美颜师一样,使得我们在按下快门的一刹那获得如此多的画质调节和改善,也能在拍摄前主动地选择各种拍摄场景模式,进行各种拍摄参数的微调,让每个人都能成为影像大师。
成为移动终端图像处理核心:ISP 的产业跃迁
ISP 的出现是和人类对拍摄图像的高质量要求密切相关的。
NASA 对月球进行勘探时,发现模拟相机在月球上拍摄的照片十分微弱不清,无法反映真实情况。此后美国发展出的 CCD 图像传感器解决了这一问题,为了确保 CCD 拍摄的图像能够清晰和真实地显示,就需要对 CCD 采集的图像进行处理,这样 ISP 图像信号处理器得以诞生。
随着数码相机和摄像机的广泛应用,ISP 技术也得到了快速发展。在推进高清视频、图像产品的过程中,ISP 技术的创新发挥了巨大作用,ISP 也从高清摄像机的辅助技术逐步演变为关键核心技术。一些高清监控硬件厂商为进一步提升画质,开始将 CCD 传感器替换为 CMOS 图像传感器,这样就将 ISP 内置到 CMOS 中,在节约空间的同时也降低了功耗。
因此,这一创新使得高清摄像机市场实现了从模拟到数字信号的升级。一般来说,不同的 ISP 匹配不同厂商的 CMOS 图像传感器,大部分内置 ISP 功能的视频芯片对 CMOS 芯片的支持都比较完善,可以直接对接各主要厂商的主要产品,使得摄像机体积更小、产品形态更多,不仅推动在高清摄像机上高清 SoC 芯片的研发,也让 CMOS 和 ISP 的组合在移动智能设备中广泛普及。
现在,每一款配备摄像头的移动设备都搭载了 ISP 芯片。不过对于很多国内智能手机厂商而言,他们通常会宣传自己的产品采用了索尼的 CMOS 图像传感器,甚至给出这一感光元件的具体型号,还给出一个多镜头阵列的分解图。但是消费者在拿到手之后,用它拍摄出来的照片并不能如预期的那么好,其中一个很大的原因就是 ISP,就在于这些厂商虽然拿到了高品质的光学和感光元件,但是 ISP 没有能够跟上。
现在,主要的智能移动设备的芯片厂商、IP 提供商以及智能手机制造商都在推出自己的 ISP 芯片,但是 ISP 仍然存在着较大的技术壁垒。
首先,ISP 中大量模块的算法是相互影响的,其众多算法需要诸多的调校工作在其中,这需要大量而长期的经验积累。
其次,作为商用的 ISP,需要众多的新功能模块,比如 X-talk 串扰,VSM 等模块的加入,这也增加了 ISP 的技术壁垒。
另外,ISP 的技术需要长期积累,需求少、学习周期长,人才匮乏。因此 ISP 人才团队组建也是一个考验公司投入力度、技术积累的刚性条件。
这让领先的 ISP 技术更容易被那些有先发优势、多年积累的芯片大厂和老牌制造商,比如苹果、高通、三星、联发科等大厂所掌握。
但越来越多的手机芯片厂商开始自研 ISP 和算法,华为海思就是从麒麟 950 开始集成自研的 950 芯片,使得华为 P9 开始跻身主打摄影拍照手机的第一阵营。
作为全球移动 CPU 芯片核心 IP 提供商的 ARM 也在 2018 年推出了首款 ISP 芯片,最初是面向汽车设备的移动影像处理,随后又推出了两款针对移动终端和物联网设备的 ISP 芯片全新 ARM Mali-C52 和 Mali-C32。ARM 的 ISP 在处理每一像素时会有超过 25 个步骤的处理,其中包括高动态范围(HDR)、降噪以及色彩管理的三个关键步骤对图像输出质量起到了决定性的影响。
根据极术社区的消息,12 月 3 日,安谋中国最新发布了“玲珑”i3/i5 ISP 处理器。这一安谋中国本土团队自主研发的首款产品,在降噪、清晰度和宽动态等指标上达到业界领先水平,具有高画质、低延时、可配置能力强、扩展兼容性高等特点,可广泛适用于安防监控、AIoT 及智能汽车等领域的视频、图像处理工作,能够满足不同场景的多样化数据处理需求。
我们注意到,在对这些 ISP 产品的梳理中,图像信号处理和 AI 视觉处理正在协同发展,既要“可看”又要“看懂”的图像处理,成为未来视觉设备发展的关键。
新机遇:视觉处理器与 ISP 芯片的共生共成
人工智能技术作为全新的技术变革要素进入到成像产业领域,使得图像的处理和计算迎来更多的挑战,现在除了 ISP 芯片之外,还需要加入具有 AI 能力的视觉处理器(VP)芯片。
现在,ISP 芯片处在低速稳定的增长阶段,而 VP 芯片则呈现爆发式增长。
根据 Yole 的一份市场统计,VP 芯片从 2018 年至 2024 年期间的复合年增长率(CAGR)高达 18%,预计 2024 年将达到 145 亿美元规模。同时,ISP 芯片保持低速稳定增长态势,2018 年至 2024 年期间的复合年增长率仅为 3%,预计 2024 年将达到 42 亿美元规模。
现在,我们携带的移动智能设备和 IoT 设备中,对于图像的处理和计算,不仅仅要实现“查看”的功能,看要实现“分析”的功能,因此,图像硬件厂商越来越多的要在硬件系统中加入支持人工智能算法特别是深度学习的软件集成,从而让图像硬件系统超越“拍摄图像”的限制,能够实现“分析图像”的能力。
对于我们消费者而言,最主要的感受就是智能手机的人脸识别以及现在一些手机摄像中具有的 AI 美颜以及拍照识物的功能。而在众多智能视觉领域,VP+ISP 的融合已经掀起了一场全新的智能化变革。正如安谋中国最新的“玲珑”ISP 处理器的发布,未来可以适用于安防监控、AIoT 及智能汽车等领域的视频、图像处理工作,满足不同场景的数据处理需求。
因此,视觉处理器的爆发式发展,与 ISP 产业的发展是并行不悖的,因为想要实现智能视觉,就必须考虑选择适合的前端图像处理方案。如果前端图像处理的输出非常糟糕时,那视觉处理系统的结果也会非常糟糕。