在谈到成像或具体到手机拍照时,通常市场更关注的是摄像头模组本身,或者其中最核心的 CMOS 图像传感器(CIS)。当前,智能手机 CIS 市场的竞争仍然非常激烈,更多需求正从 8 英寸 wafer 转向 12 英寸,同时随着 4000 万像素以上的 CIS 需求提升,像素工艺节点也在变小。
这一改变,这对于手机 CIS 市场份额第一的索尼而言,恐怕算不上是一个好消息。今年 8 月,Twitter 上出现一组消息源未经考证的数据,指出今年第一、二季度,三星与索尼的图像传感器市场份额缩短到有史以来的最接近。索尼图像传感器在今年第二季度的市场份额下探至 42.5%,三星上升到 21.7%。在《国际电子商情》来看,这与三星乃至更多市场参与者,如 SK 海力士,在高像素相关的制程工艺上的优势有关。
成像市场的价值恐怕正在发生一场转变。由于智能手机在成像领域占据了最大市场份额(Yole Developpement 去年年中的数据显示,移动 CIS 占到整个 CIS 销售额的 70%),本文主要以智能手机这个门类的应用为例,来谈成像市场正在发生的转变——原本以 CIS 为主的市场正逐步转至以图像 / 视觉处理器,如 AI 专核、ISP(图像处理器)等为主,这种变化将创造更大的市场价值。
另外,智能手机成像的特殊性在于,其他领域的成像,如医疗成像、工业领域的机器视觉等,在图像传感器层面是以“拍得到”为主要目标,并且更注重图像数据的后处理与计算。而手机拍照向来以“拍得好”为主要目标,它对图像传感器的重视由来已久。
智能手机制造商在宣传其拍照的卖点时,仍然更倾向于 CIS 本身的高像素和大尺寸。但成像质量的决定因素已经从 CIS,向图像数据的处理与计算环节倾斜,它体现的也正是数字芯片本身的技术发展以及 AI 技术的快速推进对传统光学技术发展的挑战。
前两年就开始出现的苗头
联发科在 2018 年提出了“真 AI 相机”的概念。该概念包含了三个主要的因素:1. 高像素、大尺寸 CIS;2. 多核 ISP;3. 高性能的 AI 专核。其中,第一点是成像领域的共识,而后两点都与图像数据的后处理(Post Processing)相关。
如果说 ISP 是处理(Processing)数据,那么 AI 及其他视觉处理器就是对数据做更深度的计算(Computing)。ISP 的重要性在过去总被反复提及,但其在成像领域,尤其是手机拍照上的地位远不及 CIS。此外,AI 专核也是成像领域这两年的香饽饽。在此基础上,“真 AI 相机”这一营销概念的提出,本质上是为了吸引终端设备制造商来采用联发科的 SoC 产品,不过它却真正将 ISP 与 AI 专核提到了与 CIS 相同的高度。
无论是专为摄像头配备的 ISP,还是 AI 处理单元,它们在拍照中的应用都可以认为是这两年颇流行的 Computational Photography(计算摄影)。普罗大众对于“AI 拍照”的理解,恐怕还停留在美颜、人脸识别、去背景或者让天空更蓝、草地更绿这样的层面。实际上,AI 对于成像的协助,已经深入到了拍照的方方面面,这部分将在下文探讨。
除了联发科这样的芯片厂商之外,谷歌的表现也值得关注。据《国际电子商情》了解,谷歌在 2017 年为其 Pixel 2 手机配备了专门的 Pixel Visual Core(Pixel 视觉核心,图 1),这是由该公司自主设计的基于 Arm 系统的 SiP 封装图像 / 视觉处理器。这枚处理器可以看作是一个完全可编程的图像、视觉与 AI 多核专用架构(domain-specific architecture)芯片,其应用在 Pixel 4 之上迭代为 Pixel Neural Core(Pixel 神经核心)。
当然,谷歌 Pixel 系列手机在移动领域普遍更具有前瞻性和试水性质。谷歌在 Computational Photography 领域有着多年的沉淀,他们认为与高通在 SoC 内部提供 ISP 与 AI Engine 能力相比,针对拍照来自研专用的图像处理硬件更加高效。
图 1,Pixel 手机的 Pixel Visual Core 内部
在前智能手机时代,外置 ISP/DSP 是个常见的概念,但随着芯片集成大趋势的到来,当代图像处理硬件已很少以独立的形态存在于 SoC 之外。谷歌的这种做法进一步提升了图像 / 视觉处理器的地位:虽然外置一颗独立图像 / 视觉芯片的方案未必会成为趋势,但是在拍照的各环节中,后处理已经成为更重要的组成部分。
谷歌 Pixel 手机有个更有趣的传统:相同型号的 CIS 可以连续用在两代 Pixel 手机上,比如 Pixel 3 和 Pixel 4 的主摄都采用疑似索尼 IMX363 的 CIS。即便如此,手机的拍照表现仍然会有飞跃,这个特点一直为人们所津津乐道。这也表明,谷歌在成像上非常重视图像处理,而不仅只关注图像传感。
再回过头来看今年的高通骁龙 865 针对成像的堆料:骁龙 865 的 ISP 部分支持每秒 2 GigaPixel 的速度,同时也支持 4K HDR、8K 视频拍摄以及最大 2 亿像素的照片拍摄。在与第五代 AI Engine 合作的情况下,这颗 ISP 能够快速识别不同的拍摄背景、人、对象。如今,高通会着重宣传每一代骁龙旗舰中的成像。
再看看苹果今年发布的 A14,其 CPU、GPU 性能提升的幅度并不算大,但 AI 专核部分的 Neural Engine(神经引擎)增加到 16 个核心,这让其算力提升到了 11TOPS;A14 CPU 内部还特别包含了升级过的机器学习 AMX 模块(矩阵乘法加速器)。如今,手机上的 AI 处理器总被人诟病没有太多应用场景,但它们在 Computational Photography 上正默默发挥作用。
愈发明确的市场现状
索尼在今年 5 月推出了两款“智能视觉传感器”——IMX500 与 IMX501。该公司宣称,这是全球最早加入了 AI 处理能力的图像传感器。这两颗芯片的传感器部分,是比较典型的背照式 CIS;而集成的边缘 AI 处理部分,包含了 DSP 的逻辑芯片,也包括了 AI 模型所需的临时存储空间,属于比较典型的边缘 AI 系统。更严谨地说,IMX500/501 恐怕不应仅定义为“传感器”。
这两颗芯片在配合云服务的情况下,在数据处理阶段仅获取元数据作为输出,这样能够降低数据传输延迟,减少功耗与通讯的成本。这类设计的本质是:将部分“后处理”的能力集成到图像传感器上。这样一来,录制视频时就能进行更高精度、实时的对象追踪。目前,这两款传感器主要应用于零售、工业设备。
另外,在配套解决方案上,索尼也推出了用于这类集成 AI 能力的 CIS 的软件订阅服务。加入了 AI 数据分析的潜在市场价值大于传感器市场本身。虽然索尼并不期望这项服务能够在短期内盈利,但是它非常看好其长期发展。即便 IMX500/501 并不面向智能手机产品,这一步也能体现索尼在 CIS 业务开发的思路转变:即开始从单纯的图像传感,往图像 / 视觉处理做扩展。毕竟传统 CIS 市场的增长速度正在放缓。
今年年中,Yole Developpement 发布了一份题为《2019 图像信号处理器与视觉处理器市场与技术趋势》的报告。该报告明确提到:“AI 彻底改变了视觉系统中的硬件,对整个行业都造成了影响。”
“图像分析增加了很多价值。图像传感器供应商们开始对将软件层集成到系统中感兴趣。如今图像传感器必须跳出单纯的捕获图像这一能力之外,再对图像做分析。”
“但要跑这样的软件,就意味着高算力和存储需求,也就有了视觉处理器的出现。ISP 市场 2018-2024 年的年复合增长率稳定在 3%,即 ISP 的市场价值到 2024 年会达到 42 亿美元。与此同时,视觉处理器市场也会迎来爆发增长,2018-2024 年的年复合增长率为 18%,到 2024 年,其市场价值会达到 145 亿美元。”
图 2,2018-2024 年,图像 / 视觉处理器的出货量与市场规模预期
这个值当然仍未达到 CIS 年度总价值,上述两个市场相加才大约超过今年的 CIS 市场规模(今年 CIS 行业产值预计为 172 亿美元)。这还需要注意,CIS 市场的增速正在放缓以及此处并未考虑视觉处理芯片配套的软件市场。起码索尼认定,其长期的市场发展潜力大于 CIS 市场本身。Yole Developpement 的预测数据显示,ISP 在市场中所占比重将逐步降低,而更注重计算的视觉处理器显然更为紧俏(图 2)。
“值得注意的是,很多传统的行业参与者,在应对 AI 趋势时显得比较局促。这也让其他更多参与者加入到业务竞争中,比如苹果、华为,Mobileye 这样的初创公司,甚至其他领域的企业,像是英伟达。”这是成像市场扩展了纵深的表现。
AI 究竟为手机拍照带来了什么?
今年 3 月,法国知名影像实验室 DxOMark 曾刊文提到,近 10 余年来,智能手机拍照的画质提升超过 4EV,其中 1.3EV 来自图像传感器 / 光学技术的提升,还有 3EV 是来自图像 / 视觉处理器(图像数据后处理)带来的提升。这已经基本颠覆了大众对于提升拍照画质,就是要提升 CIS 技术的基本认知。
而图像 / 视觉处理作为一个相当古老并发展多年的议题,AWB(自动白平衡)、ANR(主动降噪)、3DNR(3D 降噪)、BLC(黑电平校正)、HDR 等原本都属于 ISP 的常规项目。近两年,在图像后处理中 AI 拍照被提得最多的功能,包括人脸识别、拍摄对象识别、语义分割、智能美颜等。
这些的确是 AI 为成像带来的价值,但 AI 参与手机拍照的画质提升,渗透到了上述常规项目中。谷歌在 Computational Photography 方面的很多的研究也涉及到了这些组成部分,比如针对低光照场景下的自动白平衡,传统算法在白平衡修正上显得无能为力。谷歌几年前就应用了机器学习:通过向模型输入大量白平衡修正到位的照片,来训练自动白平衡的智能模型。
谷歌在 Pixel 手机成像的诸多环节和特性上应用了机器学习。比如拍照取景时的实时 HDR,再比如视频拍摄的防抖。在数据后处理时,首先在第一阶段进行动作分析、获取陀螺仪信号、结合光学防抖动作;其次在 motion filtering 环节结合机器学习与信号处理,来预测相机本身的运动轨迹;最后再最终的帧合成环节,对快门与微动造成的画面失真做补偿。
图 3,
更为典型的例子是模拟背景虚化效果。传统方案模拟背景虚化主要是靠立体视觉,而谷歌提出的方案,不仅依靠两种立体视觉方案(Pixel 4 手机的双摄与双像素技术),而且为加强虚化可靠性,对画面拍摄对象做语义分割:谷歌打造了一台五颗摄像头的设备,拍摄大量场景,收集足够的训练数据。利用 Tensorflow 训练一个卷积神经网络:首先分别单独处理双像素与双摄的输入数据,中间有编码器将输入信息编码为 IR(中间层),随后两部分信息经过另一个编码器,完成最终的对象深度计算(图 3)。这里的编码器本身就是一种神经网络。
今年 4 月,联发科的研究人员发表了一篇题为 Learning Camera-Aware Noise Models 的论文,提出对图像传感器噪声进行建模的方法,通过“一种数据驱动的方法,从真实环境噪声中去学习噪声模型。这种噪声模型与相机相关,不同的传感器有不同的噪声特点,它们都能被学习。”
这些例子都表明,越来越多不同层级的市场参与者都在投入图像的后处理。所以采用老型号 CIS 的谷歌 Pixel 手机,在很多成像项目对决中,与其他采用上亿像素 CIS 的手机相比,依然保持优势。外置一颗 AI 视觉芯片的方案,显然让谷歌更有发挥空间。
如今的手机已经开始广泛应用 AI 来做成像质量的加强,而且包括了取景、抑噪、自动白平衡这些传统环节的参与。就用户层面来看,AI 芯片参与计算并不会有很强的感知。
当这些技术在成像领域变得越来越普遍时,过去的移动成像唯 CIS 中心论愈发失效。如今的终端厂商在火拼手机拍照时,比拼的重点已经向图像 / 视觉处理与计算偏移。毕竟传统光学技术发展的速度无法与与数字芯片相比。
现在很多人拿手机拍照去与全画幅相机比较,即便这样的对比没有任何实际意义,但它也能体现手机的图像 / 视觉处理计算能力,很大程度弥补了移动 CIS 的短板。实际上,这也是两种方案、两个时代的比拼。