苹果公司从 iPhone X 的开始引入了 3D 深度传感技术,它便是苹果 Face ID 功能的基础。

 

iPhone X 的 3D 摄像头采用的是红外 3D 结构光方案,包含「红外光源+光学组件+红外传感器」等部分,其中最关键的部分就是红外光源。早期 3D 传感系统一般都使用 LED 作为红外光源,但是随着 VCSEL 芯片技术的成熟,在精确度、小型化、低功耗、可靠性等角度全方面占优,因而现在常见的 3D 摄像头系统一般都采用 VCSEL 作为红外光源。 

 

3D 视觉测量原理

要谈 3D 视觉应用方案,就必须先弄清楚光学测量分类以及其原理。光学测量分为主动测距法和被动测距法。

 

主动测距方法的基本思想是利用特定的、人为控制光源和声源对物体目标进行照射,根据物体表面的反射特性及光学、声学特性来获取目标的三维信息。其特点是具有较高的测距精度、抗干扰能力和实时性,具有代表性的主动测距方法有结构光法、飞行时间法、和三角测距法。

 

 

1. 主动测距法

(1)结构光法

根据投影光束形态的不同,结构光法又可分为光点式结构光法、光条式结构光法和光面式结构光法等。

 

 

目前应用中较广,且在深度测量中具有明显优势的方法是面结构光测量法。面结构光测量将各种模式的面结构投影到被测物体上,例如将分布较密集的均匀光栅投影到被测物体上面,由于被测物体表面凹凸不平,具有不同的深度,所以表面反射回来的光栅条纹会随着表面不同的深度发生畸变,这个过程可以看作是由物体表面的深度信息对光栅的条纹进行调制。所以被测物体的表面信息也就被调制在反射回来的光栅之中。通过被测物体反射回来的光栅与参考光栅之间的几何关系,分析得到每一个被测点之间的高度差和深度信息。

 

结构光的优点是计算简单,测量精度较高,对于平坦的、无明显纹理和形状变化的表面区域都可进行精密的测量。其缺点是对设备和外界光线要求高,造价昂贵。目前,结构光法主要应用在条件良好的室内。

 

(2)飞行时间法(ToF)

飞行时间(Time of Flight,简称 ToF)法,又叫做激光雷达(LiDAR)测距法。它将脉冲激光信号投射到物体表面,反射信号沿几乎相同路径反向传至接收器,利用发射和接收脉冲激光信号的时间差可实现被测量表面每个像素的距离测量。

 

飞行时间(ToF)深度测量法的原理示意图

 

ToF 直接利用光传播特性,不需要进行灰度图像的获取与分析,因此距离的获取不受物体表面性质的影响,可快速准确地获取景物表面完整的三维信息。缺点则是需要较复杂的光电设备,价格偏贵。

 

(3)三角测距法

三角测距法又称主动三角法,是基于光学三角原理,根据光源、物体和检测器三者之间的几何成像关系来确定空间物体各点的三维坐标。在实际测量过程中,它常用激光作为光源,用 CCD 相机作为检测器。这种方式主要用于工业勘探、工件表面粗糙度检测、轮胎检测、飞机检测等工业、航空、军事领域,在消费电子类产品还不曾涉及。

 

基于激光三角法测量系统简图

 

2. 被动测距法

被动测距技术不需要人为地设置辐射源,只利用场景在自然光照下的二维图像来重建景物的三维信息,具有适应性强、实现手段灵活、造价低的优点。但是这种方法是用低维信号来计算高维信号的,所以其使用的算法复杂。被动测距按照使用的视觉传感器数量可分为单目视觉、双目立体视觉和多目视觉三大类。

 

(1)单目视觉

单目视觉是指仅利用一台照相机拍摄一张相片来进行测量。因仅需要一台相机,所以该方法的优点是结构简单、相机标定容易,同时还避免了立体视觉的小视场问题和匹配困难问题。

 

单目视觉测量示意图

 

单目视觉方法又可分聚焦法和离焦法两类。聚焦法是指首先使相机相对于被测点处于聚焦位置,然后根据透镜成像公式求得被测点相对于相机的距离。相机偏离聚焦位置会带来测量误差,因此寻求精确的聚焦位置是关键所在。而离焦法不要求相机相对于被测点处于聚焦位置,而是根据标定出的离焦模型计算被测点相对于相机的距离,这样就避免了由于寻求精确的聚焦位置而降低测量效率的问题,但离焦模型的准确标定是该方法的主要难点。

 

(2)双目立体视觉

双目立体视觉的基本原理是从两个视点观察同一景物,以获取在不同视角下的感知图像,然后通过三角测量原理计算图像像素间的位置偏差(视差)来获取景物的三维信息。这一过程与人类视觉感知过程是类似的。

 

双目立体视觉测量示意图

 

在双目立体视觉系统的硬件结构中,通常采用两个摄像机作为视觉信号的采集设备,通过双输入通道图像采集卡与计算机连接,把摄像机采集到的模拟信号经过采样、滤波、强化、模数转换,最终向计算机提供图像数据。一个完整的双目立体视觉系统通常可分为数字图像采集、相机标定、图像预处理与特征提取、图像校正、立体匹配、三维重建六大部分。

 

(3)多目立体视觉

多目立体视觉系统是对双目视觉系统的一种拓展。所谓多目立体视觉系统,就是采用多个摄像机设置于多个视点,或者由一个摄像机从多个视点观测三维景物的视觉系统。

 

多目视觉测量示意图

 

对多目系统所采集到的景物图像进行感知、识别和理解的技术被称为多目立体视觉系统技术。在双目立体视觉中,对于给定的物体距离,视差与基线长度成正比,基线越长,对距离的计算越精确。但是当基线过长时,需要在相对较大的视觉范围内进行搜索,从而增加计算量。利用多基线立体匹配是消除误匹配、提高视差测量准确性的有效方法之。基线数目的增加可以通过增加相机来实现。

 

光电 3D 影像技术

根据获取图像信息方法的不同,光电 3D 影像技术分为有源和无源两种技术,无源技术主要是接受物体的辐射或者环境的发射,有源技术是通过投射一束调制的或未调制的光到物体上通过检测物体反射的光来形成 3D 图像。

 

以前大多数技术研究集中在无源 3D 技术上,利用三角测量原理,通过两台相距一定距离的照相机,左边照相机产生的图像表示深度信息,右边照相机产生差异的二维图像。关键是产生深度信息的照相机需要分离出深度信息。无源 3D 影像技术需要拍摄的物体具有突出的轮廓特点,比如边缘、角、线等。其优点是不需要特殊的硬件条件,并成功使用在好几个方面。这种技术的缺点是需要两台或者更多的高质量的照相机、图像处理软件。图像质量、拍照速度、数据传输等都是这种机制能否被广泛应用的限制因素。

 

有源 3D 光电图像方法是投射一束有规律的空间分布的线状光到物体上从而产生一个网状格的深度。广泛使用的有源光方法是飞行时间(time off light)方法,最近几年,市场上出现的 3D 照相机都是基于飞行时间方法,这些 3D 照相机主要应用于工业控制。SwissRanger3000 照相机是最近应用这种技术的产品,通过飞行时间方法检测相位来实现 3D 影像。一束几十兆赫兹被调制的近红外光照射到物体上,物体反射的光进入 3D 照相机,由于立体物体的远近距离不同,反射光的相位存在一个延迟,通过检测原始光束以及反射光束的相位延迟从而检测出物体的景深,从而实现 3D 图像。这种 3D 图像传感器的制作由 ZMD 公司完成,ZMD 公司根据 3D 图像传感器需要高速的特点从噪声和速度进行工艺优化,响应速度可以到 100MHz 以上。

 

3D 视觉图像传感器技术

不管是多个照相机形成的 3D 无源影像技术,还是以飞行时间方为原理的有源 3D 影像技术,整个系统的价格都很高、功耗大、需要复杂的校正软件。在有源 3D 影像技术中可以获得高精度的 3D 图像,但是要求传感器的工作响应速度很高,在现有技术情况下,不得不降低图像的分辨率。目前研究 3D 影像技术主要集中在基于 CCD 或者 CMOS 图像传感器的 3D 实现方法、图像处理和显示的研究,真正开展视觉传感器研究的很少。

 

一种新的 3D 视觉图像传感器技术,可以单芯片实现 3D 拍照的功能,同时可以输出 2D 的影像,并输出高分辨率的 3D 图像。这种图像传感器技术并不需要额外的有源光照,通过电子快门控制曝光时间,获得高速的视频图像,通过自动对焦处理,形成景深影像。这种 3D 传感器技术很适合于低价格、小型化的视觉应用系统,比如手机等多媒体应用。

 

该系统由两部分构成,3DCMOS 图像传感器以及可变焦的液体镜头两部分构成,其中 3DCMOS 图像传感器集成光电转变电路、低噪声读出电路、噪声抑制电路、可编程放大电路、模数转换器电路、曝光控制电路、坏像素纠正电路、彩色空间转换电路、自动白平衡电路以及多媒体图像信号处理电路等功能。

 

图 1 是传统 2D 与提出的 3D 拍照图像传感器芯片与系统,图 1(a)是传统 2D 拍照图像传感器芯片与系统,图中主要包括 2DCMOS 图像传感器芯片和定焦镜头,当拍照的时候,物体上所有的像素点都映射到 AA'平面上,因此系统拍照得到的是一个 2 维图像。图 2(b)是提出的 3D 拍照图像传感器芯片与系统,图中主要包括 3DCMOS 图像传感器芯片和液体变焦镜头。其中 3DCMOS 图像传感器芯片的特点是响应速度快、动态范围高、具有焦距判断、输出控制信号改变液态镜头的功能。液态变焦镜头是近两年发展起来的新型变焦镜头,通过改变施加在液体上的电压而改变焦距,比如拍照 AA'平面时,液体变焦镜头的形状如图中的实线所示,如果拍照 BB'平面时,液体变焦镜头的形状如图中的虚线所示,在 AA'与 BB'平面之间可以拍照多幅图像,分析这些图像的轮廓并合成这些图像的边缘,就可以得到一幅完整的 3D 图像。这种 3D 拍照图像传感器系统具有分辨率高,根据预设拍照的照片个数的多少而得到更精确的景深照片。与传统的光学变焦镜头相比,这种液体变焦镜头的优势是响应快、变焦快,适合于快速变焦的应用场合。

 

 

图 2 是 3DCMOS 图像传感器芯片的示意图,图中的像素单元电路具有灵敏度高、暗电流小、噪声低等优点,行译码电路和列译码电路在时序控制电路的控制下产生像素阵列工作的时序,噪声抑制电路消除信号通路带来的噪声,经过模数转换器将模拟信号转换为数字信号,并输给逻辑产生与数字信号处理电路,逻辑产生与数字信号处理电路产生控制信号控制感光阵列的曝光时间,并集成白平衡处理、彩色差值、焦距判断、轮廓提取等功能。其中模数转换器是多分辨率的模数转换器,在拍照 2D 图像时输出 10bit 的数据,当拍照 3D 图像时,仅仅输出二值化的图像信息。同时电路可以集成电源管理、锁相环电路模块、I2C 控制总线,这正是 CMOS 图像传感器的优势所在(与 CCD 图像传感器相比,CCD 不能单芯片集成)。

 

 

图 3 表示 3DCMOS 图像传感器芯片及系统工作的时序图,其中长曝光时间拍摄的是正常的 2D 图像,后续短曝光拍摄的是景深图像,从 AA'到 BB'平面可以连续自动拍照,从而产生合成 3D 影像的景深图像。当 3DCMOS 图像传感器芯片工作于 2D 图像拍照模式时,模数转换器输出 10 位的数据给数字信号图像处理模块,当 3D CMOS 图像传感器芯片工作于 3D 图像拍照模式,模数转换器输出二值化的图像信息,因此 3D CMOS 图像传感器芯片可以工作于高速拍照的模式,从而获得高速视频信息。

 

 

图 4 是法国 Varioptic 公司的液体变焦镜头示意图。液体变焦镜头由法国 Varioptic 发明,其原理是将两种液体固定在不同的容器中,再它们之间加装一个金属电极,电极中间注入导电液体,当施加在电极上的电压发生改变时,容器中的具有极性的水分子发生漂移,从是两种液体容器中的液体形状发生改变,根据变形的程度来改变焦距。最大特色是其具备几乎是无限宽广的变焦范围,更快反映速度及更出色光学性能,可以应用在可拍照手机、数码相机以及 PDA 等等设备上。其电压控制信号由 3D CMOS 图像传感器芯片可编程提供或者自动等间距提供。

 


3D 新影像技术的关键技术之一的视觉图像摄取器件的原理和实现方法。与传统的 3D 视觉传感器技术相比,具有结构简单、实现方便、价格低廉的优点,便于便携式多媒体设备的应用,可以弥补目前 3D 传感装置的缺点。