(计算机视觉)第5章距离信息的检测

资源描述

《(计算机视觉)第5章距离信息的检测》由会员分享，可在线阅读，更多相关《(计算机视觉)第5章距离信息的检测（20页珍藏版）》请在金锄头文库上搜索。

1、87第五章距离信息的检测5.1 双目立体视觉5.1.1 概述5.1.1 工作原理5.1.1.2 匹配特征的选择5.1.1.3 匹配规则5.1.1.4 算法简介5.1.2 Marr-Poggio-Grimson 算法5.1.3 Baker-Binford 算法5.1.4 摄象机的标定5.1 双目立体视觉5.1.1 概述如果能从两个不同的位置观察同一物体，我们就能用三角计算方法测量摄象机到该物体的距离。这种方法被称为立体视觉或双目立体视觉（Stereo 或 binocular Vision），或简称为体视。体视是人类获取环境三维信息的主要途径。人类的许多能力，如识别和定位物体，回避障碍物，和搜索物

2、体等都要依靠体视。因此人类视觉系统具有高度发达的体视功能，可以在相当大的范围内实时地提供关于周围物体相对位置的准确信息，体视的距离可远达 1000 米。体视可经受各种干扰，在各种光照条件和光度学及几何学畸变的条件下仍能可靠地提供立体信息。体视可经受对比度的变化，在一幅图相对于另一幅图有明显的模糊或扩展时，仍能工作良好。体视的处理是快速的，并能很好地处理物体运动的情况。体视对深度信息检测的分辨率很高。在理想条件（孤立边缘）下能可靠地分辨小于 1 秒弧的视差 Wes 78。这相当于在 1 米的观察距离上确定大约相距 0.8 毫米的两个特征的相对深度，或在 50 厘米远处的 0.2 毫米的相对深度。

3、在计算机视觉研究中立体视觉也是很重要的，因为它可适用于各种条件。例如，体视可被用于根据航空照片获得地形信息，这时就难以应用主动式的测距方法。对体视的研究从根本上来说有两种不同的目的和方法：一种是为了理解人类双目立体视觉的机理；另一种是找寻获得距离信息的实用方法。前者寻求人类立体视觉的计算机模型，它可适用于各种情况，因此需要进行大量的计算；与此相反，后者希望开发可实用的立体视觉系统，由于它是适用于特定的领域，因此通常是不通用的。由于体视处理需要进行大量计算，因此目前在实用中还未被广泛采用。近来由于在高速信号处理器硬件研究方面取得迅速进展，以及并行处理技术的发展，使得有可能应用通用的并行处理器来解

4、决体视处理中的计算量问题。此外，上述两种方法之间的相互渗透和启发能为发展实用的通用立体视觉系统指出新的途径。因此，对体视的研究再次引起各方的重视。5.1.1.1 工作原理图 5.1(a)所示为用双摄象机观测同一景物时的情形。物体上的点 P 在摄角机 1 中的成88象点为，它是通过从 P 点发出的光线经过透镜中心 C1与图象平面相交而形成的。相反地，若已知图象平面上的一点 A 和透镜中心 C1可唯一地确定一条射线 AC1。所有可成象在 A 点的物体点必定在这条 AC1射线上。但问题是不知道物体在这条射线上的什么地方，也就是不知道离得多远。如果我们能找到同一物体点 P 在另一摄象机中的成象点 B，

5、那么根据第二个图象点 B 与相应透镜中心 C2决定的第二条射线 BC2与 AC1的交点就可以确定物体点的位置。因此，如果已知两台摄象机的几何位置，并且摄象机是线性的，同时知道同一物体在两个摄象机中的成象位置，那么利用三角原理就可以计算物体在空间的位置。射线图 5.1立体视觉原理AC1上各点在右摄象机图象平面中的成象是一条直线（BD），这条线被称为外极线（epipolar）。同理，BC 2在左摄象机图象平面中的成象也形成外极线。因此，如果已知空间点在一个图象平面中的成象点要寻找在另一图象平面中的对应点时，只需沿此图象平面中的外极线搜索即可。图 5.1(b)所示为两摄象机的光轴平行，并且摄象机的水

6、平扫描线位于同一平面时的简单情形。P 点在左、右图象平面中成象点相对于坐标原点 O1和 O2（O 1和O2是左、右摄象机透镜光轴与图象平面的交点）的距离分别为和。P 点在左、右图象平面中成象点位置差被称为视差（disparity）。在图 5.1(b)所示情况下，P 点距透镜中心的距离 d 等于(5-1)fb其中是透镜的焦距， b 是两透镜中心之间的距离，当摄象机的几何位置固定时，视差f 只与距离 d 有关，而与 P 点离摄象机光轴的距离无关。视差越大说明物体离透镜的距离越近；反之，则越远。89图 5.2双目光轴不相平行时的视觉在一般情况下左、右摄象机（双目）的光轴不平行，而是相交于某一点（称

7、为固定点），如图 5.2 所示。固定点的视差为零。如果物体点在固定点的前方（离透镜较近，图 5.2 (a) )这时的视差称为收敛视差（convergent disparity）。在图 5.2 中用双目代表摄象机，在研究人的视觉时常用视角差来表示视差。如果物体点在固定点后方（图 5-2(b)），这时的视差称为发散视差（divergent disparity）。这时的视差直接反映物体点距固定点的距离，而固定点的位置可通过改变摄象机光轴的夹角进行调整。因此，改变摄象机光轴的夹角可以调整距离测量范围。例如，人在观察近处的物体时就需要把双目的光轴会聚在近处。为了避免混淆需要说明一下距离和深度的定义。距离

8、是指从观察者到物体的客观实际距离；深度（depth）是指由观察者感觉到的主观距离，通常是测量相对于定位点或某个空间点的距离。如上所述，从原理上讲根据“立体图象对”抽取深度信息的处理应包括以下四部分：1. 在图象中寻找在两幅图象中都便于区分的特征，或用于匹配的基元（primitive）。2. 把左、右两幅图象中的有关特征进行匹配，即解决特征匹配的方法问题。3. 确定摄象机的相对几何位置和有关参数，即摄象机的校准（Calibration）。4. 根据视差计算成象物体相对摄象机的距离。这些问题中最重要和困难的是前两个问题。也就是在左、右图象中发现与同一空间点对应的成象点对，这说是所谓的对应性（ Co

9、rrespondence）问题。一旦确定了对应关系就可容易地计算出这些图象点所代表的物体点在空间的位置。但是对一幅图中的给定匹配基元来说在另一幅图中经常可发现不止一个可能的匹配基元与之匹配。这样就产生了匹配中的多义性或匹配假目标问题。这是个关键而困难的问题。5.1.1.2 匹配基元的选择对应性问题不是简单地把两幅图中象素的灰度作比较就能解决的。左、右图象中单个象素点的灰度不够稳定，即使认为它们是稳定的话，也很容易出现在相当大的区域里象素具有相同灰度的情况，这样就造成了严重的多义性问题，或假目标（false target）问题。立体视觉处理中对搜索对应点时的多义性问题可分两步来解决。第一步，是在

10、单幅图90象作预处理时通过抽取图象局部结构较为丰富的描述来减少错误对应的可能性；第二步，是在两幅图的对应点间作匹配时应用选择性规则来限制搜索空间。各种算法间的区别主要在于它们在匹配时选择什么样的匹配基元（matching primitive）作为表面位置标志的基本元素，以及选用什么规则来限制搜索空间和删除不合适的匹配。选择匹配基元时要考虑基元的稳定性和敏感性。由于图象对中不可避免地存在光度学和几何学的畸变。为使在这种情况下仍能可靠地检测所需的位置标志，所选的匹配基元应能经受上述两方面的畸变，也就是应有较高的稳定性。同时，从减少出现不正确匹配的可能性来看，所选的匹配基元应能灵敏地反映两个匹配基元

11、之间的差别，这就是说要有较高的敏感性。人类的立体视觉经受图象对之间对比度差别的能力很强，这意味着在人的立体视觉中可能应用了如局部灰度梯度最大点这样的与对比度大小无关的匹配基元。在选择匹配基元时还应考虑便于检测、能准确定位和允许在较大的视差范围内进行匹配等因素。目前所用的匹配基元可以分成两大类：1. 在所有图象点上抽取的量测这类匹配基元一般是在每个象素位置处都产生一个描述，所以这时把匹配基元看成是一种量测比看成一种特征更为确切。这些特征表示图象中的局部结构状态，在数量上要比象素少得多。属于这类的匹配基元有以下几种：(1) 象素灰度。象素灰度可由成象系统直接得到，因此是最简单的。目前被用于大多数商

12、用的视觉系统中。(2) 局部区域的灰度函数。在各种大小窗口中求得的灰度分布的导数可用于产生描述各点周围结构的矢量 Kas 83。(3) 卷积图象的符号 Nis 83。把图象与各种大小的算子卷积后，图象中各点2G2G的符号可作为原始图象特征的描述。在卷积后的图象中可得到正号区和负号区。这两个区域之边界接近于灰度梯度局部极大值的位置。2. 图象特征这种匹配基元较为符号化，它检测图象中包含丰富信息的结构所在的位置，例如图象中的边缘，这些边缘可能与景物中表面之间的边界相对应。与象素相比图象特征数量较少。(1) 卷积图象中的过零点。这种方法是由 Marr 和 PoggioMar 79，Marr 和2G

13、HildrethMar 80提出和发展的。它虽然也可用于检测边缘，但是更确切说这种方法的目的是检测稳定的、稠密的表面标志。按这种方法任何小的影调变化或小的纹理变化只要稳定都是一个特征。(2) 边缘。这种基元试图抽取景物中表面之间或不同颜色区域之间的实际边界。这种匹配基元上还可以带有如边缘方向、对比度、长度、边缘曲率等附加信息。检测边缘的算子如第四章中所述种类很多。在选择边缘作为特征时有两点需要考虑：第一，由于对于给定的特征点来说，对应的外极线上的点都是可能的匹配点。所以与外极线方向平行的边缘线段无法作为匹配的特征，只有其方向与外极线交叉的边缘点才能作为匹配基元。第二，因为边缘经常代表深度的不连

14、续点，在从不同位置所取得的图象中，边缘两侧的区域情况将会不同。因此，基于边缘特征的立体视觉算法通常只利用边缘的位置和方向的信息，而对边缘两侧的灰度信息用得很少。5.1.1.3 匹配规则（matching rules）在研究具体的匹配规则以前需要先讨论在匹配过程中应遵循的约束条件。这些约束条件是根据对匹配环境所作的假设产生的，约束条件主要包括以下三条：1. 相容性（Compatibility）约束91如果两个匹配基元确实是由同一物理标记产生的，那么它们就可以匹配起来。如果不是这样，它们就不能匹配。在判断两个匹配基元是否相容时要根据它们之间的相似性。问题是如何度量匹配基元的相似性。有两种相似性的假

15、设。一种是基于光度学不变性的性质。即左、右图象对应区域中灰度的变化情况相似。如果景物中表面的深度变化比较平缓，同时由于双眼相隔的距离不大，作这样的假设是有道理的。例如，用立体视觉原理，通过航空摄影测地形时，由于地形的起伏与飞机的高度相比较小，因此可采用这样的假设。但在机器人视觉应用中，景物的深度分布经常有急剧变化，在这样的区域附近容易产生与左图中相对应的区域在右图中被遮挡，或反之的情况。这时光度学不变性的假设就难以保持。另一种相似性的假设是根据几何学不变性，即两幅图象中描述对象的几何结构相同。例如，在以边缘作为匹配基元时，沿外极线上任何扫描方向，在左、右图象中边缘出现的次序相同（虽然由于存在遮

16、挡，出现在左图中的边缘可能不出现在右图中，或反之）。2. 唯一性约束由于在任何时刻位于某一物质表面上的一个给定点在空间只占有一个唯一的位置，所以，除了极个别的情况以外，某个匹配基元只能与另一幅图象中的一个匹配基元相匹配。这样，图象中的每个匹配基元最多只能有一个视差值。3. 连续性约束这条约束条件的含义是匹配得到的视差值的变化在图象中几乎处处平滑。这个约束条件是以下述假设为前提的：和表面到观察者的总距离相比较，物体表面凹凸引起的变化或由观察者到表面的距离变化造成的差异都很小。因此，物体表面可看成是平滑的。也说是说，除物体的边界外，从观察者到可见表面的距离的变化是连续的，而物体的边界只占图象面积的很小部分。上述约束条件对减小匹配多义性的作用可用下述例子来说明。如图 5.3 所示，左、右眼都可以看到 4 个点，那么左图中任意一个点到底与右图中哪一个点相对应呢？如果匹配不是一对一的，则在 4 个点的情况下，对每个点来说有 24=16 种可能的方式与另幅图象中的点相匹配。所以，从原理上来说，4 个

展开阅读全文