特征向量场和特征匹配

特征向量场和特征匹配

F.C. Wu*, Z.H. Wang, X.G. Wang

模式识别国家重点实验室,中国科学院自动化研究所,北京100190,中国 文章历史:

2008年10月22日收到稿件;

2010年2月2日收到修订后的稿件;

2010年5月2日收录。

摘要:

本文中,我们提出基于图像梯度内、外积的图像特征向量场。这个特征向量场有效地表示了包括拐角和大曲率边缘点在内的图像边缘和特征点。使用它就可以为点匹配和曲线匹配构建一些新颖的描述符。这些描述符对于欧氏变换和线性强度变化都有不变性。实验结果表明,对小图像仿射变换、JPEG 压缩和非线性强度变化也有良好的适应性。

2010 Elsevier Ltd.保留所有权利。

关键字:内积,外积,特征匹配,特征描述。

1 引言

包括点匹配和曲线匹配的特征匹配在许多如图像定位、三维重建、对象识别和视频理解的计算机视觉课题中扮演着重要的角色。近年来,我们在特征匹配领域已经有了重大进展,并且提出了大量算法。下面,简要地回顾一下文献中一些相关方法。

点匹配:点匹配方法主要分为两类:基于强度分布的方法和基于梯度分布的方法;且都使用描述符来表示局部图像区域中的强度分布或梯度分布。交叉相关

[1-3]是一个基于强度分布的经典描述符,而旋转图像[4]的描述符则要更加出众。在基于梯度分布的描述中,由Lowe[5]提出的尺度不变特征变换(SIFT )是最著名的一个。之后[5],又有了许多相似的变体,如前后形态关系[6]、GLOH[7]和

SURF[8]等。除了上述两种主要类型,文献中也有介绍一些其他技术,像局部喷射[9]、可操作滤波器[10]、不变矩[11]和复杂滤波器[12,13]。Mikolajczy 和Schmid[7]对这些主流描述符在真实图像上做了评估,并得出以下结论:第一,这些描述符表现的性能就是一个独立的特征检测器;其次,基于SIFT 的描述符在多维描述符中效果最好。最后,最好的低维描述符是梯度矩和可操作滤波器。

曲线匹配:近年来,相对于点匹配,曲线匹配(包括线性匹配)一直进展不大。到目前为止,只有少数曲线匹配方法在文献提出。对于平面图像,Lourakis et al.[14]提出了对于线性匹配使用“2线+2点”射影不变量的方法,Herbert et al. [15]提出了一种彩色图像中的自动匹配方法。这种方法的主要缺陷在于它对颜色信息的严重依赖。当色彩中有强烈的不同时可以区别,但当颜色特征不鲜明时,例如灰度图像或遥感图像,就会区分不出来。Schmid 和Zisserman[16]应用几何约束(对极几何、单应参数系和曲线曲率)和互相关来进行线性匹配和曲线匹配。由于更多的几何信息可用于消除含糊不清的地方,还可以应付更显著的摄像机运动,Deng 和Lin [17]提出的分组匹配方法更有优势。然而,它往往具有很高的复杂性,而且对线拓扑连接和不确定端点有一定的灵敏性。通过总结SIFT 点描述符,Mikolajczyk et al. [18]也提出了曲线描述符,Orrite 和Herrero [19]提出了在射影变换下闭合曲线匹配部分连续Hausdorff 距离不变。大多数曲线匹配的现有方法或要求初始条件,或限于特定场景,比如图像或平面场景。

本文中,使用图像梯度内、外积介绍了表示图像边缘和特征点包括高曲率拐角与边缘点在内的图像特征向量场。然后,在已提出的特征向量场的基础上,构建了若干对于点匹配与曲线匹配,图像欧式变换和线性强度变化不变的新颖描述符。这些描述符很容易构建,只需要计算支持区域子区域中定义的特征向量的均值和标准差。实验表明,该描述符对于图像仿射失真、JPEG 压缩和非线性强度变化是健全的,并且有良好的适应性。

本文组织结构如下所示。第2部分介绍内、外相关性,并定义了图像的特征向量场。第3部分详细阐述了如何构建特征匹配的描述符。第4部分记录了实验结果,第5部分对特征向量场和描述符作了一些讨论,第6部分则是总结全文。

2 特征向量场

2.1 内积和外积

本文所使用的图像梯度为高斯梯度,点x 处的梯度可表示为? f (x ) (f x (x ), f y (x )) ,传统方式上,两个梯度的内、外积可定义为

f y (x ) f y (y )

f y (x ) f x (y ) 蜒f (x ) o f (y ) =f x (x ) ? f x (y ) 奄f (x ) ? f (y ) f x (x ) ? f y (y ) (2.1) (2.2)

在几何学中,外积是平行四边形由两个梯度Ñf (x ) 和Ñf (y ) 指向的区域,由于下面

奄f (x ) ? f (y ) 炎f (x ) f (y ) sin q (2.3) 下面的方程式表明了内、外积之间的关系:

奄f (x ) ? f (y ) 蜒f (x ) o R p /2f (y ) (2.4) 这里R p /2是p /2的旋转。

不难证明,内、外积对于图像变换有以下性质:

(1)对于欧式变换g (x ⅱ) =f (x )(x =Rx +t ) ,

蜒g (x ⅱ) o g (y ) =蜒f (x ) o f (y ), 奄g (x ⅱ) ? g (y ) 奄f (x ) f (y ) (2.5)

(2)对于尺度变换g (x ⅱ) =f (x )(x =s x ) ,

蜒g (x ⅱ) o g (y ) =(1/s 2) 蜒f (x ) o f (y ),

奄g (x ⅱ) ? g (y ) (1/s 2) 奄f (x ) f (y ) (2.6)

(3)对于仿射变换g (x ⅱ) =f (x )(x =Ax +t ) ,

奄g (x ⅱ) ? g (y ) det 2(A -1) 籽f (x ) 傺f (y ) (2.7)

(4)对于线性强度变换g (x ) =a f (x ) +b ,

蜒g (x ) o g (y ) =a 2蜒f (x ) o f (y ), 奄g (x ) ? g (y ) a 2奄f (x ) f (y ) (2.8)

2.2 特征向量场 内相关:使W e (x ) ={y :y -x e },它是一个中心为x ,半径为e 的圆形区域。点x 到W e 的正负内相关可定义为

Ip +x =

Ip -x =y i 蜽å(|蜒f (y i ) o f (x ) |+蜒f (y i ) o f (x )) /2 e (2.9) (2.10)

y i 蜽å(|蜒f (y i ) o f (x ) |-蜒f (y i ) o f (x )) /2 e

下面这个向量:

V Ip (x ) =(I p +(x ), I p -(x )) (2.11) 称为点x 到W e 的正负内相关。

图1 内相关 a) 输入图像 b) 正内相关 c) 负内相关 d) 内相关的模

图1显示了图像内相关的分布。(a )是输入图像,(b )是正内相关,(c )是负内相关,(d )是内相关的模,并定义为Ip (x ) =(I p 2

+(x ) +I p 2

-(x )) 1/2。从图上可以

看出,正内相关对图像边缘有鲜明的反映,而负内相关对高曲率的边缘点有鲜明的反映;因此,内相关的模很好地反映了图像边缘。从而,我们可以考虑用内相关的模衡量边缘点,即沿梯度方向内相关模的最大值被定义为边缘点。

外相关:同样,因为图像梯度的外积,我们还可以定义外相关。点x 到W e 的正负外相关可定义为

Ep +x =

Ep -x =y i 蜽å(|奄f (y i ) ? f (x ) |奄f (y i ) f (x )) /2 e (2.12) (2.13)

y i 蜽å(|奄f (y i ) ? f (x ) |奄f (y i ) f (x )) /2 e

下面这个向量:

V Ep (x ) =(E p +(x ), E p -(x )) (2.14)

称为点x 到W e 的正负外相关。

图2 外相关 a) 输入图像 b) 正外相关 c) 负外相关 d) 外相关的模

图2显示了图像外相关的分布。(a )是输入图像,(b )是正外相关,(c )是负外相关,(d )是外相关的模,并定义为Ep (x ) =(E p 2

+(x ) +E p 2

-(x )) 1/2。正、负外

相关都对图像拐角和高曲率的边缘点有鲜明的反映,并且外相关的模很好地反映了它们。因此,我们可以使用外相关的模衡量特征点,并将其局部最大值作为特征点的定义。

图3 边缘检测和点检测 a) 输入图像 b) 内(外)相关的模 c) 检测边缘(特征点) 图3显示了一个使用内、外相关进行图像边缘检测和特征点检测的例子。(a )是输入图像,(b )是正(外)相关的模,(c )是检测边缘(特征点)。

特征向量场:在定义了内、外相关后,由每个图像的一个4维向量,点x 可以推出

FV (x ) =(V Ip (x ), V Ep (x )) R 4 (2.15)

由于图像的边缘和特征点是两个最重要的图像特征,矢量FV (x ) 被称为点x 的特

征向量,向量场F (I ) ={FV (x ) |x I }被称为图像I 的特征向量场。

从图像变换的内、外积性质,对于特征向量场,我们有以下属性::

(1)对于欧式变换g (x ⅱ) =f (x )(x =Rx +t ) ,

FV g (x ¢) =FV f (x ) (2.16)

(2)对于尺度变换g (x ⅱ) =f (x )(x =s x ) ,

FV g (x ¢) =(1/s 2) FV f (x ) (2.17)

(3)对于仿射变换g (x ⅱ) =f (x )(x =Ax +t ) ,

g g V Ep (x ¢) =det 2(A -1) V Ep (x ) (2.18)

(4)对于线性强度变换g (x ) =a f (x ) +b ,

FV g (x ) =a 2FV f (x ) (2.19)

3 特征描述

在本部分中,特征向量场用于构建点匹配和曲线匹配的描述符。

3.1 点描述 使W r (x ) ={y |y -x r }为一个特征点为x ,半径为r 的圆形邻域。为了考虑邻域W r 内特征向量的统计特性,我们把W r 分为子区域R 1, R 2, L , R M 。通过计算子

区域R i 内特征向量的均值和标准差,我们获得了两个4维向量。

m i (x ) =1

#R i 邋FV (x ), sd (x ) =i x 挝R i (3.1)

使m (x ) =(m 1(x ), m 2(x ), K m M (x )), sd (x ) =(sd 1(x ), sd 2(x ), K , sd M (x )) (3.2) 分别标准化m (x ) 和sd (x ) 为单位模,幷连接成一个向量,我们可以获得一个8M 维向量。

MSDP (x ) =(m (x ) sd (x ) , ) R 8M

m (x ) sd (x ) (3.3)

这个向量被称为点x 的均值—标准差描述符,记为MSDP 。

根据W r 的不同划分,我们可以得到不同的MSDP 描述符。在本文中,我们认为只有以下三种划分:

R-MSDP 描述符:如下划分邻域W 为r M 个环:R i ={y |r (i -1) /M

R-MSDP 描述符。

S-MSDP 描述符:如下划分邻域W M 个等距扇形:r 为

S i ={y |2p (i -1) /M +q main

X[5]的主要方向。如此划分的MSDP 描述符称为S-MSDP 描述符。

RS-MSDP 描述符:邻域W r 被同时分为M 个环和N 个扇形,从而我们得到MN 个子区域。如此划分的MSDP 描述符称为RS-MSDP 描述符。

由等式(2.16)和(2.19),我们可以证明,所有这三种描述符,R-MSDP ,S-MSDP 和RS-MSDP 对图像欧氏变换和线性强度变换有不变性。在本文的实验中,我们设定r=16,并且只低维使用这三种MSDP 描述符所示,如图4所示,这分别是64维R-MSDP 描述符(R-MSDP64),64维S-MSDP 描述符(S-MSDP64)和64维RS-MSDP 描述符(RS-MSDP64)。

图4 本文中的三种MSDP 描述符

3.2 曲线描述

支持区域:为了描述曲线C ,需要先定义一个支持区域。假设C 由N 个点组成,记为C ={x 1, x 2, L , x N }。对于每一个x i ÎC ,中心在这里,大小为m(2n+1)m,沿点x i 梯度方向的矩形区域,就是支持区域。如图所示,图5中的矩形区域RT i ,

(C ) 。

图中所有的RT i 就是C 的支持区域,记为W

图5 曲线支持区域和分区

为了更详细地表征支持区域,每一个RT i 被分为大小同为m ´m 的(2n+1)个子区域,并且这些子区域记为RT ij , j =1,2, L ,2n +1,方向是梯度方向d i ,因此,我

们对于RT i 可以获得一组有序子区域。

OS i ={RT i 1, RT i 2, L , RT i (2n +1) } (3.4) 定义

R j =? i N =1RT ij (j 1,2, L ,2n +1) (3.5)

(C ) 有序组OS i 所有第j 列元素。 这是我们得到的支持区域W

W (C ) = 2n +1

i =1R i (3.6)

(C ) 的分区具有旋转不变由于在有序分区RT i 使用了梯度方向d i ,支持区域W

性。基于支持区域和它的分区,使用上一部分介绍的特征向量场可以构建两种曲线描述。

MSDC 描述符:假设我们有图像的特征向量场。基于分区(3.6),首先计算每个分区R i 中特征向量的均值和标准差。

m i =1

#R i 邋FV (x ), sd x 挝R i i =R 4, i 1,2, L ,2n +1 (3.8)

然后,一个8(2n+1)维向量可以定义为

MSDC (C ) =(m (C ) sd (C ) , ) R 8(2n +1) m (C ) sd (C ) (3.9) 且m (C ) =(m 1, m 2, L , m 2n +1) ,sd (C ) =(sd 1, sd 2, L , sd 2n +1) 。向量MSDC 被称为曲线C 的均值—标准差描述符。

MSD 2描述符:这里还有另一种曲线描述是基于MSDP 构建的。对于每一个点x i ? C , i 1,2, L , N ,计算它的MSDP 描述符:p i =MSDP (x i ) R 8(2n +1) ,且获得一组8(2n+1)维向量。

然后使

1N (C ) =邋p i , sd (C ) =N i =1 (3.10)

因而,一个16(2n+1)维向量可以定义

MSD 2(C ) =((C ) sd (C ) , ) R 16(2n +1) (3.11)(C ) sd (C )

这种描述称为MSD 2符。

很容易证明,无论MSDC 还是MSD 2描述符对于图像欧氏变换和线性强度变化都有不变性。在本文的实验中,我们设置m=5,n=4,相应的MSDC 和MSD 2描述符分别是72和144维,记为MSDC72和MSD 2144。

4 实验结果

4.1 点匹配

在这部分中,我们在真实图像上测试R-MSDP64,S-MSDP64和RS-MSDP64描述符的性能,并将它们与SFIT 描述1符作比较。匹配性能评估的标准是相同精度[7]下的匹配数目。匹配方法和标准就像描述符和NNDR[5]之间。

在下面图像旋转的实验中,用RANSAC 技术计算对极几何来区分匹配的对错。在其他实验中,用提供的单应[24]来检查每一个匹配的正确性。这里只有

Harris 点的匹配结果。根据大量图像的实验,其他种类特征点的匹配结果与Harris 点很相似,如LOG 点和本文中用外相关的模定义的特征点。

图6 图像旋转 左:使用的图像对 右:匹配结果

图像旋转:图6(左)是旋转的摄像头获得的图像对。图6(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。从图中我们可以看到:R-MSDP64描述符优于SIFT 描述符,而S-MSDP64,RS-MSDP64和SIFT 描述符性能几乎相同。结果表明,MSDP 描述符可以根据图像旋转得到完美的结果。

图7 图像仿射 左:使用的图像对 右:匹配结果

图像仿射:7(左)是仿射失真的图像对[24],图7(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。实验结果表明,SIFT 描述符在这些描述中是性能最好的,S-MSPD64和RS-MSDP64比SIFT 描述符稍差,R-MSDP64描述符虽说是四中描述中最差的,但仍可以提供较好的结果。这个结果表明,我们的MSDP 描述符在仿射失真下可以提供良好的性能。

非线性强度变换:图8(左)是非线性强度变换的图像对[24],图8(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。从图中我们可以看到,SIFT 描述符在这些描述中是性能最好的,但所有的MSDP 描述符都可以提供较好的结果。这个结果表明,我们的MSDP 描述符对非线性强度变化有良好的适应性。

图8 非线性强度变化 左:使用的图像对 右:匹配结果

图9 JPEG压缩 左:使用的图像对 右:匹配结果

JPEG 压缩:9(左)是JPEG 压缩的图像对[24],图9(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。从图中我们可以看到,RS-MSDP64和SIFT 描述符表现相似,S-MSDP64描述符的性能非常接近SIFT 描述符,R-MSDP64描述符的性能虽然是最差的,但也提供了较好的结果。这个结果表明,我们的MSDP 描述符对JPEG 压缩有良好的适应性。

图10 噪声 左:使用的图像对 右:匹配结果

噪声:图10(左)有噪声的图像对,其中给第二幅图像加了0.02级的椒盐噪声,图10(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。结果表明,RS-MSDP64描述符在这些描述中是性能最好的,S-MSDP 和SIFT 描述符性能相似,而R-MSDP 描述符则性能最差。结果表明,MSDP 描述符对图像噪声有良好的适应性。

4.2 曲线匹配

在这部分中,我们测试曲线描述在真实图像上的性能。匹配性能评估的标准是匹配和正确匹配的数目。每一个匹配由人或被视为正确,或错误。Canny 边缘检测提取图像中的曲线[20],长度小于20像素的曲线都将被摈除。匹配措施和标准就像描述符和NNDR 之间。在所有实验中NNDR 的门限设为0.8。这里我们只提供使用MSDC72描述符得到的匹配结果。根据大量图像的实验得到,MSD 2144描述符的性能比MSDC72稍好。

图11 图像旋转 左:使用的图像对 右:曲线匹配:92,错误:5

图像旋转:图11(左)是旋转的摄像头获得的图像对。在这两个图像中,分别提取269个曲线和303个曲线。图11(右)为使用MSDC72描述符得到的匹配结果。92个曲线是匹配的,但5个匹配是不正确的。结果表明,MSDC72描述符可以在图像旋转时有非常好的性能。

图12 图像仿射 左:使用的图像对 右:曲线匹配:71,错误:5

图像仿射:12(左)是仿射失真的图像对[26]。在这两个图像中,分别提取313个曲线和354个曲线。图12(右)为使用MSDC72描述符得到的匹配结果。71个曲线是匹配的,但5个匹配是不正确的。结果表明,MSDC72描述符可以在图像仿射失真时有良好的性能。

图13 非线性强度变化 左:使用的图像对 右:曲线匹配:54,错误:5

非线性强度变化:使用的图像为图13(左)中的两个图像。在这两个图像中,分别提取157个曲线和92个曲线。图13(右)为使用MSDC72描述符得到的匹配结果。52个曲线是匹配的,但5个匹配是不正确的。结果表明,MSDC72描述符对非线性强度变化有良好的适应性。

图14 JPEG压缩 左:使用的图像对 右:曲线匹配:59,错误:7

JPEG 压缩:使用的图像为图14(左)中的两个图像。在这两个图像中,分别提取224个曲线和245个曲线。图14(右)为使用MSDC72描述符得到的匹配结果。59个曲线是匹配的,但7个匹配是不正确的。结果表明,MSDC72描述符对JPEG 压缩有良好的适应性。

图15 阻塞 左:使用的图像对 右:曲线匹配:17,错误:0

阻塞:使用的图像为图15(左)中的两个图像。这两个图像由于摄像头的角度的变化,在相应的线之间平均存在着30%的阻塞,分别提取37个线和32个线。 图15(右)为使用MSDC72描述符得到的线匹配结果,其中17个线段匹配,且没有错误。结果表明,MSDC72描述符对局部阻塞有良好的适应性。 5 讨论

本文的主要贡献是两方面:(1)介绍了图像的特征向量场(2)基于特征向量场,用非常简单的的方式构建点匹配和曲线匹配的描述符。在本部分中,将对特征向量场和描述符进行一些讨论。

内、外积之间的差别:考虑图像中的一个点,如果它邻域中样本的梯度方向与它的梯度方向匹配,这个图像点则有一个大的内积相关。然而,在这种情况下,其外积将几乎没有影响。相比之下,当这些样本的梯度方向垂直于中心点时,外积相关将达到最大。换句话说,内积相关提供了一种在与暗示着边缘特征的中心点近似的局部区域内测量样品梯度方向的方法,而外积相关则提供了一种在与中心点不一样的局部区域内测量样品梯度方向的方法,并表明了拐角特征。

将特征向量场与标准梯度做一下对比:标准梯度只包含了强度、方向局部变化的信息,并主要针对图像边缘特征的信息,而本文中提到的的内、外积则分别表示了局部图像的边缘和拐角结构信息。因此,内、外积结合起来可以提供比标准梯度更多的局部图像结构信息。通过实验可以看出,在相同的区域划分方案下,只基于内积的描述符可以提供与基于标准梯度的描述符相媲美的性能,而基于特征向量场的描述符的性能则明显优于基于标准梯度的描述符。

计算效率:归一化互相关(NCC )和互相关(CC )是两个经典且简单的特征点匹配方法。这里只分析一下CC 和我们的描述符的计算复杂性。假设在两幅图像中的特征点数目分别为n 1, n 2,并将使用CC 计算相似度的时间,计算一个描述的时间,计算两个描述之间距离的时间分别记为t C , t D 和t M 。然后,使用CC 和我们的方法消耗的时间可分别表示为T 1=t C n 1n 2和T 2=t D (n 1+n 2) +t M n 1n 2。为了获得良好的匹配结果,CC 邻域的大小通常大于16⨯16,由于所有的点描述都为

64维,从而t C >t M 。因此,我们方法的计算复杂度低于CC 。对大小为2048⨯1576的图像的实验表明,使用R-MSDP ,S-MSDP ,RS-MSDP ,NCC 和CC 的平均时间消耗分别为3.2,3.5,3.1,5.5和4.5秒。

限制:限制我们工作的主要有两个方面:第一,对仿射/投影失真没有不变性。出现这种情况的主要原因是,所有用于构建描述的子区域具有相同的大小,但仿射/投影变换必须与大小变化有一定的关联。虽然将特征支持区域分割成更小的子区域的方法可以使投影失真的描述符更加强烈,性能将随失真增强迅速下降。图16给出了不同观点下线匹配的结果。(a)为观点变化时正确匹配的曲线,(b)显示了正确的比例曲线。这两个图都是由4个图像对获得的。从图中可以看到,当观点变化小于30,我们的描述符可以提供可靠的高精度(一般高于90%)匹配结果。当失真度更高时,只可以得到少数低精度匹配。其他限制我们方法的还有,由于本文中所描述的工作只允许构建一个单一尺度的描述符,对尺度变化没有不变性。

图16 不同观点变化下的线匹配结果 (a):正确匹配 (b):匹配比例

我们今后的工作将是解决这些限制,使得我们的描述符更好地解决仿射/投影失真和规模不变。可能的方面包括:使用比例空间技术[5]构建描述符使得描述符尺度不变;使用仿射协变区域的概念,如Harris-Affine 区域和Hessian-Affine 区域[21-23],只使用外相关获得的描述符是仿射不变的,因为外部相关性是仿射变换的下一个决定性因素(见式(2.14))。

6 结论

根据图像梯度的内、外积,我们可以建立一个有效表示图像边缘和包括拐角、大曲率边缘点的特征点的特征向量场。基于特征向量场,我们构建了一些新颖的描述符,且对欧式变换和强度变化的特征匹配有着不变性。广泛的实验表明,这些描述符对小图像的仿射变换,JPEG 压缩和非线性强度变化有良好的适应性。本文提出的特征向量场只适用于特征匹配,但我们相信,它将也可以用于其他图像分析和理解应用。

7 致谢

我们要感谢一些匿名评论者的启发性意见和建议。此外,我们非常感谢来自于中国国家自然科学基金(60835003)和中国国家高技术研究发展计划(2006AA01Z116)的支持。

8 参考文献

[1] H. Moravec, Rover visual obstacle avoidance, in: Proceedings of the International Joint Conference on Artificial Intelligence, 1981.

[2] Z. Zhang, R. Deriche, O. Faugeras, Q.T. Luong, A robust technique for matching two un-calibrated images through the recovery of unknown epipolar geometry, Artificial Intelligence 78 (1995) 87–119.

[3] C. Schmid, R. Mohr, Local grayvalue invariants for image retrieval, IEEE Transactions On Pattern Analysis and Machine Intelligence 19 (5) (1997) 530–534.

[4] A. Johnson, M. Hebert, Using spin images for efficient object recognition in cluttered 3D scenes, IEEE Transactions On Pattern Analysis and Machine Intelligence 21 (5) (1999) 433–449.

[5] D.G. Lowe, Distinctive image feature from scale invariant keypoint, International Journal of Computer Vision 60 (2) (2004) 91–110.

[6] S. Belongie, J. Malik, J. Puzicha, Shape matching and object recognition using shape contexts, IEEE Transactions On Pattern Analysis and Machine Intelligence 24

(4) (2002) 509–522.

[7] K. Mikolajczyk, C. Schmid, A performance evaluation of local descriptors, IEEE Transactions On Pattern Analysis and Machine Intelligence 27 (10) (2005) 1615–1630.

[8] H. Bay, T. Tuytelaars, L.V . Gool, SURF: Speeded Up Robust Features, in: Proceedings of the European Conference on Computer Vision, 2006.

[9] L. Floract, B. Haar Romeny, J. Koenderink, M. Viergever, General intensity transformations and second order invariants, in: Proceedings of the 7th conference on Image Analysis, 1991.

[10] W. Freeman, E. Adelson, The design and use of steerable filers, IEE E Transactions On Pattern Analysis and Machine Intelligence 13 (9) (1991) 891–960.

[11] L. Gool, T. Moons, D. Ungureanu., Affine/photometric invariants for planar intensity patterns, in: Proceedings of the European Conference on Computer

Vision, 1996.

[12] F. Schaffalitzky, A. Zisserman, Viewpoint invariant texture matching and wide baseline stereo, in: Proceedings of the European Conference on Computer Vision, 2001.

[13] F. Schaffalitzky, A. Zisserman, Multi-view matching for unordered image sets, in: Proceedings of the European Conference on Computer Vision, 2002.

[14] M. Lourakis, S. Halkidis, S. Orphanoudakis, Matching disparate views of planar surfaces using projective invariants, Image and Vision Computing 18

(9) (2000) 673–683.

[15] B. Herbert, F. Vittorio, V .G . Luc, Wide-baseline stereo matching with line segments, in: Proceedings of the International Conference on Computer Vision and Pattern Recognition, 2005.

[16] C. Schmid, A. Zisserman, The geometry and matching of lines and curves over multiple views, International Journal of Computer Vision 40 (3) (2000)

1999–1233.

[17] Y. Deng, X.Y. Lin, A fast line segment based dense stereo algorithm using tree dynamic programming, in: Proceedings of the European Conference on Computer Vision, 2006.

[18] K. Mikolajczyk, A. Zisserman, C. Schmid, Shape recognition with edge-based features, in: Proceedings of the British Machine Vision Conference, 2003.

[19] C. Orrite, J.E. Herrero, Shape matching of partially occluded curves invariant under projective transformation, Computer Vision and Image Understanding 93 (1) (2004) 34–64.

[20] J. Canny, A Computational approach to edge detection, IEEE Transactions On Pattern Analysis and Machine Intelligence 8 (1986) 679–698.

[21] K. Mikolajczyk, C. Schmid, An affine invariant interest point detector, in: Proceedings of the European Conference on Computer Vision, 2002.

[22] K. Mikolajczyk, C. Schmid, Scale and affine invariant interest point detectors, International Journal of Computer Vision 60 (1) (2004) 63–86.

[23] K. Mikolajc zyk, T. Tuytelaars, ect, A comparison of affine region detectors, International Journal of Computer Vision 65 (1–2) (2005) 43–72.

[24] Web: .

作者简介—FUCHAO HU是中国科学院自动化研究所的一位教授。他的研究方向

为包括摄像机标定、三维重建、活动视觉、和图像建模、渲染在内的计算机视觉领域。

作者简介—ZHIHENG WANG 是中国科学院自动化研究所的博士候选人。他于2004年在北京理工大学获得B.S. 学士学位。他的研究方向为特征提取和图像匹配。

作者简介—XUGUANG WANG是中国科学院自动化研究所的博士候选人。他分别于2003和2005年在河北大学获得B.S. 学士学位和硕士学位。他的研究方向为特征提取和图像匹配

特征向量场和特征匹配

F.C. Wu*, Z.H. Wang, X.G. Wang

模式识别国家重点实验室,中国科学院自动化研究所,北京100190,中国 文章历史:

2008年10月22日收到稿件;

2010年2月2日收到修订后的稿件;

2010年5月2日收录。

摘要:

本文中,我们提出基于图像梯度内、外积的图像特征向量场。这个特征向量场有效地表示了包括拐角和大曲率边缘点在内的图像边缘和特征点。使用它就可以为点匹配和曲线匹配构建一些新颖的描述符。这些描述符对于欧氏变换和线性强度变化都有不变性。实验结果表明,对小图像仿射变换、JPEG 压缩和非线性强度变化也有良好的适应性。

2010 Elsevier Ltd.保留所有权利。

关键字:内积,外积,特征匹配,特征描述。

1 引言

包括点匹配和曲线匹配的特征匹配在许多如图像定位、三维重建、对象识别和视频理解的计算机视觉课题中扮演着重要的角色。近年来,我们在特征匹配领域已经有了重大进展,并且提出了大量算法。下面,简要地回顾一下文献中一些相关方法。

点匹配:点匹配方法主要分为两类:基于强度分布的方法和基于梯度分布的方法;且都使用描述符来表示局部图像区域中的强度分布或梯度分布。交叉相关

[1-3]是一个基于强度分布的经典描述符,而旋转图像[4]的描述符则要更加出众。在基于梯度分布的描述中,由Lowe[5]提出的尺度不变特征变换(SIFT )是最著名的一个。之后[5],又有了许多相似的变体,如前后形态关系[6]、GLOH[7]和

SURF[8]等。除了上述两种主要类型,文献中也有介绍一些其他技术,像局部喷射[9]、可操作滤波器[10]、不变矩[11]和复杂滤波器[12,13]。Mikolajczy 和Schmid[7]对这些主流描述符在真实图像上做了评估,并得出以下结论:第一,这些描述符表现的性能就是一个独立的特征检测器;其次,基于SIFT 的描述符在多维描述符中效果最好。最后,最好的低维描述符是梯度矩和可操作滤波器。

曲线匹配:近年来,相对于点匹配,曲线匹配(包括线性匹配)一直进展不大。到目前为止,只有少数曲线匹配方法在文献提出。对于平面图像,Lourakis et al.[14]提出了对于线性匹配使用“2线+2点”射影不变量的方法,Herbert et al. [15]提出了一种彩色图像中的自动匹配方法。这种方法的主要缺陷在于它对颜色信息的严重依赖。当色彩中有强烈的不同时可以区别,但当颜色特征不鲜明时,例如灰度图像或遥感图像,就会区分不出来。Schmid 和Zisserman[16]应用几何约束(对极几何、单应参数系和曲线曲率)和互相关来进行线性匹配和曲线匹配。由于更多的几何信息可用于消除含糊不清的地方,还可以应付更显著的摄像机运动,Deng 和Lin [17]提出的分组匹配方法更有优势。然而,它往往具有很高的复杂性,而且对线拓扑连接和不确定端点有一定的灵敏性。通过总结SIFT 点描述符,Mikolajczyk et al. [18]也提出了曲线描述符,Orrite 和Herrero [19]提出了在射影变换下闭合曲线匹配部分连续Hausdorff 距离不变。大多数曲线匹配的现有方法或要求初始条件,或限于特定场景,比如图像或平面场景。

本文中,使用图像梯度内、外积介绍了表示图像边缘和特征点包括高曲率拐角与边缘点在内的图像特征向量场。然后,在已提出的特征向量场的基础上,构建了若干对于点匹配与曲线匹配,图像欧式变换和线性强度变化不变的新颖描述符。这些描述符很容易构建,只需要计算支持区域子区域中定义的特征向量的均值和标准差。实验表明,该描述符对于图像仿射失真、JPEG 压缩和非线性强度变化是健全的,并且有良好的适应性。

本文组织结构如下所示。第2部分介绍内、外相关性,并定义了图像的特征向量场。第3部分详细阐述了如何构建特征匹配的描述符。第4部分记录了实验结果,第5部分对特征向量场和描述符作了一些讨论,第6部分则是总结全文。

2 特征向量场

2.1 内积和外积

本文所使用的图像梯度为高斯梯度,点x 处的梯度可表示为? f (x ) (f x (x ), f y (x )) ,传统方式上,两个梯度的内、外积可定义为

f y (x ) f y (y )

f y (x ) f x (y ) 蜒f (x ) o f (y ) =f x (x ) ? f x (y ) 奄f (x ) ? f (y ) f x (x ) ? f y (y ) (2.1) (2.2)

在几何学中,外积是平行四边形由两个梯度Ñf (x ) 和Ñf (y ) 指向的区域,由于下面

奄f (x ) ? f (y ) 炎f (x ) f (y ) sin q (2.3) 下面的方程式表明了内、外积之间的关系:

奄f (x ) ? f (y ) 蜒f (x ) o R p /2f (y ) (2.4) 这里R p /2是p /2的旋转。

不难证明,内、外积对于图像变换有以下性质:

(1)对于欧式变换g (x ⅱ) =f (x )(x =Rx +t ) ,

蜒g (x ⅱ) o g (y ) =蜒f (x ) o f (y ), 奄g (x ⅱ) ? g (y ) 奄f (x ) f (y ) (2.5)

(2)对于尺度变换g (x ⅱ) =f (x )(x =s x ) ,

蜒g (x ⅱ) o g (y ) =(1/s 2) 蜒f (x ) o f (y ),

奄g (x ⅱ) ? g (y ) (1/s 2) 奄f (x ) f (y ) (2.6)

(3)对于仿射变换g (x ⅱ) =f (x )(x =Ax +t ) ,

奄g (x ⅱ) ? g (y ) det 2(A -1) 籽f (x ) 傺f (y ) (2.7)

(4)对于线性强度变换g (x ) =a f (x ) +b ,

蜒g (x ) o g (y ) =a 2蜒f (x ) o f (y ), 奄g (x ) ? g (y ) a 2奄f (x ) f (y ) (2.8)

2.2 特征向量场 内相关:使W e (x ) ={y :y -x e },它是一个中心为x ,半径为e 的圆形区域。点x 到W e 的正负内相关可定义为

Ip +x =

Ip -x =y i 蜽å(|蜒f (y i ) o f (x ) |+蜒f (y i ) o f (x )) /2 e (2.9) (2.10)

y i 蜽å(|蜒f (y i ) o f (x ) |-蜒f (y i ) o f (x )) /2 e

下面这个向量:

V Ip (x ) =(I p +(x ), I p -(x )) (2.11) 称为点x 到W e 的正负内相关。

图1 内相关 a) 输入图像 b) 正内相关 c) 负内相关 d) 内相关的模

图1显示了图像内相关的分布。(a )是输入图像,(b )是正内相关,(c )是负内相关,(d )是内相关的模,并定义为Ip (x ) =(I p 2

+(x ) +I p 2

-(x )) 1/2。从图上可以

看出,正内相关对图像边缘有鲜明的反映,而负内相关对高曲率的边缘点有鲜明的反映;因此,内相关的模很好地反映了图像边缘。从而,我们可以考虑用内相关的模衡量边缘点,即沿梯度方向内相关模的最大值被定义为边缘点。

外相关:同样,因为图像梯度的外积,我们还可以定义外相关。点x 到W e 的正负外相关可定义为

Ep +x =

Ep -x =y i 蜽å(|奄f (y i ) ? f (x ) |奄f (y i ) f (x )) /2 e (2.12) (2.13)

y i 蜽å(|奄f (y i ) ? f (x ) |奄f (y i ) f (x )) /2 e

下面这个向量:

V Ep (x ) =(E p +(x ), E p -(x )) (2.14)

称为点x 到W e 的正负外相关。

图2 外相关 a) 输入图像 b) 正外相关 c) 负外相关 d) 外相关的模

图2显示了图像外相关的分布。(a )是输入图像,(b )是正外相关,(c )是负外相关,(d )是外相关的模,并定义为Ep (x ) =(E p 2

+(x ) +E p 2

-(x )) 1/2。正、负外

相关都对图像拐角和高曲率的边缘点有鲜明的反映,并且外相关的模很好地反映了它们。因此,我们可以使用外相关的模衡量特征点,并将其局部最大值作为特征点的定义。

图3 边缘检测和点检测 a) 输入图像 b) 内(外)相关的模 c) 检测边缘(特征点) 图3显示了一个使用内、外相关进行图像边缘检测和特征点检测的例子。(a )是输入图像,(b )是正(外)相关的模,(c )是检测边缘(特征点)。

特征向量场:在定义了内、外相关后,由每个图像的一个4维向量,点x 可以推出

FV (x ) =(V Ip (x ), V Ep (x )) R 4 (2.15)

由于图像的边缘和特征点是两个最重要的图像特征,矢量FV (x ) 被称为点x 的特

征向量,向量场F (I ) ={FV (x ) |x I }被称为图像I 的特征向量场。

从图像变换的内、外积性质,对于特征向量场,我们有以下属性::

(1)对于欧式变换g (x ⅱ) =f (x )(x =Rx +t ) ,

FV g (x ¢) =FV f (x ) (2.16)

(2)对于尺度变换g (x ⅱ) =f (x )(x =s x ) ,

FV g (x ¢) =(1/s 2) FV f (x ) (2.17)

(3)对于仿射变换g (x ⅱ) =f (x )(x =Ax +t ) ,

g g V Ep (x ¢) =det 2(A -1) V Ep (x ) (2.18)

(4)对于线性强度变换g (x ) =a f (x ) +b ,

FV g (x ) =a 2FV f (x ) (2.19)

3 特征描述

在本部分中,特征向量场用于构建点匹配和曲线匹配的描述符。

3.1 点描述 使W r (x ) ={y |y -x r }为一个特征点为x ,半径为r 的圆形邻域。为了考虑邻域W r 内特征向量的统计特性,我们把W r 分为子区域R 1, R 2, L , R M 。通过计算子

区域R i 内特征向量的均值和标准差,我们获得了两个4维向量。

m i (x ) =1

#R i 邋FV (x ), sd (x ) =i x 挝R i (3.1)

使m (x ) =(m 1(x ), m 2(x ), K m M (x )), sd (x ) =(sd 1(x ), sd 2(x ), K , sd M (x )) (3.2) 分别标准化m (x ) 和sd (x ) 为单位模,幷连接成一个向量,我们可以获得一个8M 维向量。

MSDP (x ) =(m (x ) sd (x ) , ) R 8M

m (x ) sd (x ) (3.3)

这个向量被称为点x 的均值—标准差描述符,记为MSDP 。

根据W r 的不同划分,我们可以得到不同的MSDP 描述符。在本文中,我们认为只有以下三种划分:

R-MSDP 描述符:如下划分邻域W 为r M 个环:R i ={y |r (i -1) /M

R-MSDP 描述符。

S-MSDP 描述符:如下划分邻域W M 个等距扇形:r 为

S i ={y |2p (i -1) /M +q main

X[5]的主要方向。如此划分的MSDP 描述符称为S-MSDP 描述符。

RS-MSDP 描述符:邻域W r 被同时分为M 个环和N 个扇形,从而我们得到MN 个子区域。如此划分的MSDP 描述符称为RS-MSDP 描述符。

由等式(2.16)和(2.19),我们可以证明,所有这三种描述符,R-MSDP ,S-MSDP 和RS-MSDP 对图像欧氏变换和线性强度变换有不变性。在本文的实验中,我们设定r=16,并且只低维使用这三种MSDP 描述符所示,如图4所示,这分别是64维R-MSDP 描述符(R-MSDP64),64维S-MSDP 描述符(S-MSDP64)和64维RS-MSDP 描述符(RS-MSDP64)。

图4 本文中的三种MSDP 描述符

3.2 曲线描述

支持区域:为了描述曲线C ,需要先定义一个支持区域。假设C 由N 个点组成,记为C ={x 1, x 2, L , x N }。对于每一个x i ÎC ,中心在这里,大小为m(2n+1)m,沿点x i 梯度方向的矩形区域,就是支持区域。如图所示,图5中的矩形区域RT i ,

(C ) 。

图中所有的RT i 就是C 的支持区域,记为W

图5 曲线支持区域和分区

为了更详细地表征支持区域,每一个RT i 被分为大小同为m ´m 的(2n+1)个子区域,并且这些子区域记为RT ij , j =1,2, L ,2n +1,方向是梯度方向d i ,因此,我

们对于RT i 可以获得一组有序子区域。

OS i ={RT i 1, RT i 2, L , RT i (2n +1) } (3.4) 定义

R j =? i N =1RT ij (j 1,2, L ,2n +1) (3.5)

(C ) 有序组OS i 所有第j 列元素。 这是我们得到的支持区域W

W (C ) = 2n +1

i =1R i (3.6)

(C ) 的分区具有旋转不变由于在有序分区RT i 使用了梯度方向d i ,支持区域W

性。基于支持区域和它的分区,使用上一部分介绍的特征向量场可以构建两种曲线描述。

MSDC 描述符:假设我们有图像的特征向量场。基于分区(3.6),首先计算每个分区R i 中特征向量的均值和标准差。

m i =1

#R i 邋FV (x ), sd x 挝R i i =R 4, i 1,2, L ,2n +1 (3.8)

然后,一个8(2n+1)维向量可以定义为

MSDC (C ) =(m (C ) sd (C ) , ) R 8(2n +1) m (C ) sd (C ) (3.9) 且m (C ) =(m 1, m 2, L , m 2n +1) ,sd (C ) =(sd 1, sd 2, L , sd 2n +1) 。向量MSDC 被称为曲线C 的均值—标准差描述符。

MSD 2描述符:这里还有另一种曲线描述是基于MSDP 构建的。对于每一个点x i ? C , i 1,2, L , N ,计算它的MSDP 描述符:p i =MSDP (x i ) R 8(2n +1) ,且获得一组8(2n+1)维向量。

然后使

1N (C ) =邋p i , sd (C ) =N i =1 (3.10)

因而,一个16(2n+1)维向量可以定义

MSD 2(C ) =((C ) sd (C ) , ) R 16(2n +1) (3.11)(C ) sd (C )

这种描述称为MSD 2符。

很容易证明,无论MSDC 还是MSD 2描述符对于图像欧氏变换和线性强度变化都有不变性。在本文的实验中,我们设置m=5,n=4,相应的MSDC 和MSD 2描述符分别是72和144维,记为MSDC72和MSD 2144。

4 实验结果

4.1 点匹配

在这部分中,我们在真实图像上测试R-MSDP64,S-MSDP64和RS-MSDP64描述符的性能,并将它们与SFIT 描述1符作比较。匹配性能评估的标准是相同精度[7]下的匹配数目。匹配方法和标准就像描述符和NNDR[5]之间。

在下面图像旋转的实验中,用RANSAC 技术计算对极几何来区分匹配的对错。在其他实验中,用提供的单应[24]来检查每一个匹配的正确性。这里只有

Harris 点的匹配结果。根据大量图像的实验,其他种类特征点的匹配结果与Harris 点很相似,如LOG 点和本文中用外相关的模定义的特征点。

图6 图像旋转 左:使用的图像对 右:匹配结果

图像旋转:图6(左)是旋转的摄像头获得的图像对。图6(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。从图中我们可以看到:R-MSDP64描述符优于SIFT 描述符,而S-MSDP64,RS-MSDP64和SIFT 描述符性能几乎相同。结果表明,MSDP 描述符可以根据图像旋转得到完美的结果。

图7 图像仿射 左:使用的图像对 右:匹配结果

图像仿射:7(左)是仿射失真的图像对[24],图7(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。实验结果表明,SIFT 描述符在这些描述中是性能最好的,S-MSPD64和RS-MSDP64比SIFT 描述符稍差,R-MSDP64描述符虽说是四中描述中最差的,但仍可以提供较好的结果。这个结果表明,我们的MSDP 描述符在仿射失真下可以提供良好的性能。

非线性强度变换:图8(左)是非线性强度变换的图像对[24],图8(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。从图中我们可以看到,SIFT 描述符在这些描述中是性能最好的,但所有的MSDP 描述符都可以提供较好的结果。这个结果表明,我们的MSDP 描述符对非线性强度变化有良好的适应性。

图8 非线性强度变化 左:使用的图像对 右:匹配结果

图9 JPEG压缩 左:使用的图像对 右:匹配结果

JPEG 压缩:9(左)是JPEG 压缩的图像对[24],图9(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。从图中我们可以看到,RS-MSDP64和SIFT 描述符表现相似,S-MSDP64描述符的性能非常接近SIFT 描述符,R-MSDP64描述符的性能虽然是最差的,但也提供了较好的结果。这个结果表明,我们的MSDP 描述符对JPEG 压缩有良好的适应性。

图10 噪声 左:使用的图像对 右:匹配结果

噪声:图10(左)有噪声的图像对,其中给第二幅图像加了0.02级的椒盐噪声,图10(右)为使用R-MSDP64,S-MSDP64,RS-MSDP64和SIFT 描述符得到的匹配结果。结果表明,RS-MSDP64描述符在这些描述中是性能最好的,S-MSDP 和SIFT 描述符性能相似,而R-MSDP 描述符则性能最差。结果表明,MSDP 描述符对图像噪声有良好的适应性。

4.2 曲线匹配

在这部分中,我们测试曲线描述在真实图像上的性能。匹配性能评估的标准是匹配和正确匹配的数目。每一个匹配由人或被视为正确,或错误。Canny 边缘检测提取图像中的曲线[20],长度小于20像素的曲线都将被摈除。匹配措施和标准就像描述符和NNDR 之间。在所有实验中NNDR 的门限设为0.8。这里我们只提供使用MSDC72描述符得到的匹配结果。根据大量图像的实验得到,MSD 2144描述符的性能比MSDC72稍好。

图11 图像旋转 左:使用的图像对 右:曲线匹配:92,错误:5

图像旋转:图11(左)是旋转的摄像头获得的图像对。在这两个图像中,分别提取269个曲线和303个曲线。图11(右)为使用MSDC72描述符得到的匹配结果。92个曲线是匹配的,但5个匹配是不正确的。结果表明,MSDC72描述符可以在图像旋转时有非常好的性能。

图12 图像仿射 左:使用的图像对 右:曲线匹配:71,错误:5

图像仿射:12(左)是仿射失真的图像对[26]。在这两个图像中,分别提取313个曲线和354个曲线。图12(右)为使用MSDC72描述符得到的匹配结果。71个曲线是匹配的,但5个匹配是不正确的。结果表明,MSDC72描述符可以在图像仿射失真时有良好的性能。

图13 非线性强度变化 左:使用的图像对 右:曲线匹配:54,错误:5

非线性强度变化:使用的图像为图13(左)中的两个图像。在这两个图像中,分别提取157个曲线和92个曲线。图13(右)为使用MSDC72描述符得到的匹配结果。52个曲线是匹配的,但5个匹配是不正确的。结果表明,MSDC72描述符对非线性强度变化有良好的适应性。

图14 JPEG压缩 左:使用的图像对 右:曲线匹配:59,错误:7

JPEG 压缩:使用的图像为图14(左)中的两个图像。在这两个图像中,分别提取224个曲线和245个曲线。图14(右)为使用MSDC72描述符得到的匹配结果。59个曲线是匹配的,但7个匹配是不正确的。结果表明,MSDC72描述符对JPEG 压缩有良好的适应性。

图15 阻塞 左:使用的图像对 右:曲线匹配:17,错误:0

阻塞:使用的图像为图15(左)中的两个图像。这两个图像由于摄像头的角度的变化,在相应的线之间平均存在着30%的阻塞,分别提取37个线和32个线。 图15(右)为使用MSDC72描述符得到的线匹配结果,其中17个线段匹配,且没有错误。结果表明,MSDC72描述符对局部阻塞有良好的适应性。 5 讨论

本文的主要贡献是两方面:(1)介绍了图像的特征向量场(2)基于特征向量场,用非常简单的的方式构建点匹配和曲线匹配的描述符。在本部分中,将对特征向量场和描述符进行一些讨论。

内、外积之间的差别:考虑图像中的一个点,如果它邻域中样本的梯度方向与它的梯度方向匹配,这个图像点则有一个大的内积相关。然而,在这种情况下,其外积将几乎没有影响。相比之下,当这些样本的梯度方向垂直于中心点时,外积相关将达到最大。换句话说,内积相关提供了一种在与暗示着边缘特征的中心点近似的局部区域内测量样品梯度方向的方法,而外积相关则提供了一种在与中心点不一样的局部区域内测量样品梯度方向的方法,并表明了拐角特征。

将特征向量场与标准梯度做一下对比:标准梯度只包含了强度、方向局部变化的信息,并主要针对图像边缘特征的信息,而本文中提到的的内、外积则分别表示了局部图像的边缘和拐角结构信息。因此,内、外积结合起来可以提供比标准梯度更多的局部图像结构信息。通过实验可以看出,在相同的区域划分方案下,只基于内积的描述符可以提供与基于标准梯度的描述符相媲美的性能,而基于特征向量场的描述符的性能则明显优于基于标准梯度的描述符。

计算效率:归一化互相关(NCC )和互相关(CC )是两个经典且简单的特征点匹配方法。这里只分析一下CC 和我们的描述符的计算复杂性。假设在两幅图像中的特征点数目分别为n 1, n 2,并将使用CC 计算相似度的时间,计算一个描述的时间,计算两个描述之间距离的时间分别记为t C , t D 和t M 。然后,使用CC 和我们的方法消耗的时间可分别表示为T 1=t C n 1n 2和T 2=t D (n 1+n 2) +t M n 1n 2。为了获得良好的匹配结果,CC 邻域的大小通常大于16⨯16,由于所有的点描述都为

64维,从而t C >t M 。因此,我们方法的计算复杂度低于CC 。对大小为2048⨯1576的图像的实验表明,使用R-MSDP ,S-MSDP ,RS-MSDP ,NCC 和CC 的平均时间消耗分别为3.2,3.5,3.1,5.5和4.5秒。

限制:限制我们工作的主要有两个方面:第一,对仿射/投影失真没有不变性。出现这种情况的主要原因是,所有用于构建描述的子区域具有相同的大小,但仿射/投影变换必须与大小变化有一定的关联。虽然将特征支持区域分割成更小的子区域的方法可以使投影失真的描述符更加强烈,性能将随失真增强迅速下降。图16给出了不同观点下线匹配的结果。(a)为观点变化时正确匹配的曲线,(b)显示了正确的比例曲线。这两个图都是由4个图像对获得的。从图中可以看到,当观点变化小于30,我们的描述符可以提供可靠的高精度(一般高于90%)匹配结果。当失真度更高时,只可以得到少数低精度匹配。其他限制我们方法的还有,由于本文中所描述的工作只允许构建一个单一尺度的描述符,对尺度变化没有不变性。

图16 不同观点变化下的线匹配结果 (a):正确匹配 (b):匹配比例

我们今后的工作将是解决这些限制,使得我们的描述符更好地解决仿射/投影失真和规模不变。可能的方面包括:使用比例空间技术[5]构建描述符使得描述符尺度不变;使用仿射协变区域的概念,如Harris-Affine 区域和Hessian-Affine 区域[21-23],只使用外相关获得的描述符是仿射不变的,因为外部相关性是仿射变换的下一个决定性因素(见式(2.14))。

6 结论

根据图像梯度的内、外积,我们可以建立一个有效表示图像边缘和包括拐角、大曲率边缘点的特征点的特征向量场。基于特征向量场,我们构建了一些新颖的描述符,且对欧式变换和强度变化的特征匹配有着不变性。广泛的实验表明,这些描述符对小图像的仿射变换,JPEG 压缩和非线性强度变化有良好的适应性。本文提出的特征向量场只适用于特征匹配,但我们相信,它将也可以用于其他图像分析和理解应用。

7 致谢

我们要感谢一些匿名评论者的启发性意见和建议。此外,我们非常感谢来自于中国国家自然科学基金(60835003)和中国国家高技术研究发展计划(2006AA01Z116)的支持。

8 参考文献

[1] H. Moravec, Rover visual obstacle avoidance, in: Proceedings of the International Joint Conference on Artificial Intelligence, 1981.

[2] Z. Zhang, R. Deriche, O. Faugeras, Q.T. Luong, A robust technique for matching two un-calibrated images through the recovery of unknown epipolar geometry, Artificial Intelligence 78 (1995) 87–119.

[3] C. Schmid, R. Mohr, Local grayvalue invariants for image retrieval, IEEE Transactions On Pattern Analysis and Machine Intelligence 19 (5) (1997) 530–534.

[4] A. Johnson, M. Hebert, Using spin images for efficient object recognition in cluttered 3D scenes, IEEE Transactions On Pattern Analysis and Machine Intelligence 21 (5) (1999) 433–449.

[5] D.G. Lowe, Distinctive image feature from scale invariant keypoint, International Journal of Computer Vision 60 (2) (2004) 91–110.

[6] S. Belongie, J. Malik, J. Puzicha, Shape matching and object recognition using shape contexts, IEEE Transactions On Pattern Analysis and Machine Intelligence 24

(4) (2002) 509–522.

[7] K. Mikolajczyk, C. Schmid, A performance evaluation of local descriptors, IEEE Transactions On Pattern Analysis and Machine Intelligence 27 (10) (2005) 1615–1630.

[8] H. Bay, T. Tuytelaars, L.V . Gool, SURF: Speeded Up Robust Features, in: Proceedings of the European Conference on Computer Vision, 2006.

[9] L. Floract, B. Haar Romeny, J. Koenderink, M. Viergever, General intensity transformations and second order invariants, in: Proceedings of the 7th conference on Image Analysis, 1991.

[10] W. Freeman, E. Adelson, The design and use of steerable filers, IEE E Transactions On Pattern Analysis and Machine Intelligence 13 (9) (1991) 891–960.

[11] L. Gool, T. Moons, D. Ungureanu., Affine/photometric invariants for planar intensity patterns, in: Proceedings of the European Conference on Computer

Vision, 1996.

[12] F. Schaffalitzky, A. Zisserman, Viewpoint invariant texture matching and wide baseline stereo, in: Proceedings of the European Conference on Computer Vision, 2001.

[13] F. Schaffalitzky, A. Zisserman, Multi-view matching for unordered image sets, in: Proceedings of the European Conference on Computer Vision, 2002.

[14] M. Lourakis, S. Halkidis, S. Orphanoudakis, Matching disparate views of planar surfaces using projective invariants, Image and Vision Computing 18

(9) (2000) 673–683.

[15] B. Herbert, F. Vittorio, V .G . Luc, Wide-baseline stereo matching with line segments, in: Proceedings of the International Conference on Computer Vision and Pattern Recognition, 2005.

[16] C. Schmid, A. Zisserman, The geometry and matching of lines and curves over multiple views, International Journal of Computer Vision 40 (3) (2000)

1999–1233.

[17] Y. Deng, X.Y. Lin, A fast line segment based dense stereo algorithm using tree dynamic programming, in: Proceedings of the European Conference on Computer Vision, 2006.

[18] K. Mikolajczyk, A. Zisserman, C. Schmid, Shape recognition with edge-based features, in: Proceedings of the British Machine Vision Conference, 2003.

[19] C. Orrite, J.E. Herrero, Shape matching of partially occluded curves invariant under projective transformation, Computer Vision and Image Understanding 93 (1) (2004) 34–64.

[20] J. Canny, A Computational approach to edge detection, IEEE Transactions On Pattern Analysis and Machine Intelligence 8 (1986) 679–698.

[21] K. Mikolajczyk, C. Schmid, An affine invariant interest point detector, in: Proceedings of the European Conference on Computer Vision, 2002.

[22] K. Mikolajczyk, C. Schmid, Scale and affine invariant interest point detectors, International Journal of Computer Vision 60 (1) (2004) 63–86.

[23] K. Mikolajc zyk, T. Tuytelaars, ect, A comparison of affine region detectors, International Journal of Computer Vision 65 (1–2) (2005) 43–72.

[24] Web: .

作者简介—FUCHAO HU是中国科学院自动化研究所的一位教授。他的研究方向

为包括摄像机标定、三维重建、活动视觉、和图像建模、渲染在内的计算机视觉领域。

作者简介—ZHIHENG WANG 是中国科学院自动化研究所的博士候选人。他于2004年在北京理工大学获得B.S. 学士学位。他的研究方向为特征提取和图像匹配。

作者简介—XUGUANG WANG是中国科学院自动化研究所的博士候选人。他分别于2003和2005年在河北大学获得B.S. 学士学位和硕士学位。他的研究方向为特征提取和图像匹配


相关内容

  • 图像特征点提取及匹配算法研究_曹煦
  • INTELLIGENCE 科 技 天 图像特征点提取及匹配算法研究 保定职业技术学院 曹 煦 潘 军 摘 要:本文提出一种新的H/S(Harris/SIFT)特征点提取算法,基于相似三角形原理,引入基线三角形组及复数空间,提出一种改进相似三角形特征点匹配方法,使传统方法被动搜索三角形变为主动构造三角 ...

  • 2DPCA-SIFT:一种有效的局部特征描述方法
  • 第40卷第4期2014年4月 自动化学报ACTA AUTOMATICA SINICA Vol. 40, No. 4April, 2014 2DPCA-SIFT:一种有效的局部特征描述方法 颜雪军1 赵春霞1 袁夏1 摘要PCA-SIFT (Principalcomponent analysis –s ...

  • 一种图像相似度匹配的算法
  • 2012年第17期SCIENCE &TECHNOLOGY INFORMATION ○高校讲坛○科技信息 一种图像相似度匹配的算法 潘 (1.武汉理工大学自动化学院湖北武汉 李佩2 430082:2. 武汉大学电子信息学院 岱1 湖北武汉430070) [摘要]提出了一种在matlab 中计算 ...

  • 基于多尺度几何分析与核匹配追踪的图像识别
  • 第20卷第6期 2007年12月 模式识别与人工智能 PR V01.20Dec No.62007 8LAI 基于多尺度几何分析与核匹配追踪的图像识别* 缑水平 焦李成 (西安电子科技大学智能信息处理研究所西安710071) 摘要提出一种图像特征提取与识别方法.该方法利用图像多尺度几何分析中的Cont ...

  • 化学主题网络爬虫的设计和实现
  • 化学主题网络爬虫的设计和实现 夏诏杰梁春燕郭力 (中国科学院过程工程所多相实验室,北京100080) E-mail:zjxia@home.ipe.ac.cn 摘 要由于通用搜索引擎检索返回的结果过多.主题相关性不强以及随着人们对提供的各项信息服务的要求越来越 高,基于整个Web的信息采集越来越力不从 ...

  • 信息检索检索向量空间模型
  • 信息检索检索 向量空间模型 一:算法描述 在文本挖掘.搜索引擎应用中,文本的特征表示是挖掘工作的基础,它对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式.向量空间模型(VectorSpaceModel)是近年来应用较多的文本特征表示方法之一,它是由Ge ...

  • 基于音频比对的声纹识别技术
  • 第26卷第4期 佛山科学技术学院学报(自然科学版) 2008年7月 Jou rnal of Fo shan U n iversity (N atu ral Science Editi on ) 文章编号:100820171(2008) 0420001205. 26N o . 4V o l . 200 ...

  • 基于动态图像处理的可疑行为分析
  • 本科毕业设计论文 题目:基于动态图像处理的可疑行为分析 作者姓名 毛利洋 指导教师 王宪保 讲师 专业班级 电子信息工程0902 学 院 信息工程学院 提交日期 第1章 绪 论 1.1. 课题研究背景及意义 随着动态图像处理技术的发展,对人的行为分析技术也日渐完善.作为近年来计算机视觉领域最活跃的研 ...

  • 图像特征提取
  • 图像特征提取方法 特征提取是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征,其结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点.连续的曲线或者连续的区域. 常用的图像特征有颜色特征.纹理特征.形状特征和空间关系特征. 图1.图像特征分类及其方法 一.颜色特征 颜色特征是一种全 ...