文档详情

相似度测度总结汇总

cn****1
实名认证
店铺
DOCX
106.71KB
约33页
文档ID:446167281
相似度测度总结汇总_第1页
1/33

1相似度文献总结相似度有两种基本类别:(1) 客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如 对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说, 相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带 有一定的模糊性[13]1.1客观相似度客观相似度可分为距离测度、相似测度、匹配测度它们都是衡量两对象客观上的相近 程度客观相似度满足下面的公理,假设对象A与B的相似度判别为5 (4B),有:(1) 自相似度是一个常量:所有对象的自相似度是一个常数,通常为1,即5 (A, A) = 5 (B, B) = 1(2) 极大性:所有对象的自相似度均大于它与其他对象间的相似度,即5(A,B) <5(A,A)和5(A,B) <5(B,B)3) 对称性:两个对象间的相似度是对称的,即5(A,B) = 5(B,A)4) 唯一性:5 (A,B) = 1,当且仅当A = B1.1.1距离测度这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数设X = {x ,x,…,x },y = {y ,y,…,y }表示两个矢量,计算二者之间距离测度的具1 2 n 1 2 n体方式有多种,最常用的有:1.1.1.1 欧氏距离:Euclidean Distance-based Similarity最初用于计算欧几里德空间中两个点的距离,假设X,y是n维空间的两个点,它们 之间的欧几里德距离是:d(x,y) = ||x- y|| = ▼ (x. - y.)2 ()L i=1 」当x, y是两个直方图时,该方法可称为直方图匹配法。

可以看出,当n=2时,欧几里德距离就是平面上两个点的距离当用欧几里德距离表 示相似度,一般采用以下公式进行转换:距离越小,相似度越大 范围:[0,1],值越大,说明d越小,也就是距离越近,则相似度越大说明:由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关欧 氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差 异的分析优点:简单,应用广泛缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果1.1.1.2 曼哈顿距离,绝对值距离(街坊距离或Manhattan距离):原理:曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果同欧式 距离相似,都是用于多维数据空间距离的测度范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大说明:比欧式距离计算量少,性能相对高d3,y) = £ |x - y.| ()i=11.1.1.3 切氏(Chebyshev)距离(棋盘距离/切比雪夫距离):切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8 格中走一步,那么从棋盘中A格(x1,y1)走到B格(x2,y2)最少需要走几步d (x, y) = max |x - y | ()i 1 11.1.1.4 明氏(Minkowski)距离/闵可夫斯基距离:1/ md (x, y) = Y (x^ - y^)m ()L i=1 」可以看出,、、式实际上是式当m = 2,1,8的特殊情况。

在实际中较多地使用欧氏距离显然,在观测量的量纲取定的条件下,两个矢量越相似,距离d(•)就越小,反之亦然值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特征的判断依据,即改 变该特征对判断贡献的大小,严重的可造成错误分类这是因为改变特征矢量某分量的量纲, 进行比较的两个矢量的相应的两个分量的数值也将改变若变小,则其相应的特征在距离测 度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很 好地反映事实马氏(Mahalanobis)距离是不受量纲影响的1.1.1.5 马氏距离(Mahalanobis):马氏距离定义如下:设n维矢量,和匚是矢量集{x ,x….,x }中的两个矢量,它们的马氏距离d定义为 I J 1 2 nd2(x ,x ) = (x - y )V-1(x - y ) ()i j i i i i式中,V = -^-£(x -x)(x -x)',x = -Ex °V的含义是这个矢量集的协方差矩阵的统 n -1 i i n ii=1 i=1计量适用场合:1) 度量两个服从同一分布并且协方差矩阵为C的随机变量X与Y的差异程度2) 度量X与某一类的均值向量的差异程度,判别样本的归属,此时Y为类均值向量。

优点:1) 独立于分量量纲2) 排除了样本之间的相关性影响缺点:不同的特征不能差别对待,可能夸大弱特征1.1.1.6 汉明距离(Hamming Distance)在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数换 句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数例如:1011101与1001001之间的汉明距离是22143896与2233796之间的汉明距离是3toned”与“roses”之间的汉明距离是31.1.1.7 巴氏距离(Bhattacharyya)巴氏距离常用于计算直方图间相似度,定义如下:d [x, y ] = xBhattacharyya ii=1其中,x、y为归一化数据向量Bhattacharyya系数取值在0~1之间,越靠近1,表示两个X、模型之间相似度越高如果,x、y向量未归一化,则巴氏系数的计算定义为:dBhattacharyya(x, y) = 1-£±yi=1Ex .Eyi ii=1 i=1()1.1.1.8 Hausdorff 距离:Hausdorff距离(Hausdorff distance ,HD)是一种定义于两个点集上的最大最小距离,是描 述两组点集之间的相似程度的一种量度,x、y之间的Hausdorff距离定义为:H (尤,y) = max( h (尤,y), h( y, x)) ()式中,h(x, y) = max min ||x - y 11 为 x 到 y 的有向 Hausdorff 距离;x产 x y.ey ' jh(y,x) = maxminHx - y 11^ y到x的有向Hausdorff距离;|卜||为某种定义在点集x、yy. ey x.ex ' j上的距离范数。

常用的是欧几里得范数如果定义d = min|| P - yj |, d p = min||— x|| ( P表示空间中的任意点)则HausdorffB y ey ' x.ex '己 2距离可定义为H(x, y) = max(maxd ,max d ),这里称d ,dB分别为点集y和点集乂在空xex Xiyey 与 P间中的变化距离 ’ ’由于Hausdorff距离是度量两个点集之间最不匹配点的距离,因此它对远离中心的噪 声、漏检点都非常敏感,而这一点,在提取图像特征点集特征时使不可避免的为了克服这 个缺点,需要对Hausdorff距离的定义进行扩展1.1.1.9 改进的部分Hausdorff距离:为获得准确的匹配结果,Sim提出了改进的部分Hausdorff距离(LTS-HD),它是用距 离序列的线性组合来定义的:一 1y(x,y)= 丈 min||x — y||( i) ()i=1式中,k = |_ f x pJ,p为x内点的个数,f 1为一个属于[0,1]的百分数把点集x中的所 有点到点集y的距离按由小到大的顺序排列,将序号为广k的k个距离求和,再求平均所 以,该匹配方法不仅能消除远离中心的错误匹配点的影响,而且对零均值高斯噪声的消除能 力明显。

因袭,采用LTS-HD用于图像特征点集的匹配,力求在所有可能的变换空间中寻找 图像特征点集之间的最优变换,以便通过使LTS-HD最小化来获得最优匹配结果设g为变换空间T (通常由旋转矩阵R、平移变换向量t、尺度c等变换组成)中的一 个变换,则最优匹配变换g0满足M (x, y) = min H (x, gy)g0 geT1.1.1.10相关度距离常用于计算直方图间相似度,定义如下:A •〉i i()1.1.1.11卡方系数常用于计算直方图间相似度,定义如下:()d 3, j)=咒也42Chi- square x + Ji=1 i i(备注:引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士学位论文第一章,节)1.1.1.12 (未命名)常用于计算直方图间相似度,定义如下:() 其中,N表示图像颜色样点空间,比起前面几个计算公式,该式在给出图像相似度的计算中更 为直接,操作也更加简便备注:引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士 学位论文第一章,节)1.1.1.13直方图相交距离直方图相交距离是常用于颜色特征相似性度量的一种方法,常用于计算直方图间相似度。

如果有两幅图像x和丫,则它们的相交距离定义式如下:艺 min( f (X), f (Y))()i iS (x, Y) = ^=~~ %f (Y)i1.1.2相似测度这类测度是以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要,同样设X = {x ,x,…,x },y = {y ,y,…,y }1 2 n 1 2 n1.1.2.1 角度相似系数(夹角余弦)原理:多维空间两点与所设定的点形成夹角的余弦值范围:[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮 尔森相似度是一样的,所以皮尔森相似度值也是数据中心化后的余弦相似度定义:矢量之间的相似度可用它们的夹角余弦来度量两个矢量x和y的夹角余弦定义如 下:、 x' y x' y ,、COS(x, y)- 一 -- ()llxll •! Ml [ (xx)( yy) ]1/2与欧几里德距离类似,基于余弦相似度的计算方法也是把特征点作为n-维坐标系中的 一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个特征点之间的相似度 值就是两条直线(向量)间夹角的余弦值。

因为连接代表特征点与原点的直线都会相交于原 点,夹角越小代表两个特征越相似,夹角越大代表两个特征的相似度越小同时在三角系数 中,角的余弦值是在[-1, 1]之间的,0度角的余弦值是1,180角的余弦值是-1借助三维 坐标系来看下欧氏距离和余弦相似度的区别:从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标 (即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体 现在方向上的差异,而不是位置如果保持A点的位置不变,B点朝原方向远离坐标轴原点, 那么这个时候余弦相似度cos是保持不变的,因为夹角不变,而A、B两点的距离显然在发 生改变,这就是欧氏距离和余弦相似度的不同之处应用:Cosine相似度被广泛应用于计算文档数据的相似度及数据挖掘类工作:特点:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大 小相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上它 对于坐标系的旋转和尺度的缩放是不变的(因矢量的长度已规格化),但。

下载提示
相似文档
正为您匹配相似的精品文档