一种通过离散余弦变换实现快速场景分类的方法

上传人:第*** 文档编号:33386943 上传时间:2018-02-15 格式:DOCX 页数:10 大小:854.37KB
返回 下载 相关 举报
一种通过离散余弦变换实现快速场景分类的方法_第1页
第1页 / 共10页
一种通过离散余弦变换实现快速场景分类的方法_第2页
第2页 / 共10页
一种通过离散余弦变换实现快速场景分类的方法_第3页
第3页 / 共10页
一种通过离散余弦变换实现快速场景分类的方法_第4页
第4页 / 共10页
一种通过离散余弦变换实现快速场景分类的方法_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《一种通过离散余弦变换实现快速场景分类的方法》由会员分享,可在线阅读,更多相关《一种通过离散余弦变换实现快速场景分类的方法(10页珍藏版)》请在金锄头文库上搜索。

1、2014 年 第七届国际图像与信号处理一种通过离散余弦变换实现快速场景分类的方法Ce Li1,2, Ming Li1, Meili Xiao1 Zhijia Hu1, Xiuxun Miao1, Zhengrong Pan11电气与信息工程学院 2工智能与机器人研究所兰州理工大学 西安交通大学兰州 730050,中国 西安 710049,中国摘要场景分类是计算机视觉中一个热点问题。在本文中,提出了一种基于离散余弦变换(DCT)域的新的快速场景分类方法。首先,我们将整个图像无重复地分割成同样大小的几个区域,在分成的 B * B 的每个子图像区域进行 DCT 变换。其次,通过三种方法扫描每个 DC

2、T 块上的 AC 系数。在 DCT 块中提取的特征向量,基于 AC 系数的相关性建模。最后,用之前得到的特征向量,使用一对支持向量机的训练分类器。实验结果表明,所提出的方法是有效的图像分类。索引词汇场景分类;离散余弦变换;方向性;多分辨率;压缩域。I.引言面对巨大的图像数据量,用传统的方法,如人工分类和标签变得不切实际。如何使计算机自动在不同的场景使用图像分类和标签,在计算机视觉领域中是一个非常重要的研究课题。场景分类的目的是试图建立低层次的特征描述和高层知识之间的关系,识别和解释场景的语义范畴。场景分类的方法主要包括两大类别。一种是直接提取低级别的特征,是利用底层特征到高层信息映射过程。根据

3、特征值的不同来源,这种分类方法可以分为全局特征和局部特征提取。全局特征主要包括 vailaya 的 1 的层次分类方法。是基于局部特征提取的分类方法第一次提出了 szununer 2 ,它没有独立的图像子块分类,使用多数表决分类器获得最终的结果,将图像分为室内和室外场景。另一种方法是基于中间模型的特点,这是建立低、中、高级分别对场景图像的语义表示。这种方法也可以分为两类。一种是基于在视觉词汇包 3 , 4 。评价要点图像中的第一个,然后定量局部描述表在关键点获得的视觉码表,统计图像视觉单词(直方图)的发生频率,最终建立图像的状态包。第二方法是基于中间语义。奥利瓦等人。 5 使报表的场景的内容结

4、合全局和局部图像场景的属性。描述从一组几个滤波器的输出能量的计算机。过滤Gabor 滤波器调谐到 8 个在 4 个不同的尺度。滤波器对输出每个 4 4 网格进行平均,。最后使用一种基于这些场景图像神经网络分类状态。现有的图像分类方法都是针对未压缩图像。然而,大多数互联网上的图像通常存储在压缩域如 JPEG。由于 JPEG 图像可以减少存储空间和大大提高下载速度,被广泛应用于网络图像。因此,建立一个可以应用到压缩域场景分类模型是非常必要的。为了提高分类系统的速度,我们提出了一种基于离散余弦变换(DCT)场景分类方法,它具有以下新的内容:1)可以大大的提高提取其高速的分类系统 DCT 系数其性能作

5、为场景分类的特征向量。II)可用于在不完全解码的 DCT 编码图像数据的 DCT 压缩域。,图像从压缩域特征向量可以得到直接。本文的其余部分组织如下。在第二部分所展现的是场景分类方法的细节描述。第三部分中给出了实验结果。最后的一部分是论文的结论。II.场景分类模型图 1:流程框架在本文中,提出的场景分类方法实施过程主要分为以下四步骤:i)将整个图像划分为无重复的同样大小的几个区域,用公式 B * B(B = i * 8 ,i = 1,2)在每个单独的子图像区域上做 DCT 变换;II)通过“Z”型、水平和垂直三种方式扫描每个 DCT块的 AC 系数,基于 DCT 块和 AC 系数之间的相关性建

6、模;III)通过第二步从 DCT 系数中提取特征向量;IV)用得到的特征向量,使用一个对多训练支持向量机分类器得到最终的分类结果。该场景的框架分类模型如图 1 所示。A. 二维 DCT 变换相应的二维逆 DCT 变换定义为:此处:原始图像建立的子图像块I建立的子图像块IIDCT变换水平扫描“Z”型扫描微分向量微分向量垂直扫描 微分向量特征向量SVM分类器F(u,v)表示的是 DCT 变换后的矩阵系数,f(i,j)表示的是 DCT 变换前的系数,(u,v),(i,j)是坐标矩阵系数。B. 基于 DCT 系数的特征提取图 2:在 8X8 的 DCT 块中 DC,MF,HF 的分布在现有的工程 7

7、, 8 表明,DCT 系数具有多分辨特性。DCT 系数的分布如图 2 所示。在图 2 从左上角到右下角不同地区的颜色对应的低频(LF) ,中频(MF) ,高频(HF)的 DCT 系数分别为 9 , 10 。在 88 块的 63 个 DCT 系数,由一个直流系数和交流系数组成。前几个低频系数包括大部分的能量,它们表示背景,图像轮廓。在 DCT 系数量化的过程中高频系数被忽略,因为他们几乎接近于零。在本文中,场景分类的特征向量是通过 DCT 块矢量中的 AC 系数差异获得的,目的是计算出矢量差获得11, 12的相关系数。场景分类模型所提出的方法的特征提取过程可以概括为:a)全局图像块:将整个图像分

8、为 M*M 个大小相同且不重复的块,其中 M=2i , i=1,2,3如图 3 中所示;图 3:构建全局图像块的例子。b)局部图像块的 DCT 变换:在 B*B 区域内的每个子图像块做 DCT 变换第一步除以B,B=i*8,i=1,2,3得到的 DCT 系数矩阵,具体过程如图 4 所示;c)提取 DCT 系数:在每个 DCT 块中通过“Z”型 13,水平,垂直三种方式扫描 AC系数,如图 5 所示(88 的 DCT 块为例,箭头的方向表示扫描序列)。分别提取第一个20AC 系数,得到三个一维向量 Vz,V h和 Vv(下标分别代表“Z”型扫描,水平扫描和垂直扫描);d)计算的有限差分向量:三个

9、一维向量 Vk,k=z ,h ,v,第一步分别按照公式(3)计算有限差分向量,得到三个一维有限差分向量 Dk,k=z,h,v, () = () ( + 1) (3)这里 i = 0,1.n-1,n 是所选择的低中频 AC 系数,.是积分算子, | . |是绝对值算子;d)计算在 DCT 块中在同一个子图像块中的有限差分向量:在所有 DCT 块中,在一个子图像块中的除以第一步,计算平均有限差分向量 ,k=z,h,v 相应的三种扫描方式。kD把三个平均有限差分矢量扫描方式在一个子图像块的级联,得到有限差分向量 B 的子图像块 b=cat( )k=z,h,v;kD f)获得特征向量:把所有一系列的子

10、图像块的差分向量为 featurevector=cat(b n) ,n=1,2.M*M( M*M 是整个图像的子图像块的数量) ,整个系统可以获取图像的M*M * 3 * 20 维特征向量。图 4:例如在局部图像块的 DCT 变换(a)原始图像;(b)M M 个子图像块;(c)在一个 BB 的大小子图像块的 DCT 系数块的数量。图 5:扫描 DCT 系数块的三种方式。 (一) “Z”型扫描;(b)局部的水平扫描;(c)局部垂直扫描。III 实验结果在本文中,实验使用场景图像数据库是奥利瓦和托拉尔瓦 5 提出的图像数据库,包含 2688 个真实场景图像。1472 自然场景,它们分别是:海滩(3

11、60 ) ,林(328) ,山(374) ,开放的国家(410 ) ,另外 1216 的合成场景图像,城市(308) ,公路(260 ) ,街道(292 ) , (356)高层建筑。图 6(a)和(b)图给出的是自然场景的一个例子,分别合成场景图像。此数据库中的所有图像的大小为 256256 色图像。实验结果环境是在Matlab7.0,CPU 是英特尔酷睿 i5 3.30GHz,RAM 是 4.00GB。图 6:在数据库中的样本图像。 (a)自然场景图像;(b)合成场景图像。A. 场景分类及相关参数的探讨图 7:在不同的核和训练样本中的分类精度。与先前得到的特征向量,使用一对训练支持向量机分类

12、器。无论是影响全局规模的变化和局部的粒度计算,在全局规模= 4 的特征向量,局部的粒度= 8。支持向量机的正则化核函数是通过交叉验证调整。分别选择50, 70,60 , 80,100,90,每一类随机图像作为训练样本,数据库中的所有其他图像作为测试样本。从五次随机训练和测试的平均分类精度评价结果。如图所示,在图中,我们可以看到,在每个训练样本的增加从 50 到 100 的图像的数量,提高了所有核的平均精度,使直方图交叉核具有最高的分类精度。因此,我们在 100 个固定的训练样本数中选择直方图交叉核函数。紧接着,讨论特征向量的影响在不同尺度和粒度对场景分类。我们提取特征向量在四尺度和四尺度。在我

13、们的实验中,我们选择 M = 1 2 4 8 和 B = 8 16 32 64。表一显示分类实验的详细结果,最好的分类结果为 M = 4,B = 8。因此 M = 4,B = 8是最好的选择。表一:不同规模、不同粒度下的分类结果图 8:在基于 DCT 系数的功能类别混乱的模式。被组织为场景如下: 1 海滩,2 森林,3 公路,4 市,5 山,6 开放的国家,7 街,8 高层建筑。选择 M = 4,B = 8,使用多个分类混淆矩阵方法的性能评价,这是许多语义类的分类性能,表的 X 轴代表预测场景类,而 Y 轴代表真实的场景分类。从图中,我们可以看到各种场景类之间的分类错误率保持在一个较低的水平。

14、其中,高层建筑现场取得了最高的分类精度,而最低的是户外场景。高层建筑现场主要包括垂直结构决定了其显著的方向特性,因此这类场景类中的小的变化;森林场景主要包括质地致密结构(叶),向上生长的树木,也实现了较高的分类精度以及高层建筑场景;相反,开放的国家有山,河,在场景树等,容易与数据库中的其他自然场景的困惑。此外,公路场景,户外场景和海岸的场景主要包括天空、道路,天空和草地,从上面的天空和大海的底部分别,他们对整个布局结构都是相似的,具有显着的水平能量和相同的观察大体尺寸,因此公路,开放的国家,海岸风光,有一定的错误分类,如图 8 所示,野外现场制作的最大误差率的海滩,他们分别是 15.77%和1

15、4.84%。此外,城市中含有大量的场景中的建筑物,容易混淆的高层建筑的场景。为了进一步提高分类精度,B = 8 的条件下,级联在 M = 1 2 4 8 14 矢量。分类结果如表二。我们可以从表二看出,级联后分类精度提高 1%左右。表二:特征向量级联分类结果B. 与其他方法相比利用所提出的方法的性能与奥利瓦和托拉尔瓦的空间包络 5 和 Itti 模型依据模型 15 在分类精度和分类速度比较。比较结果如表三所示。表三:在 OT 场景数据库中比较性能以及空间分类的依据,表层,DCT 变换,多尺度 DCT 变换如数据表 III 所示,所提出的方法取得了较好的分类结果。我们的分类方法速度显著高于其它两种方法。它大大提高了分类速度。所提出的方法的分类精度略低于空间包络的方法,但它比 ittis 依据分类方法明显。 IV 结论基于 DCT 系数的多分辨率特性,本文提出了一种 DCT 域中的快速的场景分类方法。这种方法首先进行分块 DCT 变换的场景图像,然后提取低频交流系数可以反映出图像的特征作为特征向量,最后使用 SVM 分类器做场景分类的特征向量。通过实验结果,我们可以看出,所提出的方法是有效的。 本文所提出的方法具有很强的大多数户外场景特征描述能力。特别是,海岸场景主要包括天空,海洋和海滩地区,开放的国家有大面积的草地,山,天空、河流,它们都属于户外场景,它在每个子区域

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号