由排他性分类器进行的一般物体的图像识别装置及方法

资源描述

《由排他性分类器进行的一般物体的图像识别装置及方法》由会员分享，可在线阅读，更多相关《由排他性分类器进行的一般物体的图像识别装置及方法（4页珍藏版）》请在金锄头文库上搜索。

1、由排他性分类器进行的一般物体的图像识别装置及方法专利名称：由排他性分类器进行的一般物体的图像识别装置及方法技术领域：本发明涉及图像处理及计算机视觉(vision)，尤其涉及一般物体的图像识别及索引。背景技术：近年来，广泛开展了图像分类/识别的研究，尤其是大量开发了使用关联(context)(即人的行动或对象的场所这样的、依存于现实世界的状況或状态的概念。例如，共现关系、相对位置关系、相对比例、背景和前景的关系等属于此类。)信息来提高一般物体的图像识别的性能及可靠性的方法(參照非专利文献I_4)。在先技术文献非专利文献非专利文献I :Serhat S. Bucak et al, Efficie

2、nt Multi-label Ranking forMulti-class Learning !Application to Object Recognition. , ICCV2009非专利文献2 Chaitanya Desai et al, Discriminative Models forMulti-class Object Layout, ICCV2009非专利文献3 H. Liu and S. Yan, Robust graph mode seeking by graph shift.,ICML 2010非专利文献 4 P. Tseng, On accelerated proxima

3、l gradient methods forconvex-concave optimization. , Submitted to SIAM Journal of Optimization 2008发明的概要发明所要解决的技术课题但是，图像识别的可靠性尚未达到人类的能力水平，还要求进步的提高。发明内容本申请的目的在于，提供种比以往更能够提高一般物体的图像识别的可靠性的一般物体的图像识别装置。解决技术问题所采用的技术手段为解决上述课题，本发明是进行一般物体识别的图像识别装置，其具备种类确定単元，參照表示多种物体各自的图像特征性的特征信息，计算在输入图像中I个以上的物体的存在概率，基于所述存在概率

4、，确定存在的物体的种类；以及信息储存单元，存储排他性关系信息，该排他性关系信息表示被估计为不共存于同一图像内的不同种物体的组合；所述种类确定单元使用所述排他性关系信息来调整各物体的存在概率。发明的效果本发明的图像识别装置通过具备上述结构，在各物体的存在概率的计算过程中，调整存在概率，以使错误的可能性较高的、被估计为不共存于同一图像内的物体不会成为共存的结果，所以对于各物体，计算出错误的存在概率的可能性降低，能够提高一般物体的识别的可靠性。图I是表示本发明的实施方式的、对输入图像赋予物体标签的处理(分类时处理)的整体的流程图。图2是表示本发明的实施方式的、基于排他性分类器的一般物体的图像识别装置

5、的结构的框图。图3是表示本发明的实施方式的排他性标签组的提取处理的图。图4是表示本发明的实施方式的、手动地赋予了标签的收集图像的一例的图。图5是表示本发明的实施方式的排他性标签组的集合的例的图。图6是表示本发明的实施方式的图像语句构筑处理的流程图。图7是用于说明本发明的实施方式的图像语句构筑的基本概念的图。图8是本发明的实施方式的图像直方图生成处理的一例的流程图。图9是用于说明本发明的实施方式的各收集图像的特征量的图。图10是表示由排他性分类器进行的一般物体的图像识别的概念的图。具体实施例方式I.实施的形态以下说明用于实施本发明的形态。本发明的实施方式的图像识别装置对输入图像中出现的一般物体进

6、行图像识另Ij，将表示该识别的一般物体的标签(物体标签)附加在输入图像上。本图像识别装置在进行该图像识别时，利用图像中出现的物体的排他性关联信息(排他性关系信息)，提高一般物体的图像识别的可靠性和性能。作为排他性关联信息的一例，对于几乎不会一起出现在同一图像中的物体，使用将表示这些物体的物体标签作为组的排他性标签组。图I是表示对输入图像附加物体标签的处理(分类时处理)的整体的流程图。首先，取得输入图像(SI)，并将输入图像变换为标准尺寸(S2)。然后，对于输入图像提取多个描述符群(S3)。各描述符表示输入图像中的局部区域的特征量。接着，对与提取的描述符分别对应的图像语句进行投票，生成表现输入图

7、像的直方图(输入图像的特征量)(S4)。在此，图像语句是代表特征量较近的多个描述符的描述符。该图像语句是在分类时处理之前进行的、对多个收集图像学习特征量的学习时处理中生成的。接着，通过排他性分类器，比较在S4中生成的输入图像的特征量和学习时处理的学习结果，或使用排他性标签组，计算与输入图像有关的可信性得分(输入图像中的各个物体的存在概率)(S5)。然后，基干与输入图像有关的可信性得分，分配I个以上的物体标签(S6)。接着，详细说明图像识别装置。图2是表示本发明的实施方式的、基于排他性分类器的一般物体的图像识别装置I的结构的框图。图像识别装置I包括图像储存部11、学习图像输入単元12、图像特征量

8、计算单元13、排他性标签组提取单元14、分类词表生成単元15、分类模型信息储存单元16、分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20。学习时处理由学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成単元15、及分类模型信息储存单元16执行，基于学习结果对输入图像中出现的物体进行实际分类的分类时处理由作为种类确定单元的分类图像输入单元17、图像特征量计算単元18、分类单元19、及图像分类信息储存单元20执行。图像储存部11是储存在学习时处理中使用的作为学习用图像的收集图像、及实际作为物体识别的对象的输入图像的储存器件。在本

9、实施方式中，作为收集图像，使用包含在PASCAL Visual Object ClassesChallenge 2010 (V0C2010)学习用数据组中的带标签图像。V0C2010学习用数据组由包含有属于20个类(class)的某个的“物体”(人物、动物、车辆、家具)的多个(作为一例，I万张左右)图像构成。对各收集图像附加有表示在图像中出现的物体的类的标签。与20个类对应的标签，具体来说是“猫”、“飞机”、“自行车”、“鸟”、“船”、“瓶子”、“巴土”、“汽车”、“椅子”、“餐桌”、“狗”、“马”、“摩托车”、“人物”、“植物”、“羊”、“火车”、“TV組”、“牛”、“沙发”，但是当然不限于

10、此。此外，对于类也不限于20个。I图4是收集图像的一例，作为标签赋予了 “椅子”、“餐桌”、“TV組”。接着，说明与学习时处理的动作有关的学习图像输入单元12、图像特征量计算单元13、排他性标签组提取单元14、分类词表生成単元15、及分类模型信息储存单元16。学习图像输入单元12从图像储存部11依次读出收集图像，并输出到排他性标签组提取単元14和图像特征量计算单元13。图像特征量计算单元13从输入的图像计算特征量，并生成图像语句。图6是表示图像特征量计算单元13的图像语句构筑处理的流程图。图7是用于说明使用输入的图像构筑的图像语句的概念的图。图像特征量计算单元13首先取得收集图像(作为一例，如

11、图7的收集图像111)(S21)，计算图像上的以一定间隔存在的栅格点(以下称为密点。作为一例，如图像112所示的配置为栅格状的点。)和特征性的离散点(以下称为离散点。作为一例，如图像113所示的点。)(S22)。特征性的离散点是亮度和形状急剧变化的特征性的点，例如表示猫的眼睛的一部分和耳朵的前端的点等属于此类。另外，以下有时将密点和离散点统称为特征点。接着，图像特征量计算单元13在特征点及其周边提取描述符(S23)。描述符的提取作为一例，使用已知的SIFT (Scale Invariant Feature Trans form)算法。SIFT决定特征点的代表亮度坡度方向，以该方向为基准，制作其

12、他方向的亮度坡度直方图，以多维矢量来记述特征量。由此，具有对旋转比例变化照明变化较灵敏的特征。图7的图像114示意性地表示提取的描述符。在此，上述描述符是表示I张图像内的局部区域的特征的局部描述符，但是作为描述符，也可以使用表示图像整体区域的特征(例如图像整体的色相分布等)的整体描述符。此外，也可以将局部描述符和整体描述符的两者组合使用。接着，图像特征量计算单元13将提取的描述符全部放入描述符池(pool)。图7的图像115是示意性地表示密点的描述符池的图，图像116是示意性地表示离散点的描述符池的图。然后，图像特征量计算单元13从各描述符池随机地选择描述符并构筑图像语句。图像语句如前所述

13、，是代表特征量较近的多个描述符的描述符。作为图像语句，可以使用将各描述符矢量量子化后的数据。图像117示意性地表示对“猫”生成的图像语句，包括包含从密点的描述符池选择的描述符的图像语句(图像118中示出一例)、以及包含从密点的描述符池选择的描述符的图像语句(图像119中示出一例)。接着，图像特征量计算单元13对收集图像分别生成图像语句的直方图。图8是表示图像直方图生成处理的流程图。图像特征量计算单元13首先取得收集图像(S31)，对于收集图像计算特征点(S32)，提取特征点及其周边的描述符(S33)。到该S31 S33为止的处理是与作为上述 S21 S23说明的处理相同的动作。然后，通过对与收

14、集图像的各描述符最近似的图像语句进行投票，导出表现各收集图像的直方图(S34)。以下将表现图像的直方图称为图像的特征量。图9是用于说明各收集图像的特征量的图。图9的特征量211示意性地表示基于向以图7说明的方法构筑的图像语句的投票结果计算的收集图像的特征量。在此，也可以在图像的特征量中追加图像中的空间信息。作为一例，也可以将图像在空间上4等分、3等分等，并分别生成直方图(图9的图像221等)。另外，表现收集图像及输入图像的多个图像直方图可以通过bag-of-words模型来表现。排他性标签组提取单元14进行排他性标签组的提取。图5表示排他性标签组的集合的例。如上所迷，“火车”、“TV组”分别是

15、标签，作为标签的集合的火车、TV组、船、餐桌是I个排他性标签组。I个排他性标签组表示在I个图像中不会同时出现的物体的组合。如果是排他性标签组火车、TV组、羊、船、餐桌的情况，在I图像中出现“火车”时，在该图像中不会出现TV组、羊、船、餐桌的任个。这样的排他性标签组可以手动地(根据人的经验导出)決定，也可以从收集图像等通过统计的方法来提取。在本实施方式中，排他性标签组提取单元14预先保持已知的排他性标签组。关于通过统计方法来提取的例，在后面作为变形例来说明。此外，排他性标签组越充实，则越能提高将物体分类的效果，所以可以手动地制作被推测为对分类有效的排他性标签组，或者制作仅关注了特别想要分类的项目

16、的排他性标签组。分类词表生成単元15将各收集图像的特征量和排他性标签组作为分类词表，储存在分类模型信息储存单元16中。接着，说明与分类时处理有关的分类图像输入单元17、图像特征量计算单元18、分类单元19、及图像分类信息储存单元20。分类图像输入单元17从图像储存部11读出作为物体标签赋予的对象的图像(输入图像)，并供给至图像特征量计算单元18。图像特征量计算单元18对于输入图像计算表现输入图像的特征量。该计算特征量的处理与使用图8及图9说明的图像特征量计算单元13的处理相同，所以省略说明。分类单元19具有排他性分类器，由排他性分类器进行一般物体的图像识别处理。分类单元19基于由图像特征量计算单元18生成的输入图像的特征量和通过学习时处理计算出的各收集图像的特征量，计算输入图像中包含的各物体的可信性得分，基于可信性得分，确定输入图像中存在的物体的种类。本实施方式中的排他性分类器是使用排他性关联信息，并利用 LASSO(Least Absolute Shrinkage and Selection O

展开阅读全文