[精品]Web图片搜索引擎设计

资源描述

《[精品]Web图片搜索引擎设计》由会员分享，可在线阅读，更多相关《[精品]Web图片搜索引擎设计（40页珍藏版）》请在金锄头文库上搜索。

1、Web图片搜索引擎设计基于文本的图片信息提取大纲n图片检索技术简介n我们设计的系统总体结构n图片文字信息提取n无用图片过滤n一些统计规律n结合文本与内容的方法（后期打算）图片检索技术分类n基于文本n利用某种提取方法获得与图片内容相关的文本信息，利用传统文本检索方法提供检索。n基于内容n提取图片中的可视化特征，比如颜色，形状，纹理等，对特征建索引，提供相似查询。n基于语义n理解可是特征的语义信息，可以利用文字查询可视特征。基于文本n优点n符合用户查询习惯（关键字查询）n适合复杂语义查询（比如查“奥运会”）n利用已有的技术积累（文本检索）n性能好n缺点n提取的信息不够准确n文字描述不能保证全

2、面性n不能基于内容相似查询基于内容n优点n可以查询相似图片n对图片来源要求低（不需要额外文字信息）n缺点n技术不成熟n效率低n复杂语义无法表示基于语义n通过理解图片中的可视特征来建立低层特征到高层语义的映射（比如：能够理解大海是蓝色的）。符合人类理解图片的自然方式。n开始大量的研究，在未来会有很大的发展。我们的选择基于文字n理由n目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。n性能良好n已有大量的网页资源可供使用。n开发周期较短。我们设计的系统的结构系统工作过程n抓取网页和图片n从网页中提取图片相关的文字信息n利用图片生成缩略图n对提取到的文字信息建倒排索引n提供查询核

3、心图片信息提取（ Extractor）n信息来源nHTML文档用于组织文字和图片等n通过分析HTML文档找到图片和相关的文字n提取方法n不能确知网页作者组织信息的方法，所以利用启发式规则n将最可能与某图片相关的位置的文字作为图片的文字描述信息常用提取模式n标记n从src获取图片来源n从alt获取相关文字信息（注意可能为文件名）n获得width和height，用于以后的过滤常用提取模式（续）n标记n从href获得URL，判断是否为图片（简单的根据扩展名，不处理动态内容）n从title获得相关文字信息n从anchor_text获得图片的文字信息（通常最准确）常用提取模式（续）n网页的标题

4、n图片与所在网页相关，因此和网页的标题相关n提取下的文字。有时下还会嵌套标记，需要去除。有时使用缺省的名字（比如new page或者Untitled Document），需要过滤常用提取模式（续）n链接到图片所在网页的文本n和网页的标题一样，这是对网页的描述，所以Some_info可能和xxx.jpg相关n需要跨页面的信息提取Some_infoa.htmlxxx.jpg常用提取模式（续）n网页的meta标记n也是对网页内容的描述n可以提取其中的keywords和description的值常用提取模式（续）n图片的URLn图片的URL可能含有相关信息（path和 file_name）n

5、判断path和file_name是否为中文，或者为英文单词，是则可能有意义n不考虑站点的domain_name，太泛常用提取模式（续）n关联的和n嵌套则xxx.jpg和foo.html的内容相关，可以使用 foo.html的标题作为文字信息n并列anchor_text则xxx.jpg和anchor_text相关，可以用 anchor_text作为文字信息常用提取模式（续）n结构n组织结果比较多样化n相关的文字和图片放到同一个中；n相关的文字和图片放在同一个下的两个里；n相关的文字和图片放在两个相邻的内；n以某种其他的规律出现在里 n提取时需要判断使用的是哪一种组织方式Hello, world

6、你好，世界常用提取模式（续）n图片周围文字n比较难于界定“周围”的含义。n基于流的方式，图片所在HTML流中位置前后一段固定的距离常用提取模式（续）n图片周围文字（续）n基于DOM的方式n与图片具有共同最低祖先的文字节点some_textSome_text目前系统中使用的模式标记信息标记信息网页标题图片的URL结构图片周围文字（ DOM）网页meta信息链接到图片所在网页的文本关联的和信息提取方法n基于DOM的方法n将HTML文档解析为DOM树，遍历所有的节点，利用DOM接口的方法获取相关信息。n优点n实现简单，有开放的DOM解析工具可用（ HTMLTidy）n利用部分结构信息，提取信

7、息准确度稍高n缺点n需要解析DOM，效率较低信息提取方法（续）n基于流的方法n直接通过字符串查找来定位所要提取的信息n优点n只关注几个tag，不需要解析DOM，速度快n缺点n不太注重结构信息，准确性不如DOM方式高信息提取方法（续）n基于wrapper的方法n利用HTML的半结构特点来准确的获得文字与图片的对应关系n优点n对于固定的结构模式，可以准确的提取到信息n缺点n效率较低n实现稍复杂无用图片过滤n初衷nWeb上提取到的图片有很大部分是意义不大的图片，用于装饰页面和做广告n去除这些图片可以有效的减小系统数据规模，提高图片质量和检索效率无用图片过滤（续）n依然使用启发式规则n过滤模式

8、n文件尺寸比较小（包括长宽和大小）n利用HTML提取到width和height，以及实际图片的width和heightn长宽比例比较大n同一网页内有多个引用它n重要的图片不会在一页内出现多次n出现多次的通常是装饰图片发现的一些统计规律nGIF和JPG图片的区别nGIF只有256色，但可动态，通常用于装饰性图片和广告nJPG压缩比高，常用于存储大尺寸文件n通常情况下，JPG图片有意义的比例要大大高于GIF发现的一些统计规律（续）nGIF和JPG图片的区别（续）n统计结果n统计随机抓取的82455张图片，其中GIF有 53815张，JPG有28640张n抽样分析，间隔抽GIF图片268张，抽

9、JPG图片 284张n人工评价样本，得到： GIF中12%有意义，JPG中49%有意义发现的一些统计规律（续）n和引用图片的区别n可在网页上看到图片，属于“插入” 方式，是装饰和广告的方法n不能在网页上直接可见，属于“链接” 方式，不能用于装饰和广告，通常用于将图片作为目标对象提供n通常，引用的图片有意义的比例要高于发现的一些统计规律（续）n和引用图片的区别（续）n统计结果n对3148499张图片进行来源标记统计，来自的有77279张，来自的有3071220 张n抽样分析，间隔抽取的387张，的 308张n人工评价样本，得到：来自的有意义图片比例为：74%，来自的有意义比例为：37

10、%发现的一些统计规律（续）n图片引用次数的区别n引用次数的多少可以在一定程度上反映图片的重要性n通常引用的图片引用次数越高则图片越重要n引用的图片因为受到装饰性和广告图片的影响，引用次数规律性不强发现的一些统计规律（续）n图片引用次数的区别（续）n统计图发现的一些统计规律（续）n以上的这些规律对于改进无用图片过滤和查询结果图片排序有重要的价值。结合文本和内容的方法n利用基于内容的提取方法，可以得到图片的可视特征组成的向量n考虑如何与得到的文本向量相结合来改进信息的相关性，从而改进图片搜索引擎的查询效果（作为未来系统改进方向）结合文本和内容的方法（续）n先文本后内容的方法n先用文

11、本查询，得到初始图片集，用户挑选相近的图片，进行内容相似查询，最终得到想要的图片n拼接两个向量n在查询时同时提供关键字和相似图片，利用类似VSM的方法进行匹配结合文本和内容的方法（续）n利用LSI整合两个向量n将文字和内容向量拼接，然后利用LSI算法来得到整合的语义空间。n我做了一个试验： LSI试验结合文本和内容的方法（续）n整合的意义n可以得到文档和文字内容特征之间的关系n可以用于构建语义库n从文字可视特征，比如“天空” 蓝色n用于基于语义的查询n查询可以基于文本或内容，能够将一个向量中的相似关系引入另一个向量谢谢！ou0FIKaHCtR0PqvuXaZyzrLWoQy52X(%

12、dlP*xUsVy*La$r9Y9N0J1Pf0IDkqjBH3o+Btma7LnF%YYt2gycn(DHLdOQSgNJC&j5ItiMbgqsFaJzh65Py!wYxufne)&F4zOewxcJoO)yRk8QZ98cnlIRi&eRK5*%)jC&%xX6O4yA+3adDIU)W9CN9C24%x%QxkWodprBu1iDCY4mI#+FLhrUP(F3(t%1I*WEVBE9nxHwjKf)(ulji!V7XVuGY60jyagUdgnBHOCJp%S26hoEw2rP4LzH#193WKDN%6PvAY&ZyWL+rzOlv-eXbR2HG4KreJPAC4$H*oX3T6

13、9ltAx5l$01-HUxMX1vsqJ875EssqWg7Ej2qSQTr7tWW*MC1J$lpEuxcvZ7K- ItOgx(nZJlC3nHiYk1&4r5%tsuJkYu7nqvWcYXU+iDCJX9G)tNa2FjXCyDt3zqUxmkaUm&#MZ(mRk+MVBTPuhOzE)Y6Y99N+2Z6lMuH*$yRjnLYLYHh14Anuoq0Sv11(aZ9wnhNcdfSmqu)zAA(rdp5Ze!$Wb2sYGtISm0aL*glb88OKgz+c!fKfYiZiM9V(3Hzwkiop5UwIt#B$BK3Wc4Fb9Dy06UoDP)i(KGrXEXoCXgM

14、TP59tTQM1j$tl4dc- Ui!cYOpo7d3em78!I#!npakva5lcYTi(9H613F8gU3N2x4SwObqrLdvL5b2Q*pWzT&V2Sqy(1xbpn2z3i+rrwNlQ%hg4ggDM7oJmOnMhEr5AdGgGk+AdFKDIASNcvv(p5mnAP20z!f0bNZGqLPLwsfsuNM%+v3xuW#oB#8D7phjWC#80RKOu9FYtVzBRbmNU8m-%Fz9+!5FJ2KC4F!ZxWR9utGAcyFuwf-ogTgbvqV3c5I94i-hxdJ-5#r0#n8)zvf+#qxeWUHUOpcMpUg-Bp-!$(i

15、f&!#*g8Q%7YaDhQ%fiqm8M6Qjk+jlLi3L0oVdmuvN!tMBSzT3HUuxsr&AMDR#rXLs*DkLnc!&Kv7yVlA7(jO0zU8cQ*6GspFhGntJylfsfmSAGrCNWWg&k&- (6S)g2!jW#G3CAy*rah!*PwXOoWR&VB+&PyD)YwFAOedE)K00dpTHjyD9HLe+$3u-NNzZ&MGd*p%8x0$bmKfrW(y+!Q-S!-ramLbo7$3v3$9e91P3rclZ(P83qO&)AMxAsIN5lXcXk2E4wF*x8uSJioSC2OfJoJMamomaPBEuFKNXg$b+5q

16、&)V#ItQuDMk$1aUvJY$6Rp46W9#&JGAi#5l3lb-MkCiP(a7KZWOJVTGV+FtB4%)QV9jQ0H2N58mapS2Vha+i7&6c95Ie$A0(1y(4#JNkML$zm8IvmNb3Y2q!AR87iyE-eGb6MEdm8hqkhwuWKG#s1k5dy+U!c*8AgKTDNSr8y(1e)WiTZ0P-Mm5+0C*B1)ACuHUV0c3SYG6T%jt4J8V9fucbAMdCeMx4)LJs0e8fmle8jz0PPojR+$- SkcC3waC6*r7fgVxUxGJ9FxnK*O3WFHo%KGsSr0Bxvksk4(5e0oaDMu*O+AsHYylWB&D#uOew&oZIoIn+50lM0q3L%J8gQ3QndrnuC9c%smVowGeyeFsgE%O#Di2LwgG1z0!i)YPU59+(1gs5R)BFZm0NMwCtEAONCDldt5$AK-Emf%QhDjO&hgotDsAkyssAXFiqv*smdC#X2R+T&Ic1FlQRW379XE&aKqAA

展开阅读全文