[精品]Web图片搜索引擎设计

上传人:jiups****uk12 文档编号:45688398 上传时间:2018-06-18 格式:PPT 页数:40 大小:126.50KB
返回 下载 相关 举报
[精品]Web图片搜索引擎设计_第1页
第1页 / 共40页
[精品]Web图片搜索引擎设计_第2页
第2页 / 共40页
[精品]Web图片搜索引擎设计_第3页
第3页 / 共40页
[精品]Web图片搜索引擎设计_第4页
第4页 / 共40页
[精品]Web图片搜索引擎设计_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《[精品]Web图片搜索引擎设计》由会员分享,可在线阅读,更多相关《[精品]Web图片搜索引擎设计(40页珍藏版)》请在金锄头文库上搜索。

1、Web图片搜索引擎设计基于文本的图片信息提取大纲n图片检索技术简介n我们设计的系统总体结构n图片文字信息提取n无用图片过滤n一些统计规律n结合文本与内容的方法(后期打算)图片检索技术分类n基于文本n利用某种提取方法获得与图片内容相关的文本信 息,利用传统文本检索方法提供检索。n基于内容n提取图片中的可视化特征,比如颜色,形状,纹 理等,对特征建索引,提供相似查询。n基于语义n理解可是特征的语义信息,可以利用文字查询可 视特征。基于文本n优点n符合用户查询习惯(关键字查询)n适合复杂语义查询(比如查“奥运会”)n利用已有的技术积累(文本检索)n性能好n缺点n提取的信息不够准确n文字描述不能保证全

2、面性n不能基于内容相似查询基于内容n优点n可以查询相似图片n对图片来源要求低(不需要额外文字信息 )n缺点n技术不成熟n效率低n复杂语义无法表示基于语义n通过理解图片中的可视特征来建立低层 特征到高层语义的映射(比如:能够理 解大海是蓝色的) 。符合人类理解图 片的自然方式。n开始大量的研究,在未来会有很大的发 展。我们的选择基于文字n理由n目前的大型图片搜索引擎基本上都是以基 于文字的检索为主体。n性能良好n已有大量的网页资源可供使用。n开发周期较短。我们设计的系统的结构系统工作过程n抓取网页和图片n从网页中提取图片相关的文字信息n利用图片生成缩略图n对提取到的文字信息建倒排索引n提供查询核

3、心图片信息提取( Extractor)n信息来源nHTML文档用于组织文字和图片等n通过分析HTML文档找到图片和相关的文字n提取方法n不能确知网页作者组织信息的方法,所以 利用启发式规则n将最可能与某图片相关的位置的文字作为 图片的文字描述信息常用提取模式n标记n从src获取图片来源n从alt获取相关文字信息(注意可能为文件 名)n获得width和height,用于以后的过滤常用提取模式(续)n标记n从href获得URL,判断是否为图片(简单的 根据扩展名,不处理动态内容)n从title获得相关文字信息n从anchor_text获得图片的文字信息(通常 最准确)常用提取模式(续)n网页的标题

4、n图片与所在网页相关,因此和网页的标题 相关n提取下的文字。有时下还会 嵌套标记,需要去除。有时使用缺 省的名字(比如new page或者Untitled Document),需要过滤常用提取模式(续)n链接到图片所在网页的文本n和网页的标题一样,这是对网页的描述, 所以Some_info可能和xxx.jpg相关n需要跨页面的信息提取Some_infoa.htmlxxx.jpg常用提取模式(续)n网页的meta标记n也是对网页内容的描述n可以提取其中的keywords和description的 值常用提取模式(续)n图片的URLn图片的URL可能含有相关信息(path和 file_name)n

5、判断path和file_name是否为中文,或者为 英文单词,是则可能有意义n不考虑站点的domain_name,太泛常用提取模式(续)n关联的和n嵌套则xxx.jpg和foo.html的内容相关,可以使用 foo.html的标题作为文字信息n并列anchor_text则xxx.jpg和anchor_text相关,可以用 anchor_text作为文字信息常用提取模式(续)n结构n组织结果比较多样化n相关的文字和图片放到同一个中;n相关的文字和图片放在同一个下的两个里;n相关的文字和图片放在两个相邻的内;n以某种其他的规律出现在里 n提取时需要判断使用的是哪一种组织方式Hello, world

6、你好,世界常用提取模式(续)n图片周围文字n比较难于界定“周围”的含义。n基于流的方式,图片所在HTML流中位置前 后一段固定的距离常用提取模式(续)n图片周围文字(续)n基于DOM的方式n与图片具有共同最低祖先的文字节点some_textSome_text目前系统中使用的模式标记信息标记信息网页标题图片的URL结构图片周围文字( DOM)网页meta信息链接到图片所在网 页的文本关联的和信息提取方法n基于DOM的方法n将HTML文档解析为DOM树,遍历所有的 节点,利用DOM接口的方法获取相关信息 。n优点n实现简单,有开放的DOM解析工具可用( HTMLTidy)n利用部分结构信息,提取信

7、息准确度稍高n缺点n需要解析DOM,效率较低信息提取方法(续)n基于流的方法n直接通过字符串查找来定位所要提取的信 息n优点n只关注几个tag,不需要解析DOM,速度快n缺点n不太注重结构信息,准确性不如DOM方式高信息提取方法(续)n基于wrapper的方法n利用HTML的半结构特点来准确的获得文字 与图片的对应关系n优点n对于固定的结构模式,可以准确的提取到信息n缺点n效率较低n实现稍复杂无用图片过滤n初衷nWeb上提取到的图片有很大部分是意义不 大的图片,用于装饰页面和做广告n去除这些图片可以有效的减小系统数据规 模,提高图片质量和检索效率无用图片过滤(续)n依然使用启发式规则n过滤模式

8、n文件尺寸比较小(包括长宽和大小)n利用HTML提取到width和height,以及实际图 片的width和heightn长宽比例比较大n同一网页内有多个引用它n重要的图片不会在一页内出现多次n出现多次的通常是装饰图片发现的一些统计规律nGIF和JPG图片的区别nGIF只有256色,但可动态,通常用于装饰 性图片和广告nJPG压缩比高,常用于存储大尺寸文件n通常情况下,JPG图片有意义的比例要大 大高于GIF发现的一些统计规律(续)nGIF和JPG图片的区别(续)n统计结果n统计随机抓取的82455张图片,其中GIF有 53815张,JPG有28640张n抽样分析,间隔抽GIF图片268张,抽

9、JPG图片 284张n人工评价样本,得到: GIF中12%有意义,JPG中49%有意义 发现的一些统计规律(续)n和引用图片的区别n可在网页上看到图片,属于“插入” 方式,是装饰和广告的方法n不能在网页上直接可见,属于“链接” 方式,不能用于装饰和广告,通常用于将 图片作为目标对象提供n通常,引用的图片有意义的比例要高 于发现的一些统计规律(续)n和引用图片的区别(续)n统计结果n对3148499张图片进行来源标记统计,来自 的有77279张,来自的有3071220 张n抽样分析,间隔抽取的387张,的 308张n人工评价样本,得到: 来自的有意义图片比例为:74%,来自 的有意义比例为:37

10、%发现的一些统计规律(续)n图片引用次数的区别n引用次数的多少可以在一定程度上反映图 片的重要性n通常引用的图片引用次数越高则图片 越重要n引用的图片因为受到装饰性和广告 图片的影响,引用次数规律性不强发现的一些统计规律(续)n图片引用次数的区别(续)n统计图发现的一些统计规律(续)n以上的这些规律对于改进无用图片过滤 和查询结果图片排序有重要的价值。结合文本和内容的方法n利用基于内容的提取方法,可以得到图 片的可视特征组成的向量n考虑如何与得到的文本向量相结合来改 进信息的相关性,从而改进图片搜索引 擎的查询效果(作为未来系统改进方向 )结合文本和内容的方法(续)n先文本后内容的方法n先用文

11、本查询,得到初始图片集,用户挑 选相近的图片,进行内容相似查询,最终 得到想要的图片n拼接两个向量n在查询时同时提供关键字和相似图片,利 用类似VSM的方法进行匹配结合文本和内容的方法(续)n利用LSI整合两个向量n将文字和内容向量拼接,然后利用LSI算法 来得到整合的语义空间。n我做了一个试验: LSI试验结合文本和内容的方法(续)n整合的意义n可以得到文档和文字内容特征之间的关系n可以用于构建语义库n从文字可视特征,比如“天空” 蓝色n用于基于语义的查询n查询可以基于文本或内容,能够将一个向 量中的相似关系引入另一个向量谢谢!ou0FIKaHCtR0PqvuXaZyzrLWoQy52X(%

12、dlP*xUsVy*La$r9Y9N0J1Pf0IDkqjBH3o+Btma7LnF%YYt2gycn(DHLdOQSgNJC&j5ItiMbgqsFaJzh65Py!wYxufne)&F4zOewxcJoO)yRk8QZ98cnlIRi&eRK5*%)jC&%xX6O4yA+3adDIU)W9CN9C24%x%QxkWodprBu1iDCY4mI#+FLhrUP(F3(t%1I*WEVBE9nxHwjKf)(ulji!V7XVuGY60jyagUdgnBHOCJp%S26hoEw2rP4LzH#193WKDN%6PvAY&ZyWL+rzOlv-eXbR2HG4KreJPAC4$H*oX3T6

13、9ltAx5l$01-HUxMX1vsqJ875EssqWg7Ej2qSQTr7tWW*MC1J$lpEuxcvZ7K- ItOgx(nZJlC3nHiYk1&4r5%tsuJkYu7nqvWcYXU+iDCJX9G)tNa2FjXCyDt3zqUxmkaUm&#MZ(mRk+MVBTPuhOzE)Y6Y99N+2Z6lMuH*$yRjnLYLYHh14Anuoq0Sv11(aZ9wnhNcdfSmqu)zAA(rdp5Ze!$Wb2sYGtISm0aL*glb88OKgz+c!fKfYiZiM9V(3Hzwkiop5UwIt#B$BK3Wc4Fb9Dy06UoDP)i(KGrXEXoCXgM

14、TP59tTQM1j$tl4dc- Ui!cYOpo7d3em78!I#!npakva5lcYTi(9H613F8gU3N2x4SwObqrLdvL5b2Q*pWzT&V2Sqy(1xbpn2z3i+rrwNlQ%hg4ggDM7oJmOnMhEr5AdGgGk+AdFKDIASNcvv(p5mnAP20z!f0bNZGqLPLwsfsuNM%+v3xuW#oB#8D7phjWC#80RKOu9FYtVzBRbmNU8m-%Fz9+!5FJ2KC4F!ZxWR9utGAcyFuwf-ogTgbvqV3c5I94i-hxdJ-5#r0#n8)zvf+#qxeWUHUOpcMpUg-Bp-!$(i

15、f&!#*g8Q%7YaDhQ%fiqm8M6Qjk+jlLi3L0oVdmuvN!tMBSzT3HUuxsr&AMDR#rXLs*DkLnc!&Kv7yVlA7(jO0zU8cQ*6GspFhGntJylfsfmSAGrCNWWg&k&- (6S)g2!jW#G3CAy*rah!*PwXOoWR&VB+&PyD)YwFAOedE)K00dpTHjyD9HLe+$3u-NNzZ&MGd*p%8x0$bmKfrW(y+!Q-S!-ramLbo7$3v3$9e91P3rclZ(P83qO&)AMxAsIN5lXcXk2E4wF*x8uSJioSC2OfJoJMamomaPBEuFKNXg$b+5q

16、&)V#ItQuDMk$1aUvJY$6Rp46W9#&JGAi#5l3lb-MkCiP(a7KZWOJVTGV+FtB4%)QV9jQ0H2N58mapS2Vha+i7&6c95Ie$A0(1y(4#JNkML$zm8IvmNb3Y2q!AR87iyE-eGb6MEdm8hqkhwuWKG#s1k5dy+U!c*8AgKTDNSr8y(1e)WiTZ0P-Mm5+0C*B1)ACuHUV0c3SYG6T%jt4J8V9fucbAMdCeMx4)LJs0e8fmle8jz0PPojR+$- SkcC3waC6*r7fgVxUxGJ9FxnK*O3WFHo%KGsSr0Bxvksk4(5e0oaDMu*O+AsHYylWB&D#uOew&oZIoIn+50lM0q3L%J8gQ3QndrnuC9c%smVowGeyeFsgE%O#Di2LwgG1z0!i)YPU59+(1gs5R)BFZm0NMwCtEAONCDldt5$AK-Emf%QhDjO&hgotDsAkyssAXFiqv*smdC#X2R+T&Ic1FlQRW379XE&aKqAA

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号