Web图片搜索引擎设计.

上传人:206****923 文档编号:88627604 上传时间:2019-05-05 格式:PPT 页数:38 大小:122KB
返回 下载 相关 举报
Web图片搜索引擎设计._第1页
第1页 / 共38页
Web图片搜索引擎设计._第2页
第2页 / 共38页
Web图片搜索引擎设计._第3页
第3页 / 共38页
Web图片搜索引擎设计._第4页
第4页 / 共38页
Web图片搜索引擎设计._第5页
第5页 / 共38页
点击查看更多>>
资源描述

《Web图片搜索引擎设计.》由会员分享,可在线阅读,更多相关《Web图片搜索引擎设计.(38页珍藏版)》请在金锄头文库上搜索。

1、Web图片搜索引擎设计,基于文本的图片信息提取,大纲,图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算),图片检索技术分类,基于文本 利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。 基于内容 提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。 基于语义 理解可是特征的语义信息,可以利用文字查询可视特征。,基于文本,优点 符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查“奥运会”) 利用已有的技术积累(文本检索) 性能好 缺点 提取的信息不够准确 文字描述不能保证

2、全面性 不能基于内容相似查询,基于内容,优点 可以查询相似图片 对图片来源要求低(不需要额外文字信息) 缺点 技术不成熟 效率低 复杂语义无法表示,基于语义,通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的) 。符合人类理解图片的自然方式。 开始大量的研究,在未来会有很大的发展。,我们的选择基于文字,理由 目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。 性能良好 已有大量的网页资源可供使用。 开发周期较短。,我们设计的系统的结构,系统工作过程,抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询,

3、核心图片信息提取(Extractor),信息来源 HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字 提取方法 不能确知网页作者组织信息的方法,所以利用启发式规则 将最可能与某图片相关的位置的文字作为图片的文字描述信息,常用提取模式,标记 从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤,常用提取模式(续),标记 从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最准确),常用提取模式(续),网页的标题 图

4、片与所在网页相关,因此和网页的标题相关 提取下的文字。有时下还会嵌套标记,需要去除。有时使用缺省的名字(比如new page或者Untitled Document),需要过滤,常用提取模式(续),链接到图片所在网页的文本 和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关 需要跨页面的信息提取,Some_info,a.html,xxx.jpg,常用提取模式(续),网页的meta标记 也是对网页内容的描述 可以提取其中的keywords和description的值,常用提取模式(续),图片的URL 图片的URL可能含有相关信息(path和file_name) 判断

5、path和file_name是否为中文,或者为英文单词,是则可能有意义 不考虑站点的domain_name,太泛,常用提取模式(续),关联的和 嵌套 则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息 并列 anchor_text 则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息,常用提取模式(续),结构 组织结果比较多样化 相关的文字和图片放到同一个中; 相关的文字和图片放在同一个下的两个里; 相关的文字和图片放在两个相邻的内; 以某种其他的规律出现在里 提取时需要判断使用的是哪一种组织方式,Hello, world你好,世界,常用提取模式(续),图片周围文字 比较难于界定“周围”的含义。 基于流的方式,图片所在HTML流中位置前后一段固定的距离,常用提取模式(续),图片周围文字(续) 基于DOM的方式 与图片具有共同最低祖先的文字节点, some_text ,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号