第一章 Web信息检索概论ppt课件

上传人:资****亨 文档编号:130060399 上传时间:2020-04-24 格式:PPT 页数:23 大小:1.33MB
返回 下载 相关 举报
第一章 Web信息检索概论ppt课件_第1页
第1页 / 共23页
第一章 Web信息检索概论ppt课件_第2页
第2页 / 共23页
第一章 Web信息检索概论ppt课件_第3页
第3页 / 共23页
第一章 Web信息检索概论ppt课件_第4页
第4页 / 共23页
第一章 Web信息检索概论ppt课件_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《第一章 Web信息检索概论ppt课件》由会员分享,可在线阅读,更多相关《第一章 Web信息检索概论ppt课件(23页珍藏版)》请在金锄头文库上搜索。

1、24 04 2020 1 第1章Web信息检索概论 本章主要内容 1 Web信息检索及相关术语的解释2 信息检索研究的历史 现状及进展3 Web信息检索系统的逻辑结构4 信息检索的流程与步骤 24 04 2020 2 1 1Web信息检索及相关术语的解释 本节主要知识点 1 Web信息处理系统2 Web信息组织与检索 24 04 2020 3 1 1 1Web信息处理系统 1 Web的概念WideWeb 万维网 简称Web 它是Internet最基本 应用最广泛的服务 也是最主要的信息资源类型 从技术层面看 Web技术核心有三点 1 超文本传输 HTTP 协议 实现万维网的信息传输 2 统一资

2、源定位器 URL 实现互连网信息的定位统一标识 3 超文本标记语言 HTML 实现信息的表示与存储 24 04 2020 4 在Internet上 信息处理系统就是使用信息处理模型建立的Web应用程序 以Web开发环境而言 可以通过信息传递模型和信息处理模型两种方式来建立Web应用程序 1 信息传递模型 2 Web信息处理系统的概念 24 04 2020 5 2 Web信息处理系统的概念 2 信息处理模型 24 04 2020 6 1 1 2Web信息组织与检索 1 Web信息检索信息检索 InformationRetrieval 作为术语第一次出现于1948年CalvinMooers发表的M

3、IT硕士论文中 InformationRetrieval IR 简单地说是从文档集合中返回满足用户需求的相关信息的过程 而今 信息检索 则指 信息存储与检索 InformationStorageandRetrieval Web信息检索是指将信息按照www模式组织和存储起来 并根据信息用户的需要从文档集中找出与信息需求相匹配的文档子集的过程 2 Web信息组织Web信息组织是指用非线性的Web组织方法 将无序状态的信息整序成有序状态的过程 即信息序化或信息整序 它通过揭示信息内在的逻辑联系 对信息进行加工 整理 提炼 使之系统化 浓缩化 从而便于人们利用信息和有效的传递信息 在基于WEB1 0的

4、网络信息组织中 文件 超媒体 数据库 网站 网络资源指南 搜索引擎 编目和学科信息门户等信息组织方式已广泛运用于因特网信息的组织当中 随着WEB2 0技术平台的推出 Blog RSS Wiki和Tag等新的原创 分众 互动的信息组织方式应运而生 诸如网志 评论 图片 收藏的书签 喜好的音乐列表等微内容 成为了WEB2 0数据组织的全新特点 24 04 2020 7 1 1 2Web信息组织与检索 3 数据检索对于数据库系统而言 数据库的查询常指数据检索 数据检索就是根据数据库的结构化属性来搜索 确定哪些文档的属性中包含用户查询的关键字 简单的说 信息检索与数据检索的区别是 信息检索涉及到用户的

5、信息需求和提交的信息查询式不总是结构化的 而且具有语义模糊性 而数据检索 涉及的数据常常具有完好定义的结构和语义 当然 数据检索也属于信息检索的范畴 24 04 2020 8 1 2Web信息检索系统的逻辑结构 本节主要内容 1 2 1信息检索系统的逻辑结构1 2 2主要模块分析 24 04 2020 9 1 2 1信息检索系统的逻辑结构 通常信息检索系统可宏观地分为信息存储与信息检索两大子系统 结合到系统的设计与开发实践 可将信息检索系统直接理解为各种文档的创建和对文档的检索两部分 一种典型的信息检索系统至少包含四个模块 用户查询接口模块 信息预处理模块 信息查询模块以及查询输出与查询反馈模

6、块等 各模块间的基本结构和相互关系如图1 3所示 24 04 2020 10 图1 3Web信息检索系统的逻辑结构 24 04 2020 11 1 2 2主要模块分析 1 信息预处理与结构化模块2 数据库与索引创建模块3 信息查找模块4 查询输出与反馈模块此外 还有信息获取模块 用户查询接口模块等 24 04 2020 12 1 3信息检索的流程与步骤 本节主要内容 1 3 1Web查询流程1 3 2Web查找的一般步骤 24 04 2020 13 1 3 1Web查询流程 24 04 2020 14 1 3 1Web查询流程 从检索的一般流程来看 检索的过程可描述如下 1 Web查询界面 2

7、 查询提交与处理 3 搜索 Searching 4 排序与结果输出 24 04 2020 15 1 3 2Web查找的一般步骤 1 分析检索课题 明确查询的具体要求2 确定检索系统和数据库3 确定检索词和检索入口4 构建检索提问式5 上机检索并调整检索策略6 输出查询结果 24 04 2020 16 1 4Web信息检索研究的历史 现状及进展 本节主要知识点 1 4 1国外研究历史与现状1 4 2国内研究现状1 4 3Web信息检索研究进展与趋势 24 04 2020 17 1 4 1国外研究历史与现状 20世纪80年代中后期 Internet逐步形成 信息检索的发展更多地与Internet相

8、关 Web信息检索 搜索引擎成为信息检索领域研究的主流方向 20世纪90年代 加拿大麦吉尔大学 UniversityofMcGill 计算机学院的师生开发了搜索FTP文件的Archie 1994年7月 MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中 创建了Lycos 成为第一个真正意义的搜索引擎 几乎在同时期 斯坦福大学的两名博士生费罗 DavidFilo 和杨致远 GerryYang 开发了Yahoo门户网站 1998年斯坦福大学博士生SergeyBrin和Larrypage共同研发了如今最知名的搜索引擎Google 并创造性地提出了PageRank算法 同

9、年 J Kleinberg提出HITS算法 利用内容分析筛选出子集 之后进行链接分析 随后 学者们提出了将统计语言模型和信息检索相结合的新思路 词频统计 TermFrequency 和文档频率 DocumentFrequency 等成为语言模型检索方法中的有机组成部分 进入20世纪 文本分类 聚类 信息抽取 多媒体IR 跨语言IR 文本摘要 问答系统 文本挖掘 Web挖掘等研究纷纷涌现 各种与之相关的实验和应用系统也随之出现 各种评测会议和评测方法进一步推动了相关研究的发展 2005年国际信息检索年会论文主要集中在如何提高互联网搜索结果的精度和智能化 针对互联网搜索的一些全新应用的探索以及信息

10、检索领域的经典问题的研究 作为搜索引擎 也由第一代基于关键词的搜索上升到了第二代基于超链接的检索 而后到目前的第三代基于概念的检索 各类垂直搜索引擎与智能搜索引擎纷纷出现 24 04 2020 18 1 4 2国内研究现状 国内许多研究机构开展了对Web信息检索相关领域的基础研究和知识库建设方面的工作 同时在Web检索系统开发方面也可圈可点 如北京大学陈葆珏教授等于1997年10月在CERNET上推出了天网搜索1 0版本 目前成为中国最大的公益性搜索引擎 2000年1月1日 公司创始人李彦宏 徐勇从美国硅谷回国 创建了百度 http 如今已成为全球最大的中文搜索引擎 2004年8月3日 搜狐公

11、司推出了全球首个第三代互动式中文搜索引擎搜狗 http 搜狗以搜索技术为核心 致力于中文互联网信息的深度挖掘 帮助中国上亿网民加快信息获取速度 为用户创造价值 搜狗的产品线包括了网页应用和桌面应用两大部分 网页应用以网页搜索为核心 在音乐 图片 新闻 地图领域提供垂直搜索服务 通过说吧建立用户间的搜索型社区 桌面应用则旨在提升用户的使用体验 此外 中科院计算所开发了NKI Nat1onalKnowledgeInfrastructure 知识问答系统 用户可以通过自然语言提问方式对国家地理知识库 天气预报知识库 人物知识库等十几个知识库进行自然语言方式的查询 研究汉语问答系统的还有台湾大学 台湾

12、中央研究院等单位 国内的学者们还一直致力于提高信息检索的精度研究 在文本分类 信息检索模型 包括文档和查询的表示方法 用户查询相关性的匹配策略 查询结果的排序方法 用户进行相关度反馈的机制和查询扩展方法以及基于内容和语义的图像检索方面都进行了大量的研究 此外 以人为本的智能检索与Agent代理研究 以及移动搜索研究正成为现在与未来Web信息检索研究的重点 24 04 2020 19 1 4 3Web信息检索研究进展与趋势 1 Web2 0与信息组织2 基于Web2 0的信息组织模式 1 Tag 标签 分类模式 2 RSS模式 3 WiKi模式 知识组织模式 博客组织模式 微博客组织模式3 基于

13、Web2 0的信息检索机制 Twitter案例分析 24 04 2020 20 1 4 3Web信息检索研究进展与趋势 展望毋庸置疑 随着互联网的发展 Web3 0 Web3 5 Web4 0将继承并超越Web2 0的技术 为用户提供内容更丰富 相关度更高的用户体验 目前 Web3 0的网站信息组织已具有三个重要特点 1 网站内容可以直接和其他网站信息进行交互和倒腾 能通过第三方信息平台同时对多家网站信息进行整合使用 2 用户在互联网上还可以拥有自己的数据 并能在不同的网站上使用 3 完全基于Web 并用浏览器即可实现原本需系统程序才具有的复杂功能 在社会网络平台建设方面 web3 0或以上更

14、注重平台的兼容性和聚合性 兼容性不仅体现在其与不同网络终端较强的跨平台性 也体现在其与第三方平台顺畅的信息沟通机制上 聚合性体现在网络服务和网络应用的聚合 即通过多元化的网络服务定制和网络应用 来实现网络用户个性化信息需求的聚合 在信息组织方面 Web3 0或以上将更倾向于应对以网络微内容为特征的网络信息组织 将凸显其智能化的处理海量信息的能力 用户的个性化制定 信息的快速自动整合以及完善的信息过滤机制 最后使用户获得最佳的互联网体验 这些将一并成为未来信息组织与检索研究的主要领域与方向 24 04 2020 21 1 5本章小结 本章立足于Web大环境 大背景 介绍了Web信息检索及相关概念

15、 Web信息检索系统的逻辑结构即所包含的主要模块 信息检索的流程与步骤 并探讨了Web信息检索研究的历史与现状 以及Web2 0的信息组织与检索模式 最后对未来互联网的信息检索模式与研究方向进行了展望 对于传统的文献信息检索本章未作讨论 24 04 2020 22 1 6思考与练习 1 简要描述Web信息处理模型 2 简答Web信息检索与Web信息组织的区别与联系 3 简述Web信息检索系统所包含的主要模块及其主要功能 4 试述Web查询的流程和查找的基本步骤 5 解释Web2 0的概念 并简述基于Web2 0的主要信息组织模式 6 结合维基百科 http zh wikipedia org 网站 用图画出Wiki信息组织的流程图 并简要说明 7 画图描述Twitter的信息组织模式 并简答其检索的特点及需要改进之处 8 结合Web3 0或Web3 5的特点 谈谈未来网站信息组织的新特点和发展趋势 此课件下载可自行编辑修改 供参考 感谢您的支持 我们努力做得更好

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号