网络信息采集课件

上传人:我*** 文档编号:139143988 上传时间:2020-07-20 格式:PPT 页数:24 大小:1.42MB
返回 下载 相关 举报
网络信息采集课件_第1页
第1页 / 共24页
网络信息采集课件_第2页
第2页 / 共24页
网络信息采集课件_第3页
第3页 / 共24页
网络信息采集课件_第4页
第4页 / 共24页
网络信息采集课件_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《网络信息采集课件》由会员分享,可在线阅读,更多相关《网络信息采集课件(24页珍藏版)》请在金锄头文库上搜索。

1、网络信息采集,信息获取的一般步骤,网络信息资源与信息采集工具,数据的整理,常用的开放获取资源,研究背景,内容构架,研究背景,我们经常会遇到这样的问题: 1 为什么找不到所需要的信息? 2 为什么查找信息的过程要比别人长? 3 怎么将找到的信息很好地运用,最终解决信息问题?,问题1,问题2,问题3,需要了解一些相关机构发布信息的网站,获得准确的专业信息; 学会使用网络数据库资源获取期刊文摘及全文信息、学术论文等。 第三部分,对文献的内容进行深入分析和挖掘,真正把握信息点及其他人的研究成果,形成自己对问题的认识。 第四部分,培养一套解决信息问题的思考方式,依据步骤逐层深入。 第二部分,信息获取的一

2、般步骤,Level 1,Level 2,Level 3,Level 4,Level 5,界定问题,选择信息源,制定策略并实施检索,评价信息,分析和利用信息,界定问题,考虑的问题:自己是否完全理解待解决问题的相关概念含义?需要查找哪些方面的信息?需要第一手即时消息还是经过加工的消息?问题解决后应该是一个什么样的成果类型?最终,实现对问题的深入思考,完成问题的界定。 包括:分析研究问题、建立背景知识、拟定主题概念。,分析研究问题,研究问题分析以“在某情况下,物流公司对货物处理速度情况的研究”为例,建立背景知识,阅读与研究主题相关的概览性资料,是建立背景知识的最佳渠道。概览性资料通常出现在三次文献中

3、,如百科全书、字词典及年鉴等参考资源中。通过阅读这些资源,可以加深对研究问题的理解,明确检索目标。同时对问题涉及的名词术语进行记录,了解清楚该研究对象的学名、俗名、商业名、同义词等,特别作用非母语检索工具之前,这些名词术语花样繁多的英文表达更是不能疏漏的。,拟定主题概念,以“交通工具不同情况下,物流公司对货物处理速度情况的研究”为例,其他步骤,2 选择信息源。针对“在某情况下,物流公司对货物处理速度情况的研究”这一问题,需要考虑可能存在哪些信息源,哪些信息源是可获得的,在这些可获得的资源中,哪些是比较易得而有意义的。 3 制定策略并实施检索。在开始检索之前没有一个确定的检索策略,就可能很快在消

4、息中“迷失”。这时如果能够利用布尔逻辑连接符将检索词组配成查询语句,并结合各个信息源的特点灵活实施检索,将极大地提高检索效率。 4 评价信息。针对不同信息源进行检索以后,取得的文献信息数量可能相当庞大,内容也有相互重复甚至冲突的地方。这就需要一定的评价方法对信息进行筛选,找到那些来源可靠、内容相关且详尽的文献,删除错误、过时、不相关的信息。 5 分析和利用信息。此时选用相关的工具将检索结果有效组织,会极大地减少工作量。同时进一步通过阅读确定:哪些信息切合需要,哪些信息内容之间存在冲突,需要进一步考察,并依据相关规范正确引用文献资源,最终形成文字性的研究成果。,网络信息资源与信息采集工具,网络信

5、息资源 广义的网络信息源指对各种信息进行分类、汇总、加工、组织,并建立起相互关联的有序结构,由信息内容、信息处理和信息传输三者结合而成。 狭义的网络信息源指用户可以在网上直接取用的无数个信息源的集合。 网络检索工具: 在internet上提供信息检索服务的工具,其检索对象是存在于internet空间中的各类信息资源。 网络信息的采集 正如前述,在浩如烟海的网络上搜寻信息,需要用户了解各种信息源,掌握各种网络信息检索工具,学会信息采集的方法技能,才能将网上的丰富资源为己所用。网络信息的采集工具,或称检索工具,一般泛指面相互联网信息检索、在因特网上提供网页信息资源检索和网站导航服务的站点,具有网络

6、导航的功能,并提供其他相关服务。网络信息采集工具可以大致分为搜索引擎、门户网站和搜索软件、专题型检索工具。,个人信息检索 地图信息检索 BBS检索 博客检索,搜索引擎,专题型检索工具,微博检索工具 维基搜索 RSS检索 FTP资源检索,目录式搜索引擎 机器人搜索引擎 元搜索引擎,详细介绍,目录式搜索引擎,目录式搜索引擎因为有人的参与,信息查询较为精确,导航质量高。当检索一个范围较广的题目,并希望浏览一下与该题目相关的、被推荐的网址时,目录搜索引擎会非常有用。其缺点是需要人工介入,为回廊大、信息量较少、信息更新不及时,当目录中包含太多的分类和连接时,目录本身也不便浏览。因此,这类搜索引擎一般又会

7、引入机器人搜索引擎。 著名的目录式搜索引擎有Yahoo!、Dmoz、LookSmart、网络指南针等。 Yahoo!有很多优点,如主题目录与检索软件结合,使信息检索难度降低,不仅能在所有的分类类目中进行查询,也能根据需要在一个类目中进行查询,保证了较高的查准率;支持中、英、日等10多种语言版本,各版本的内容互不相同。 其缺陷:某些类目下收集的文件数量有限;对于专业较为偏僻的查询,较难提供满意的结果;它倾向于较大网站的网页,很多重要的较小网站的网页往往被忽视。 Dmoz是一个著名的开放式分类目录(Open Directory Project,ODP),ODP是目前网上最大的人工编织的分类检索系统

8、。 LookSmart也是主要的目录型引擎之一,拥有相当规模的普通用户群体及商业客户资源,它从原来类似于Yahoo!的分类目录索引模式发展为现在比较流行的PPC广告方式,为需要投放到欧美市场的公司新网站的系列广告提供平台。,机器人搜索引擎,这种搜索引擎根据一定的网络协议,例如HTTP、FTP等,自动在网上爬行,将信息带回自动标引,并创建索引数据库,建立本地文档集合,用户则对它找到的信息进行检索。然后,本地服务器对文档集合的文档进行分类、索引处理,建立关于文档的信息数据库,供用户查询。 目前,国内具有代表性的机器人搜索引擎有百度、天网、慧聪等;国外著名的搜索引擎有Google、Alta Vist

9、a、Excite等。 百度是全球最大的中文搜索引擎,拥有目前世界上最大的中文信息库,百度全文搜索引擎功能完备,搜索准确率高、更新快及服务器稳定性好,家喻户晓的“百度一下,你就知道”足以说明引擎的影响力。 Google是全球知名的搜索引擎之一,其实用性和便利性赢得了众多用户的青睐。其搜索界面简洁明了,具有基本搜索和高级搜索双重功能,拥有100多种语言界面和35种语言搜索结果。2010年,Google的搜索服务部门退出了中国市场,其总部搬到了中国香港。 Hotbot是一个具有自动跟踪功能的搜索引擎,更新速度非常快,超过其他搜索引擎,一独特的搜索界面著称。,元搜索引擎,元搜索引擎可以为用户提供统一的

10、检索界面,将用户的检索提问同时提交给多个独立的搜索引擎,对多个数据库同时进行检索,并对多个独立搜索引擎的搜索结果进行包括去重、排序、整合等二次加工,那么,相对于传统搜索引擎,它们的优势在于可集成多个数据库进行检索,结果比单一独立的搜索引擎更全面、更精确。遇到需要选择搜索引擎、转化检索条件以及融合检索结果的情况时,可以首选元搜索引擎。,中文元搜索引擎列举,专题型检索工具,个人信息检索,地图信息检索,BBS检索,博客检索,维基搜索,RSS检索,个人信息检索,1)黄页、百页和人物搜索引擎 百页用于查找一般用户的电话号码和地址,黄页用于查找商业用户电话号码和地址。有的百页还提供道路图、驾驶路线等。 I

11、nfospace()提供黄页查询、百页查询、公共记录查询、地图和驾车线路查询、反向查找。 相似的工具还有Yahoo!People Search()用于查电话、电子邮件、地址等;Bigfoot()综合性全球电子邮件目录服务,多种语种检索入口;Any Who()提供黄页查询、百页查询、人员检索、商务检索和反向检索等功能;Internet Address Finder(),查E-mail,提供黄页、百页、电话区号、邮政编码、语音、人口资料和Whois检索;Who Where()提供黄页和百页查询,除电子邮箱、电话和地址查找,还可按分类查找语言、职业、公司、大学、政府机构。 (2)、Whois服务器

12、提供这种服务的机构首推InterNIC,它把那些到中心进行域名注册的网络或计算机管理人员和技术负责人的个人信息组织成一个大的数据库,提供相应的查询服务。还有如CNNIC域名注册信息查询(http/),支持域名查询、主机查询和联系人信息查询。许多大机构、学校也建立自己的Whois系统,将本单位人员的有关信息建成数据库,对外提供查询服务。 (3)、各专业的文献数据库或学科信息门户 (4)、实名社交网 如人人网、开心网()、yahoo!关系(http/)、六度人脉网()等。这些社区虽然名为实名制,由于缺乏有力规范的监管,用户上传的“真实资料”无据可查,所以审核把握信息的可靠性尤为关键。 (5)、同学

13、录 如中国人同学录(http/)、网易同学录(http/ (6)、被查找的人所在单位的主页 许多学校和机构在网上建立了自己的主页,并把本单位的人员情况放在自己的主页上,对外提供检索服务。如果知道所要查找人的单位,可以通过其单位的主页查找。如俄亥俄州立大学主页上的“People Search”,联想公司主页上的“职员名录”。,地图信息检索,网络地图,国内地图,国外地图,搜狗地图(http:/) 百度地图(http:/) 中搜地图(http:/) 中国旅游网地图(http:/) 腾讯QQ地图(http:/),谷歌地图(http:/) MapQuest(http:/ 虚拟导游(http:/) 必应地

14、图(http:/ 雅虎地图(http:/) Topozone(http:/),BBS检索,如今,网上BBS发展迅速,不仅有大量专门的BBS论坛,各大门户网站、企业和高校都建立了自己的论坛。由于从BBS获得的信息动态性强,且具有较大挖掘价值,因此BBS信息的采集日益受到关注,已成为企业发展情报工作的重要信息源之一。,BBS论坛资源(网址),博客检索,Blog的出现,在很大程度上满足了个性化的需要,也使得用户从信息接收者向信息提供者转变。它通过RSS、Trackback、TAG等技术,在个体之间初步形成了社会氛围和社团机制,逐渐形成社会化的联合。,维基搜索,现在影响最大的维基网站是WiKi百科(h

15、ttp:/W),中文的则是互动百科(http:/)。通过维基网站,人们可以了解到他人对一些概念、术语、理论的理解和评价,因此维基网站也可以成为学术研究的重要参考资源。,主要的国内外WiKi网站,RSS检索,RRS用户端阅读软件可根据用户个人喜好设置,以频道的形式订阅自己关注的网站,在第一时间将被关注网站的更新情况及时推送到阅读器上。在许多新闻信息服务类网站及Blog上,会看到RSS、XML或者“订阅”的按钮,有的网站会使用一个图标,有的会同时使用两个,这是典型的RSS订阅标志,一般连接到RSS信息源。 当前较流行的RSS订阅方式,一是E-mail订阅,二是订阅RSS客户端阅读器。,常见的RRS

16、资源站点,C 要用一定的组织形式和方法,对原始资料进行科学的分组,这是统计整理的前提和基础。,A 设计整理方案。整理方案与调查方案应紧密衔接,指标体系与调查项目要一致,或者是其中的一部分,绝不能矛盾、脱节或超越调查项目的范围。.,B 要对调查得来的原始资料进行审核、订正。审核它们是否准确、及时、完整,如果发现问题,应该及时纠正。,E 编制统计表。统计表是统计资料整理的后果,也是表达统计资料的重要形式之一。,F 图示,用统计图形来表示总体单位在各分组的分配,又称为次数分布。,数据的整理,常用的开放获取资源如下: 1 arXiv.org (http:/www.arxiv.org) 一个专门收集物理学、数学、计算机科学和生物学学术论文电子预印本的开放访问典藏资源 2 CiteSeer (http:/citeseer.ist.psu.edu) 一个自主开发的关于计算机、信息科

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号