搜索引擎与信息检索

资源描述

《搜索引擎与信息检索》由会员分享，可在线阅读，更多相关《搜索引擎与信息检索（5页珍藏版）》请在金锄头文库上搜索。

1、Starting Addresshttcppsu. edu. crL/llink弓 r om thi e说说搜索引擎的那些事1 搜索引擎是如挖掘数据的？目前主流的搜索引擎在进行数据挖掘的时候普遍使用 Web Spider ，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么 Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原

2、理把互联网上所有的网页都抓取下来。我们可以用一个软件来演示这个过程Teleport Pro 首先如果我们要对中国公安大学这个网站的资源进行搜索我们首先要得到一个URL http:/ 进行分析，然后得出主页当中的所有超链接Sgt Project fizard 一 Step 2 of 4Enter :=ltl Internetto serve as thet：irting location for thi s proj ect. Ex：diTiplee of valid Dternet adilresses ：=Lrewww. mi croscift. com , www. google. co

3、mi11 news/、Ho-iV deeply would you like Teleport to Up(If you want to add more 弓tarting adiifesEes to yom- project later use thm New Adiit-HSE meiM c :mmor pr ess the： Hew AdiifesE but ton on当Crawler有游历完一个网站之后便会把信息传动到(Store Server)当中去。然后会对数据进行压缩并对对其压缩后的网页及URL进行分析，记录下网页长度、 URL、URL长度和网页内容，并赋予每个网页一个文档号

4、(docID)。当然因为资源的原因如果你的网站使用了大量的 SWF 连接的话可能不会被搜索引擎有效的进行收集。还有就是你可能会发现一些网站你通过 WEB 浏览器是不能查看到信息的但，是搜索引擎却可以把这些东西给找出来。举个例子吧你搜索的信到息可能是一个论坛的帖子，只有会员资格才能查看。你可以通过搜索引擎的快照但你直接打开网页却被拒绝访问这是为什么？2 搜索引擎为什么能搜到看不见的网页的 ?Robots秘密就在这里，robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的当一个搜索蜘蛛访问一个站点时，它会

5、首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。有些网站为了增加自己的知名度，希望被搜索引擎捕捉到所以它们给搜索引擎留了一道后门。3 我们通过搜索引擎所获取的信息是如何进行排序的？我们在对一个文件进行搜索的时候，搜索引擎为我们呈现出大量符合要求的结果，当我们选择用相似度进行排序时，搜索引擎室依据什么来决定网页出现的先后顺序的呢？网页在进行排序的时候是受到多个因素影响的以 GOOGLE 为例 1词频统计法词频统计法也就是向量空间模型采用的相似度计算方法

6、。是搜索引擎对结果排序的一个基本方法，在具体计算的过程中还要考虑字体大小、字体颜色、关键字在文档中所处位置等诸多因素，然后再分别赋予相应的权重，通过文本相似度对比公式得出一个相似度分数in_q 工 tf (t_in_d) idf (t) boost (t. field_in_d) length-Norm( t.field_in_d)2 链接分析法PageRank 是 Google 用于用来标识网页的等级 /重要性的一种方法，是 Google 用来衡量一个网站的好坏的唯一标准。基本原理是被更多地被其他页面链接的页面是质量更好的页面，并且从更重要的页面出发的链接有更大的

7、权重 GOOGLE 会通过对一个网站的提供信息的价值为一个网站进行评分。3 竞价排名搜索引擎是公司用来赚钱的，当然如果你想让更多的用户能搜索到自己的信息就要交更多的钱。4索引擎是如何知道你感兴趣话题的？搜索引擎进行信息过滤和对文件检索应用的是同一种技术，都要经过以下几个步骤一个最简单的过滤系统包括4个基本组成部分：信源formation Source)、过滤器 (Filter)、用户(User)、用户需求模板(Profiles)信息过滤器处于信源与用户之间，通过用户需求模板获取用户的兴趣信息，并据此检验信源中的信息，将其中与用户兴趣相关的信息递送给用户。反过来，用户也可以向信息

8、过滤器发送反馈信息以说明哪些信息的确符合他们的信息需求，通过这种交互行为使得过滤器不断进行学习，调整自身的过滤操作，进而能在以后提供更多更好满足用户兴趣的信息。在不断的学习过程当中搜索引擎就会给你提供你可能要获得的信息。您要找的是不是:公安大学thirl A至从窑+豈5如何在搜索引擎中使用提问检索式？提问检索式是检索策略的逻辑表达式，是用来表达用户提问的，由基于检索概念产生的检索词和各种组配算苻构。通过灵活的使用提问式可以有效提高我们搜索效率那么在搜索引擎当应当如何使用呢，秘密就在搜索引擎的高级选型内完整关键词就相当于波尔逻辑中的AND,包含下列关键词相当于OR,不包含关键词就是N

9、OT 了但是我们应当如何使用嵌套语句呢？答案就在百度“结果中查找“|嵌套百度一下|结果中找“。在进行一次查询后在结果内再次进行查询就相当于提问式检索当中的一级语句嵌套。6我们在信息查找当中应该如何选择搜索引擎？目前国内的门户搜索引擎主要有百度、Google、雅虎、还有微软公司刚刚推出的比应。百度的优势在于中文分词效果较好、GOOGLE作为世界最大搜索引擎主要在外文搜索比较在行,其支持的语言已经多到了让人发质的程度。|訥页|屋片视频廣讯地图更多必Oing匪st全部显乐但限于简体中裳必应是微软刚刚推出的一款搜索引擎产品,微软垂涎搜索引擎市场已经很长时间了，本来想通过强行并购雅虎进入市场，

10、不过因为GOOGLE得干预没有成功，攻城没有成功这回微软只有自己拉山头了。目前优势不明显但以微软的技术积累应该很有发展前景，特别是凭借自己在桌面市场的优势，当年IE战网景的一幕会不会重演呢？我们拭目以待了，其图片检索功能在对图片检索的时候还可以设定人物在图片中的比例甲国勘再少晋利策新闻奖四川新闻新闻发布会田尺寸田版式田颜色4样式日人物仅面制半身像耘相关性样甯Ii间捋序间答博容论坛学院嗣址口袋社区应该是人像识别技术的延伸不过，也算做到了图像信息基于内容的检索。雅虎是靠分类搜索引擎起步的，国内最开始的搜狐仿造的就是这个。不过后来搜狐最终放弃了搜索引擎，雅虎能撑到什么时候就不一定了

11、。当然针对特定的数据进行检索使用专门的搜索引擎会起到更好的效果。比如奇虎网其有一非常由意思的功能就是进行论坛搜索。因为其只对论坛进行搜索所以，Spider可以更加频繁的对其内容进行检索。而且通过论坛得到的内容往往更有价值。我哀旳伺t全部时何天内-周内二月肉谁暮欢刘剑甲？作者：朗1.弭未源：百JWjB_阚您es回g： 8谁冬itt!初二顽剤險仔7 HoHoSA。有谁眼规谨虫低九班翦吓男主不颐卿儿去7. 呻缶躺隹说我死哪儿去了？标观身？那个死胖子死胖子林熹？tieba baidu a)nn/f?kz=S3405S 0S7 妁门宇-正艾快唄-收茨哎嗎乐死我了刘剑千17号内天祢跑嘛?笑了你见:ff#： me鑫負彌：百度贴吧 m： 9回复* q咬尉亲死我了刘釧宇-存号内央麻抱常咲 T徐见钱聊啡宠死找了tieba. baidu c orti/f?kz-5154S4 99S 妁 M狞正文快賠 * 收藏我听说刘剑宇不行了?来近来论论. 200812-10作萄hlE鑫賢来源：百魔貼吧浏览：3S回复t 1听说你不行了是么伽哥34躬20刊押论论咱俑草T 了吗也不说了知摩宇tieba.baidu.conn/Pkz=612261123正交快娠电遞

展开阅读全文