3 Web搜索相关技术－金锄头文库

资源描述

《3 Web搜索相关技术》由会员分享，可在线阅读，更多相关《3 Web搜索相关技术（31页珍藏版）》请在金锄头文库上搜索。

1、3 Web搜索相关技术,3.1结构分析技术PageRankHITS3.2内容分析技术分类聚类3.3Web信息组织技术网页净化语种识别页面查重自动摘要中文切词3.4Web信息存储与索引技术3.5Web搜索实现过程,3.1.1超链分析技术,PageRank算法目标区分网页质量主要思想一个网页被多次引用，则它可能是很重要的；一个网页被重要的网页引用，则它可能是很重要的；一个网页的重要性被平均的传递给它所引用的网页。例如网页A有一个指向网页B的链接，则意味着网页A认为网页B是重要的；假如有10个网页指向网页A，而指向网页B的链接却只有2个，则说明网页A比网页B更加重要。,Google给出的中科

2、院文献情报中心网站的PageRank(7/10),Google给出的北京大学网站的PageRank(8/10),B()代表指向页面的页面集合N(j)表示页面j中指向其它页面的超链数目PR(j)表示页面j的权威度PR(I)表示为页面的权威度d（0d train.10000.arff)22run.bat: 执行训练并建立分类规则33run.bat: 生成测试数据：test.arff44run.bat: 对测试数据test.arff进行分类输出结果1. 实际类别: TK5105.55 2. 可选类别:TK5101-6720 3. 推荐类别:TK5101-6720,3.2.2内容分析技术,聚类没有预先

3、定义主题类别，而是通过分析文档内容动态生成类别。要求同一类别文档相似度尽可能大，而不同类间的相似度尽可能地小。“聚类假设”内容相关文档通常会聚类的比较靠近，远离不相关文档。主题表示方法通过识别在文本组中常用的一系列术语或单词来描述主题，找到其中隐含的相似关系，实现基于内容的文档聚类。文本聚类算法层次凝聚法平面划分法,内容分析技术聚类,Grokker 每个分类目录被显示为一个彩色的球体；球体的大小代表该类目下相关文献的数量子类目以包含在大球中的小球来表示当你点击相应的球体时，该区域就会被放大，里面就会显示更多的子类目（小球），这种“非线性”的搜索方式会让你迅速“逼近”所需要信息。,页面净化根据

4、网页结构，识别网页中不同类型的内容块，舍弃噪音信息，如导航信息、广告信息、版权信息等，剥离出正文信息。它是主题相关度计算、资源查重、自动摘要、自动分类以及元数据抽取的前提.相关研究如何剔除网页中噪音信息?利用DOM树发现、提取与主题相关度较高的子树；网页信息抽取：抽取题名、文摘、正文文本等。,3.3.1网页净化,3.3.1网页净化,页面净化过程预处理包括发现、修补网页结构语法错误，裁剪无关数据项等；建立DOM树将HTML网页表示成树状结构，借助相关工具标识出HTML布局块结点；分析块结点标识出块结点的特征信息，包括块类型、属性集合、超链集合、特殊标签信息等；识别块结点内容利用向量空间模型并辅助

5、启发式规则；页面类型划分如主题型页面、目录型页面、图形页面、导航网页等。,3.3.1网页净化,以上网页净化结果：中国科学院文献情报中心首页您现在的位置是：服务 - 文化传播服务中科院文献情报中心科学文化传播中心充分利用有利科技资源以普及科技知识，倡导科学方法，传播科学思想，提高公众科学文化素养，弘扬科学知识做积极的探索与实践。推出不同类型的讲座、报告及科学文化产品，积极深化文献情报阵地服务功能，逐步形成有影响力的科学文化传播系列活动品牌。科学文化传播中心位于中国科学院文献情报中心大楼一层西北部，居中关村科学城中心地段；紧邻北四环主路，交通便利畅达，为满足举办展览、论坛、科技报告、学

6、术交流、青少年科技活动和培训活动的需要，科学文化传播中心目前已开放的功能区有：报告厅、多功能厅、院士厅、贵宾室、会客室、停车场等。智能化水平高、周边辐射能力强、文化积淀深厚，是不可多得的高层次会议和展览场所。,3.3.2语种识别,根据Global Reach的统计：英文网页占35.2%中文占13.7%学术信息的多语种化发展丰富了网络资源，同时也给信息的采集与利用带来障碍；识别信息语种成为信息组织与利用的前提条件。,3.3.2语种识别,HTML文档语种标识方式 -有以上标识的HTML肯定是简体中文 -有以上标识的HTML可能是英文、法文、德文等，需要做进一步识别无结构文档，如纯文本文档等，没有语

7、言标识，需要识别。,3.3.2语种识别,所谓语种识别就是利用文本内容的一些特征线索自动识别出其语种类别。语种识别通常采取分类技术，主要有方法：词模型法“N元”模型法。,3.3.2语种识别,词模型法识别过程首先，建立一个对应某一语种的特征词表，特征词最好是唯一标识一种语言然后，依据词频统计方法用从待识别文本中抽取特征词，用特征词查询特征词表，通过匹配率计算，生成文本的语种。词模型法特点词表的大小根据语言的特点而定，如果语言形态较多，则需要较长的词表支持不支持无空格分隔的语言，如中文，需要先分词拼写错误将影响识别精度,3.3.2语种识别,“N元”模型法用一定长度的字符串表示语种特征。如英文词“

8、TEXT”包括以下N元组（“_”表示空格），每个字符串再分配一个权值。,“N元”模型识别过程从每种语言样本文本中抽取语言特征，构成该种语言特征信息；从待识别文本中抽取语言特征项；计算待识别文本特征项与所有语言类别特征项之间的相似度，判断语种。特点支持没有空格标记的语言识别能容忍文本拼写错误及语法错误,3.3.2语种识别,应用实例英文“N元”模型测试1 测试文本：“这是测试文字如果输出为中文则证明程序判断正确”测试2 测试文本：“It is often assumed that a Search System is just a must-have!”测试3 测试文本：“搜索引擎（search

9、engine）技术在飞速发展，分类、聚类、多媒体、自然语言理解等”,3.3.3 文档查重,造成URL重复的原因第一种，由相对路径、页内书签“#”、URL别名等造成的重复第二种，动态生成的URL，如包括SESSION的URL第三种，资源重复收藏，如镜像、引用等查重方法分类法副本检测查重算法由D.M. Campbell 等人提出，它将一篇文档分解为一个个句子，计算每个句子的HASH值，根据HASH空间中的重复值频率，确定两篇文档是否相同。,3.3.3自动文摘,自动文摘法（1）文首自动截取法美国学者Baxendale进行过统计，仅从文章开头抽取给定长度的一段文字作为摘要，就达到87%96%的

10、可接受率，目前很多搜索引擎都采用该方法。,（2）抽取检索词上下文法Google自动摘要,（3）论题句提取法利用词频统计与句子加权法，从文档中抽取重要的短语、句子构成摘要文档标题、子标题能集中反应文挡主题；每个段落的主题句通常位于段首或段尾；,3.3.4自动文摘,（4）仿人法上海交通大学教授王永成教授将该技术应用在纳讯新闻查询系统（http:/ search.htm）,3.3.5中文切词,切词是文本分类、文本挖掘以及全文词索引的基础。ICTCLAS中国科学院计算技术研究所在多年研究基础上，研制出了基于多层隐码模型的汉语词法分析系统ICTCLAS( Institute of Computin

11、g Technology, Chinese Lexical Analysis System，http:/ Eyebrows：APACHE项目主要邮件列表归档系统 Cocoon: 基于XML的web发布框架，全文检索使用Lucene Eclipse: 帮助部分全文索引使用Lucene,3.4.2全文索引技术,Lucene索引示例,/1. 构建索引器IndexWriter writer=new IndexWriter(indexPath, /指定索引文件路径 new StandardAnalyzer(), /指定分析器 bIncrease); /完全索引或增量索引 /2. 构建索引记录文档Docu

12、ment doc = new Document(); /定义一个新的索引记录文档 doc.add(new Field(rcdid, docrcdid,Field.Store.YES,Field.Index.NO); /为字段rcdid添加内容，该字段不索引为对应关系数据库记录IDdoc.add(new Field(“body, pagecontent, Field.Store.NO, Field.Index.TOKENIZED); /将网页信息添加到索引文档指定字段中该字段做索引/3. 将新建的索引记录写入索引文件writer.addDocument(doc); /4. 关闭索引器writer.close(); ,

展开阅读全文

3 Web搜索相关技术

最新文档