基于xml的web信息抽取技术研究

资源描述

《基于xml的web信息抽取技术研究》由会员分享，可在线阅读，更多相关《基于xml的web信息抽取技术研究（68页珍藏版）》请在金锄头文库上搜索。

1、沈阳理工大学硕士学位论文基于XML的Web信息抽取技术研究姓名：范春晓申请学位级别：硕士专业：计算机软件与理论指导教师：和晓军 20100301 摘摘要要随着 Internet 的快速发展，Web 上的数据信息急剧增加，成为了世界上规模最大的公共数据资源，而信息展示网页是主要的展现媒介，大量 Web 信息是在信息展示页面中表现的，这些信息是用户感兴趣信息的主要来源，因此，研究如何对这类网页进行 Web 信息抽取有重大的意义。 HTML 在展示数据方面十分成功，它着重于文本内容的表现而不是数据的描述，根据标签无法获得它们所包含的文本内容。XML 是着重于数据描述的一个

2、新的语言，易于对数据进行控制与操作，所以通过 XML 技术进行信息抽取具有很大的优势。而 XHTML 做为 HTML 与 XML 之间的桥梁，可以将 HTML 格式转换为符合 XML 技术标准的 XHTML 格式。本文采用可扩展标记语言 XML 的相关技术来抽取信息展示网页中的信息。其解决方案是：首先，对获取的网页进行预处理，主要包括对 HTML 网页进行标签清洗，将清洗后 HTML 文档转换为 XHTML 文档，并解析 XHTML 文档生成 DOM 树；随后，通过改进基于 XML 的分块算法，采用 DOM 树节点赋权值方法进行主数据块的抽取，并形成数据记录；最后，基于 XML

3、行业词汇与文字数量特征对数据记录进行二次识别，最终抽取出信息展示页的主要内容。本文对信息抽取的相关技术进行了研究，根据信息展示网页的特点确定了抽取信息的方法，最后建立了抽取的实验模型。在进行信息抽取时，由于抽取主数据块采用了合理的权值，所以很好的去掉噪音信息；同时还采用了二次识别权值的方法，精确的抽取出主要信息。试验结果表明，采用该方法在召回率和准确率上都得到了良好的效果。关键词： Web 信息抽取，可扩展标记语言，信息展示网页，权值沈阳理工大学硕士学位论文 Abstract With the rapid development of the Internet, the We

4、b data information is sharp increasing, which becomes the biggest information source beyond the other sources. Consequently, how to extract valuable information form web has become a research focal point. Currently, a mass of Web information will be showed in the information display page which is ma

5、in media, so the reseach of such pages has become extremely significant and practical. HTML is very successful in the display data, and it focuses on the performance of the data, rather than a description of the data, so according to label, we can not gain the content it contains through label. XML

6、is a new technology that focuses on operating the data, as a result, it has great advantages to extract data by XML technology. XHTML provides a brigde for them, and it can convert HTML to XHTML which meets the XML technical norms. Thanks to using HTML technology in an army of Web page, in this thie

7、se, extract data of information display page taking advantage of XML-related technologies. Its solution is: Firstly, Access to target information display page and cleaning this page, then the cleaned HTML source is converted into structured XHTML document by Ntidy tool.Secondly, Extract main data bl

8、ock via empowering the value to DOM tree node and generate data record; Finally, choose the best useful information through XML-based field vocabulary and the number of words in the data record, and store the best data record. In this thiese, reseaches have been done on related technology of informa

9、tion extraction. According to the feature of information display pages, we propose information extraction method and establish a model of Experiment. During the course of extrating information, we choose rational value for main data block, so it can get rid of the noise information; we also adopt th

10、e method of second recognize value, to extract infortion exactly. The experiments show that this method obtained good results in recall ratio and accuracy rate. Key words：Web Information Extraction, XML, Information Display Page, Weight Coefficient 沈阳理工大学硕士学位论文原创性声明本人郑重声明:本论文的所有工作，是在导师的指导下，由作者本人独

11、立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者（签字）：日期：年月日学位论文版权使用授权书本学位论文作者完全了解沈阳理工大学有关保留、使用学位论文的规定，即：沈阳理工大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘，允许论文被查阅和借阅。本人授权沈阳理工大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或

12、其它复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本授权书）学位论文作者签名：指导教师签名：日期：日期：第 1 章绪论 - 1 - 第 1 章绪论 1.1 研究背景及意义 2009 年 1 月 13 日，中国互联网络信息中心（CNNIC）在京发布了第 23 次中国互联网络发展状况统计报告。报告显示，截至 2008 年底，中国的网站数，即域名注册者在中国境内的网站数（包括在境内接入和境外接入）达到 287.8 万个，中国网页总数超过 160 亿个，网页总数据量达 460，217，386，099KB。面对如此庞大的数据，如何从海量 Web 网页中获取相关信

13、息就成了一个亟待解决的问题1。 Web 使人们获得大量信息的同时，也带来了很多需要解决的问题。由于网络的方便快捷，使得在 Web 上发布的各种信息急剧增长，Web 上海量的信息使用户使用的时候产生了巨大的困难，用户为了获得相关信息，可能浪费大量的时间来进行信息搜索，查看大量的网页，而且查找的资料可能并不是很精确。虽然现在的搜索引擎很多，而且基于不同的算法，但是搜索到的结果可能是一个并不理想的网页超链接集合，详细的信息还需要用户进入网页查找。因为这些网页只是包含有用户输入的关键字，集合中的有些网页并不是用户感兴趣的。所以通过这种方式查找信息浪费了大量的人力、物力和时间。另外，H

14、TML 是 Web 网页的主要存在形式，而 HTML 是半结构化的 Web 开发语言，计算机并不能很好的理解它们，更不能像结构化的数据库一样可以提供功能强大，而且高效的 SQL 语言。让用户使用 Web 信息与使用数据库一样简单，这是信息抽取的目的。为了更好的解决上述的各种问题，有必要对 Web 信息抽取进行更深入的研究。 1.2 信息抽取的对象和任务信息抽取系统是将信息从各种文档中，如 Web 网页等，抽取后组织成可以直接利用的、结构化的，并且存储到数据库的系统2。信息抽取的对象主要是大量芜杂的信息，信息抽取是将这些信息进行提取、整理、组织成利于查找和使用的形式。信息抽取任务

15、是由消息理解会议（MUC）定义的，不同的任务有着不同的规范，而沈阳理工大学硕士学位论文 - 2 - 且不同的任务有着各自的评价体系标准，根据抽取的内容和抽取出的信息的语义相关度的差别，信息抽取的任务3分为： (1) 命名实体识别信息抽取4（NE，Named Entity Recognition）,简单的说，NE 的任务就是将信息中名字、日期、地点、数字表达式等提取出来，并对各类信息进行分别存放。在对实体信息进行识别的过程中应对它在文本中的位置进行标记，对这类信息的检索。 (2) 多语言实体识别信息抽取5（MET， Multilingual Entity Task）， MET 可以

16、对中文、韩文等多种语言的命名实体进行抽取，并不局限于英语实体。 (3) 模板元素信息抽取6（TE，Template Element），TE 主要利用了不同的实体具有各自特定的描述信息和方式的特点，将这种特点和实体本身进行联系来抽取信息。首先，将与实体有关联的标志信息提取出来，将这些信息看作是这个实体的属性，实体和这些属性作为一个实体对象。 (4) 参照信息抽取（CO，Coreference），在同一个文档中，CO 主要是将同一实体的描述信息组织成一个整体，并分析此实体在不同位置的主要情况；当这个实体在不同文档时，分析它与别的实体的关系。CO 有助于情节信息的抽取。 (5) 情节模板信息抽取（ST，Scenario Template），ST 是以发生的事的时间为抽取对象，并将时间和其他实体连结为一个整体。ST 需要的是时间实体和它的属性，将除时间外的其他实体对应到事件的相应位置，通过这些联系模拟出事件原型。以上的任务都是信息抽取的核心，不同的信息抽取用到不同的任务。 1.3 信息抽取

展开阅读全文

基于xml的web信息抽取技术研究

最新文档