基于xml的web信息抽取技术研究

上传人:E**** 文档编号:117933511 上传时间:2019-12-11 格式:PDF 页数:68 大小:1.05MB
返回 下载 相关 举报
基于xml的web信息抽取技术研究_第1页
第1页 / 共68页
基于xml的web信息抽取技术研究_第2页
第2页 / 共68页
基于xml的web信息抽取技术研究_第3页
第3页 / 共68页
基于xml的web信息抽取技术研究_第4页
第4页 / 共68页
基于xml的web信息抽取技术研究_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《基于xml的web信息抽取技术研究》由会员分享,可在线阅读,更多相关《基于xml的web信息抽取技术研究(68页珍藏版)》请在金锄头文库上搜索。

1、沈阳理工大学 硕士学位论文 基于XML的Web信息抽取技术研究 姓名:范春晓 申请学位级别:硕士 专业:计算机软件与理论 指导教师:和晓军 20100301 摘摘 要要 随着 Internet 的快速发展,Web 上的数据信息急剧增加,成为了世界上规模 最大的公共数据资源,而信息展示网页是主要的展现媒介,大量 Web 信息是在 信息展示页面中表现的,这些信息是用户感兴趣信息的主要来源,因此,研究如 何对这类网页进行 Web 信息抽取有重大的意义。 HTML 在展示数据方面十分成功, 它着重于文本内容的表现而不是数据的描 述,根据标签无法获得它们所包含的文本内容。XML 是着重于数据描述的一个

2、新的语言,易于对数据进行控制与操作,所以通过 XML 技术进行信息抽取具有 很大的优势。而 XHTML 做为 HTML 与 XML 之间的桥梁,可以将 HTML 格式 转换为符合 XML 技术标准的 XHTML 格式。 本文采用可扩展标记语言 XML 的相关技术来抽取信息展示网页中的信息。 其解决方案是:首先,对获取的网页进行预处理,主要包括对 HTML 网页进行 标签清洗,将清洗后 HTML 文档转换为 XHTML 文档,并解析 XHTML 文档生 成 DOM 树;随后,通过改进基于 XML 的分块算法,采用 DOM 树节点赋权值 方法进行主数据块的抽取,并形成数据记录;最后,基于 XML

3、行业词汇与文字 数量特征对数据记录进行二次识别,最终抽取出信息展示页的主要内容。 本文对信息抽取的相关技术进行了研究, 根据信息展示网页的特点确定了抽 取信息的方法,最后建立了抽取的实验模型。在进行信息抽取时,由于抽取主数 据块采用了合理的权值,所以很好的去掉噪音信息;同时还采用了二次识别权值 的方法,精确的抽取出主要信息。试验结果表明,采用该方法在召回率和准确率 上都得到了良好的效果。 关键词: Web 信息抽取,可扩展标记语言,信息展示网页,权值 沈阳理工大学硕士学位论文 Abstract With the rapid development of the Internet, the We

4、b data information is sharp increasing, which becomes the biggest information source beyond the other sources. Consequently, how to extract valuable information form web has become a research focal point. Currently, a mass of Web information will be showed in the information display page which is ma

5、in media, so the reseach of such pages has become extremely significant and practical. HTML is very successful in the display data, and it focuses on the performance of the data, rather than a description of the data, so according to label, we can not gain the content it contains through label. XML

6、is a new technology that focuses on operating the data, as a result, it has great advantages to extract data by XML technology. XHTML provides a brigde for them, and it can convert HTML to XHTML which meets the XML technical norms. Thanks to using HTML technology in an army of Web page, in this thie

7、se, extract data of information display page taking advantage of XML-related technologies. Its solution is: Firstly, Access to target information display page and cleaning this page, then the cleaned HTML source is converted into structured XHTML document by Ntidy tool.Secondly, Extract main data bl

8、ock via empowering the value to DOM tree node and generate data record; Finally, choose the best useful information through XML-based field vocabulary and the number of words in the data record, and store the best data record. In this thiese, reseaches have been done on related technology of informa

9、tion extraction. According to the feature of information display pages, we propose information extraction method and establish a model of Experiment. During the course of extrating information, we choose rational value for main data block, so it can get rid of the noise information; we also adopt th

10、e method of second recognize value, to extract infortion exactly. The experiments show that this method obtained good results in recall ratio and accuracy rate. Key words:Web Information Extraction, XML, Information Display Page, Weight Coefficient 沈阳理工大学 硕士学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独

11、立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考 文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或 集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体, 均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承 担。 作者(签字) : 日 期 : 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解沈阳理工大学有关保留、使用学位论文的规 定,即:沈阳理工大学有权保留并向国家有关部门或机构送交学位论文的 复印件和磁盘,允许论文被查阅和借阅。本人授权沈阳理工大学可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或

12、其它复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名: 指导教师签名: 日 期: 日 期: 第 1 章 绪论 - 1 - 第 1 章 绪 论 1.1 研究背景及意义 2009 年 1 月 13 日,中国互联网络信息中心(CNNIC)在京发布了第 23 次中国 互联网络发展状况统计报告 。报告显示,截至 2008 年底,中国的网站数,即域名注册 者在中国境内的网站数(包括在境内接入和境外接入)达到 287.8 万个,中国网页总数 超过 160 亿个,网页总数据量达 460,217,386,099KB。面对如此庞大的数据,如何 从海量 Web 网页中获取相关信

13、息就成了一个亟待解决的问题1。 Web 使人们获得大量信息的同时,也带来了很多需要解决的问题。由于网络的方便 快捷,使得在 Web 上发布的各种信息急剧增长,Web 上海量的信息使用户使用的时候 产生了巨大的困难,用户为了获得相关信息,可能浪费大量的时间来进行信息搜索,查 看大量的网页,而且查找的资料可能并不是很精确。虽然现在的搜索引擎很多,而且基 于不同的算法,但是搜索到的结果可能是一个并不理想的网页超链接集合,详细的信息 还需要用户进入网页查找。因为这些网页只是包含有用户输入的关键字,集合中的有些 网页并不是用户感兴趣的。 所以通过这种方式查找信息浪费了大量的人力、 物力和时间。 另外,H

14、TML 是 Web 网页的主要存在形式,而 HTML 是半结构化的 Web 开发语 言,计算机并不能很好的理解它们,更不能像结构化的数据库一样可以提供功能强大, 而且高效的 SQL 语言。让用户使用 Web 信息与使用数据库一样简单,这是信息抽取的 目的。 为了更好的解决上述的各种问题,有必要对 Web 信息抽取进行更深入的研究。 1.2 信息抽取的对象和任务 信息抽取系统是将信息从各种文档中,如 Web 网页等,抽取后组织成可以直接利 用的、结构化的,并且存储到数据库的系统2。信息抽取的对象主要是大量芜杂的信息, 信息抽取是将这些信息进行提取、整理、组织成利于查找和使用的形式。 信息抽取任务

15、是由消息理解会议(MUC)定义的,不同的任务有着不同的规范,而 沈阳理工大学硕士学位论文 - 2 - 且不同的任务有着各自的评价体系标准, 根据抽取的内容和抽取出的信息的语义相关度 的差别,信息抽取的任务3分为: (1) 命名实体识别信息抽取4(NE,Named Entity Recognition),简单的说,NE 的 任务就是将信息中名字、日期、地点、数字表达式等提取出来,并对各类信息进行分别 存放。在对实体信息进行识别的过程中应对它在文本中的位置进行标记,对这类信息的 检索。 (2) 多语言实体识别信息抽取5(MET, Multilingual Entity Task) , MET 可以

16、对中文、 韩文等多种语言的命名实体进行抽取,并不局限于英语实体。 (3) 模板元素信息抽取6(TE,Template Element) ,TE 主要利用了不同的实体具有 各自特定的描述信息和方式的特点, 将这种特点和实体本身进行联系来抽取信息。 首先, 将与实体有关联的标志信息提取出来,将这些信息看作是这个实体的属性,实体和这些 属性作为一个实体对象。 (4) 参照信息抽取(CO,Coreference) ,在同一个文档中,CO 主要是将同一实体的 描述信息组织成一个整体,并分析此实体在不同位置的主要情况;当这个实体在不同文 档时,分析它与别的实体的关系。CO 有助于情节信息的抽取。 (5) 情节模板信息抽取(ST,Scenario Template) ,ST 是以发生的事的时间为抽取对 象,并将时间和其他实体连结为一个整体。ST 需要的是时间实体和它的属性,将除时 间外的其他实体对应到事件的相应位置,通过这些联系模拟出事件原型。 以上的任务都是信息抽取的核心,不同的信息抽取用到不同的任务。 1.3 信息抽取

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号