深层网中查询入口的填充策略研究

上传人:飞*** 文档编号:2889455 上传时间:2017-07-28 格式:DOC 页数:59 大小:1.21MB
返回 下载 相关 举报
深层网中查询入口的填充策略研究_第1页
第1页 / 共59页
深层网中查询入口的填充策略研究_第2页
第2页 / 共59页
深层网中查询入口的填充策略研究_第3页
第3页 / 共59页
深层网中查询入口的填充策略研究_第4页
第4页 / 共59页
深层网中查询入口的填充策略研究_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《深层网中查询入口的填充策略研究》由会员分享,可在线阅读,更多相关《深层网中查询入口的填充策略研究(59页珍藏版)》请在金锄头文库上搜索。

1、索取号: TP301/3.554 密级: 公开 硕 士 学 位 论 文深层网中查询入口的填充策略研究研究生 : 马建华指导教师 : 杨晓江 教授培养单位 : 教育科学学院一级学科 : 教育学二级学科 : 教育技术学完成时间 : 2009 年 3 月 10 日答辩时间 :学 位 论 文 独 创 性 声 明本 人 郑 重 声 明 :1、 坚 持 以 “求 实 、 创 新 ”的 科 学 精 神 从 事 研 究 工 作 。2、 本 论 文 是 我 个 人 在 导 师 指 导 下 进 行 的 研 究 工 作 和 取 得 的 研 究 成 果 。3、 本 论 文 中 除 引 文 外 , 所 有 实 验 、

2、数 据 和 有 关 材 料 均 是 真 实 的 。4、 本 论 文 中 除 引 文 和 致 谢 的 内 容 外 , 不 包 含 其 他 人 或 其 它 机 构 已 经发 表 或 撰 写 过 的 研 究 成 果 。5、 其 他 同 志 对 本 研 究 所 做 的 贡 献 均 已 在 论 文 中 作 了 声 明 并 表 示 了 谢意 。研究生签名: 日 期: 学位论文使用授权声明本 人 完 全 了 解 南 京 师 范 大 学 有 关 保 留 、 使 用 学 位 论 文 的 规 定 , 学 校 有权 保 留 学 位 论 文 并 向 国 家 主 管 部 门 或 其 指 定 机 构 送 交 论 文 的

3、电 子 版 和 纸质 版 ; 有 权 将 学 位 论 文 用 于 非 赢 利 目 的 的 少 量 复 制 并 允 许 论 文 进 入 学 校图 书 馆 被 查 阅 ; 有 权 将 学 位 论 文 的 内 容 编 入 有 关 数 据 库 进 行 检 索 ; 有 权将 学 位 论 文 的 标 题 和 摘 要 汇 编 出 版 。 保 密 的 学 位 论 文 在 解 密 后 适 用 本 规定 。研究生签名: 日 期: 摘要I摘 要目前搜索引擎索引的绝大部分是表层网的信息,限于一些技术原因,搜索引擎几乎无法索引深层网中的信息。但是深层网具有容量大、质量高和专业性强等诸多优点,它的意义及重要性无法被人们忽

4、略,于是找到一种能够爬行深层网的方式是非常必要的,所以构造一个深层网爬行器来获取深层网中的数据是非常有意义的,而表单自动填充是深层网爬行器的重要组成部分。本文首先介绍了深层网的价值及难以搜索深层网的原因,分析对比了国内外研究现状,介绍了 HTML 表单、文档对象模型(DOM)、抽取方法、本体知识和相似度计算方法,在此基础上本文提出了一套填充深层网入口表单的策略。首先使用改进的启发式规则识别深层查询入口表单,再通过本文提出的就近原则算法提取表单标签,在进行最后的匹配填充之前对抽取到的标签进行标准化,最后通过改进的基于语义的相似度匹配算法对深层网表单标签和本体领域知识库的属性进行匹配,这样就可以模

5、拟用户填充深层网入口表单的过程了。结尾对整个算法进行了实验验证。选取了图书领域的深层网入口表单进行实验,先识别表单查询入口,实验结果表明使用本文总结的启发式规则准确率能达到 90.76%。对表单提取时,使用就近原则算法提取表单标签的准确率能达到 94.23%。接着,使用改进的基于语义相似度计算算法寻找与表单标签相匹配的属性,找到匹配的属性之后,用属性的值对表单控件进行填充。结果表明,匹配的成功率达到 88.83%,填充的成功率达到 95.43%。也就是说,本文提出的填充深层网入口表单的策略是有效的。关键词:深层网,查询入口,表单填充AbstractIIAbstractAt present, l

6、imited to some technical reasons, general search engines can only index the information on the surface web instead of the deep web. However, deep web is of great advantage, such as large capacity, high quality and professional character, etc. Thus, its importance and influence should not be ignored.

7、 And it is rather necessary to search for an approach to crawl the deep web. Therefore, it is greatly significant to construct a deep web crawler, of which automatic form fill is an essential part, to gain the data on the deep Web.This thesis first introduces the value of the deep web and the reason

8、 why searching on the deep web is difficult, analyzes and compares the study of the case at home and abroad. It also introduces the HTML form, Document Object Model (DOM), Ontology knowledge and extraction method. On the basis, the author proposes a strategy of filling a query entrance of the deep w

9、eb. Firstly, the author uses heuristic rules to identify those forms in deep web. Secondly, with the algorithm of the nearest principia, the author extracts those labels of form. Before filling those forms respectively, standardizing those labels is adopted. At last, employing the algorithm based on

10、 improved ontology similar matching, the author matches the label of form with the attribute of semantic domain warehouse. In this way, we can simulate the process of user to fill the forms of deep web.At the end of the paper, the algorithm proposed is verified thorough the experiment. Those website

11、s from library domain is made use of. The first step is to identify those query entrance of forms, and the experiment shows that with those heuristic rules summarized, the veracity rate is up to 90.76%. As for extracting label, the veracity rate is 94.23% according to the nearest rule arithmetic. Th

12、en, employing the algorithm based on improved ontology similar matching to match between the label of form and the attribute of semantic domain warehouse, the author can use the value of attribute to fill the form controls when finding the matching attribute. The results show that the matching has a

13、 higher success rate of 88.83% and filling form controls is 95.43%. In most cases, the method of automatically filling forms is effective.The future work including some new challenges and technological possibilities is mentioned at the end of this paper.Key words: Deep web, Query entrance, Form fillII目录1目录摘 要 .IAbstract.II第 1章 绪论.11.1 深层网简介.11.1.1 深层网的定义.11.1.2 深层网的信息价值.21.1.3 难以搜索深层网的原因.31.1.4 深层网相关研究.41.2 本文的主要工作.51.2.1 研究目的.51.2.2 研究内容.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 质量控制/管理

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号