大规模网页模块识别与信息提取系统设计与实现本科生毕业论文

上传人:jiups****uk12 文档编号:48194787 上传时间:2018-07-11 格式:DOC 页数:46 大小:1.27MB
返回 下载 相关 举报
大规模网页模块识别与信息提取系统设计与实现本科生毕业论文_第1页
第1页 / 共46页
大规模网页模块识别与信息提取系统设计与实现本科生毕业论文_第2页
第2页 / 共46页
大规模网页模块识别与信息提取系统设计与实现本科生毕业论文_第3页
第3页 / 共46页
大规模网页模块识别与信息提取系统设计与实现本科生毕业论文_第4页
第4页 / 共46页
大规模网页模块识别与信息提取系统设计与实现本科生毕业论文_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《大规模网页模块识别与信息提取系统设计与实现本科生毕业论文》由会员分享,可在线阅读,更多相关《大规模网页模块识别与信息提取系统设计与实现本科生毕业论文(46页珍藏版)》请在金锄头文库上搜索。

1、ii本科生毕业论文题目:(中文)大规模网页模块识别与信息提取系统设计与实现(英文 )Design and Implementation of Large Scale Web Template Detection and Information Extraction Systemi毕业设计(论文)原创性声明和使用授权说明毕业设计(论文)原创性声明和使用授权说明原创性声明原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师 的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标 注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果, 也不包含我为获得 及其它教育

2、机构的学位或学历而使用过的 材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作 了明确的说明并表示了谢意。 作 者 签 名: 日 期: 指导教师签名: 日 期: 使用授权说明使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文) 的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本; 学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与 阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文; 在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名: 日 期: ii学位论文原创性声明学位论文原创性声明 本人郑重声明:所呈交的论文

3、是本人在导师的指导下独立进行研究 所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包 含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出 重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权 大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文

4、。 涉密论文按学校规定处理。作者签名:日期: 年 月 日 导师签名: 日期: 年 月 日i注 意 事 项 1.设计(论文)的内容包括: 1)封面(按教务处制定的标准封面格式制作) 2)原创性声明 3)中文摘要(300 字左右)、关键词 4)外文摘要、关键词 5)目次页(附件不统一编入) 6)论文主体部分:引言(或绪论)、正文、结论 7)参考文献 8)致谢 9)附录(对论文支持必要时) 2.论文字数要求:理工类设计(论文)正文字数不少于 1 万字(不包括图纸、 程序清单等),文科类论文正文字数不少于 1.2 万字。 3.附件包括:任务书、开题报告、外文译文、译文原文(复印件)。 4.文字、图表要

5、求: 1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别 字,不准请他人代写 2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有 图纸应符合国家技术标准规范。图表整洁,布局合理,文字注释必须使用工程字书 写,不准用徒手画 3)毕业论文须用 A4 单面打印,论文 50 页以上的双面打印 4)图表应绘制于无格子的页面上 5)软件工程类课题应有程序清单,并提供电子文档 5.装订顺序 1)设计(论文) 2)附件:按照任务书、开题报告、外文译文、译文原文(复印件)次序装订ii摘要本文提出了一套基于语义的网页分块和主题内容信息提取算法,在天网搜索 引擎预处理模块中将其实

6、现,并且在 SEWM 2008 会议中,以这套算法为框架, 组织了主题型网页识别和网页主题内容信息块提取两个中文 Web 信息检索评测 项目。在这套算法的基础上,基于天网文件系统与 Map-Reduce 计算平台,实现 了分布式的网页块级别 QuarkRank 算法,改进了 PageRank 算法的效果。实际检 验表明,该套算法具有很好的适应性与可扩展性,并达到了很高的精度和召回率。关键词:关键词:网页分块信息提取评测 Map-Reduce PageRankiAbstractThis paper presents a semantic web-page blocking and informa

7、tion extraction of thematic content algorithm, which is achieved in the pretreatment module of TianWang search engine, and in SEWM 2008 meeting, using this algorithm, we organized two Chinese Web Information Retrieval Evaluation Projects, which are theme-based Web page identification and block extra

8、ction of the information theme content. In this method, based on TianWangfile system and the Map-Reduce computing platform, this paper reports the distributed block-level QuarkRank algorithm, which improves the result of PageRank algorithm. The actual test showed that this algorithm is good at adapt

9、ability and scalability, and reaches a very high precision andrecall.Keywords: Web-Page Blocking, Information Extraction, Evaluation, Map-Reduce, PageRankii目录 第 1 章序言.3 第 2 章相关研究工作.5 2.1基于语义的网页信息提取算法 .5 2.2基于视觉的网页分块算法 .6 2.3Block LevelPageRank 算法 .82.3.1 Block LevelWebGraph.8 2.3.2 PageGraph.9 2.3.3

10、 BlockGraph.9 2.3.4 BlockLevelPageRank .10 第 3 章天网搜索引擎 Quark 模块.11 3.1网页分块算法 .13 3.2网页主题内容提取 .16 3.3算法效果演示 .18 第 4 章SEWM2008 中文 Web 信息检索评测.23 4.1评测任务介绍 .23 4.1.1 主题型网页发现任务.23 4.1.2 网页内容信息发现任务.24 4.2评测格式 .25 4.3评测结果 .25 4.3.1 主题型网页发现任务评测结果.26 4.3.2 网页内容信息发现任务评测结果.28 4.4评测综述 .31 第 5 章网页分块的分布式应用.325.1QuarkRank.32 5.2其他应用 .34 第 6 章总结与展望.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号