基于网页正文结构树的近似网页去重算法研究(学位论文-工学)

上传人:飞*** 文档编号:2997965 上传时间:2017-07-29 格式:DOCX 页数:55 大小:1.05MB
返回 下载 相关 举报
基于网页正文结构树的近似网页去重算法研究(学位论文-工学)_第1页
第1页 / 共55页
基于网页正文结构树的近似网页去重算法研究(学位论文-工学)_第2页
第2页 / 共55页
基于网页正文结构树的近似网页去重算法研究(学位论文-工学)_第3页
第3页 / 共55页
基于网页正文结构树的近似网页去重算法研究(学位论文-工学)_第4页
第4页 / 共55页
基于网页正文结构树的近似网页去重算法研究(学位论文-工学)_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《基于网页正文结构树的近似网页去重算法研究(学位论文-工学)》由会员分享,可在线阅读,更多相关《基于网页正文结构树的近似网页去重算法研究(学位论文-工学)(55页珍藏版)》请在金锄头文库上搜索。

1、基于网页正文结构树的近似网页去重算法研究重 庆 大 学 硕 士 学 位 论 文(学术学位)学生姓名:牙 漫指导教师:熊忠阳 教 授专 业 : 计 算 机 系 统 结 构学科门类:工 学重 庆 大 学 计 算 机 学 院二 O 一 三 年 四 月Research on Detection and Elimination ofSimilar Web Pages Based on Text StructureA Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMaster

2、s Degree of EngineeringByYa ManSupervised by Prof. Zhongyang XiongSpecialty: Computer ArchitectureCollege of Computer ScienceChongqing University, Chongqing, ChinaApril, 2013重庆大学硕士学位论文 中文摘要摘 要据 美 国 计 算 机 协 会 统 计 , 重 复 网 页 数 量 约 占 网 页 总 量 的 30%-45%。 伴 随 搜 索引 擎 数 量 不 断 增 加 , 用 户 对 搜 索 引 擎 体 验 要 求 的 提

3、高 , 搜 素 质 量 成 为 各 搜 索 引 擎赢 取 用 户 的 砝 码 。 搜 索 引 擎 若 能 够 及 时 去 除 这 些 重 复 网 页 , 系 统 不 仅 能 节 省 大 量存 储 空 间 , 间 接 降 低 设 备 采 购 成 本 , 也 能 提 高 网 络 的 检 索 质 量 和 访 问 效 率 , 提 高用 户 体 验 满 意 率 。网 页 正 文 内 容 的 特 征 提 取 以 及 大 规 模 相 似 性 比 较 是 网 页 去 重 的 关 键 问 题 。 按照 传 统 算 法 的 各 自 突 出 特 点 将 其 分 为 三 类 : 基 于 URL 去 重 算 法 , 仅

4、 能 根 据 URL地 址 去 除 完 全 重 复 网 页 ; 基 于 特 征 串 匹 配 去 重 算 法 , 具 有 较 高 的 准 确 率 , 但 去 重时 间 消 耗 高 ; 基 于 聚 类 去 重 算 法 , 具 有 较 高 的 召 回 率 , 对 于 一 些 新 闻 题 材 或 模 板类 文 章 准 确 率 较 低 。分 析 转 载 网 页 发 现 , 重 复 网 页 在 内 容 上 可 能 有 变 化 , 但 文 档 格 式 较 少 发 生 改变 , 即 网 页 正 文 结 构 几 乎 不 变 。 针 对 此 特 点 , 本 文 提 出 基 于 正 文 结 构 树 的 两 个 去重

5、 算 法 。通 过 分 析 重 复 网 页 发 现 , 长 句 不 具 有 主 题 代 表 性 。 面 对 网 页 采 集 器 更 改 规 则 ,越 长 的 句 子 表 现 越 脆 弱 。 本 文 对 基 于 正 文 结 构 及 长 句 去 重 算 法 进 行 改 进 , 提 出 基于 正 文 结 构 树 及 关 键 句 的 算 法 。 算 法 中 提 取 包 含 关 键 词 的 句 子 作 为 特 征 句 , 且 特征 句 的 数 目 由 段 落 长 度 决 定 , 使 得 提 取 的 特 征 句 的 数 目 更 全 面 的 概 括 文 章 内 容 。实 验 表 明 , 改 进 算 法 去

6、重 准 确 率 、 召 回 率 都 有 所 提 高 。特 征 项 的 粒 度 越 小 , 散 列 后 的 特 征 指 纹 越 不 易 被 干 扰 。 依 据 此 特 性 , 本 文 提出 了 基 于 正 文 结 构 树 及 特 征 串 的 去 重 算 法 。 首 先 , 此 算 法 中 提 取 网 页 中 高 频 标 点所 在 句 子 中 的 首 尾 汉 字 作 为 特 征 码 。 其 次 , 利 用 Bloom Filter 算 法 获 取 特 征 指 纹 。最 后 , 按 层 次 指 纹 进 行 相 似 度 判 别 。 实 验 表 明 , 此 算 法 在 召 回 率 方 面 有 大 幅 度

7、 提高 , 在 对 小 文 档 去 重 上 表 现 的 尤 其 明 显 , 且 大 大 降 低 了 去 重 时 间 。关键词:网 页 去 重 , 正 文 结 构 树 , 关 键 句 , 层 次 比 较 , 高 频 标 点I重庆大学硕士学位论文 英文摘要ABSTRACTAccording to the statistics of ACM, the number of repeated web page accounts forabout 30%-45%. With the increasing number of search engines and the improvement ofuser

8、s requirements, the search quality becomes the weight to win the users for all of thesearch engines. If the duplicated web pages removed timely, search engine can not onlysave a lot of storage space, indirectly reducing equipment procurement cost, but alsoimprove the retrieval quality of the network

9、 and accessing efficiency. Finally, itimproves satisfaction of users.The key points of the elimination of duplicated web pages are text featureextraction and the calculation of large-scale informations. Traditional text featureextraction algorithm is generally divided into three categories. The firs

10、t one is based onURL which only removing the mirror site. The second one is based on the matching ofcharacter string which has high accuracy and high time complexity. The third one isbased on clustering. The last method is very high in recall, but its accuracy is relativelylow for the news and the t

11、emplate texts.By analyzing near-duplicated web pages, found that repeated pages may havemuch change in the content, but few document format. In view of this characteristic, thepaper puts forward two algorithms based on text structure tree.The long sentence doesnt representative theme of the web page

12、. Facing pagecollector change rules, the longer the sentence is more fragile. This paper puts forwardthe algorithm based on text structure tree and key words to improve the algorithm basedon long sentences. The algorithm extracts sentences which contains keywords as keysentence. And the number of fe

13、atures is determined by the length of paragraphs.Experiment shows that the improved algorithm effectively avoids these two drawbacks,and the accuracy and recall rate are improved.The smaller feature is hashed was less interference. According to the feature,algorithm based on text structure tree and

14、character strings is proved. Firstly, it extractsthe head and tail words of a certain sentence in which high frequency punctuationsoccur. Secondly, it generates the fingerprint with Bloom Filter algorithm. Finally, itdetermines the similarity according to the layer fingerprint. Experiment shows that

15、 thisII重庆大学硕士学位论文 英文摘要algorithm has greatly improved in the recall rate, which is especially in small documents,and greatly reduces the time complexity.Key words: elimination of near-duplicated web pages; text structure tree; key sentence;layer fingerprint; high frequency punctuationIII重庆大学硕士学位论文 目 录目 录中文摘要 I英文摘要 II1 绪 论 11.1 研究背景 11.2 研究的意义

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号