基于元搜索的网页消重方法研究

上传人:正** 文档编号:35297999 上传时间:2018-03-13 格式:DOC 页数:3 大小:235KB
返回 下载 相关 举报
基于元搜索的网页消重方法研究_第1页
第1页 / 共3页
基于元搜索的网页消重方法研究_第2页
第2页 / 共3页
基于元搜索的网页消重方法研究_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于元搜索的网页消重方法研究》由会员分享,可在线阅读,更多相关《基于元搜索的网页消重方法研究(3页珍藏版)》请在金锄头文库上搜索。

1、计 算 机 系 统 应 用./0年 第 0 期基于元搜索的网页消重方法研究!“#$% 算法计算出每篇文 档 中 各 个 单 词 的 词 频,将文档用词频向量的方法表示出来,计算 , 个词频向量之间的距离,在一定的范围之内就判断为相似的文档。/1=?1(? ?7+? A$ B C$。其中 ;+? 是 相 似 因子,A$ 是两个特征串中特征码相同的个数,C$ 是两个特征串的特征码的个数,相似因子的值即为相似度。判断 C$ 的值:如果两特征串含特征码的个数相等,则 C$ 的值即特征串的特征码个数值;否则是两个特征串的特征码个数的较小值。判断 A$ 的值:比较特征码是否相同。每有一组特征码相同,A$

2、的值就加 :。设计系统阈值 3;,若两个摘要的相似因子小于该阈值则该两个摘要重复,否则不重复。(D)消重算法描述! 提取记录的网页元数据;判断网页地址是否重复。如果地址相同,则重复,转$;否则,转“;“ 判断网页标题是否重复。如果标题相同,则转#;否则,转%;# 依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,判断相似度,若相似度大于系统阈值 3;:,则两条记录重复,否则,转,,?;*,9/ A/ B?%CDE,F/ =%)*%?/ GHH$I($%*D GJ“#;$DD$;* ;H K$L$#? K,M%J“?%$;* H;? N,%?CW,L? %D #/ B$*#%(D$;*/ P* ID$;*# A;*H%?%*(% ;* O*E%L%*D ;H SD( KPQORS),OC 0111/6 K);Y)$ Z%,9$ 4 ;*EF%* ,F%$ 4 Z$*E O/ ! CD%LDI$( D,* “?L%D%? (;?%#D$;* $* #?E% 4 (#% (,L%*D */ *;X#%?LD$;*KCD%L,0116,.8:0.6 4 030/

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 工程造价

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号