基于指纹的中文文档复制检测技术ppt培训课件

上传人:aa****6 文档编号:52434228 上传时间:2018-08-21 格式:PPT 页数:22 大小:832KB
返回 下载 相关 举报
基于指纹的中文文档复制检测技术ppt培训课件_第1页
第1页 / 共22页
基于指纹的中文文档复制检测技术ppt培训课件_第2页
第2页 / 共22页
基于指纹的中文文档复制检测技术ppt培训课件_第3页
第3页 / 共22页
基于指纹的中文文档复制检测技术ppt培训课件_第4页
第4页 / 共22页
基于指纹的中文文档复制检测技术ppt培训课件_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《基于指纹的中文文档复制检测技术ppt培训课件》由会员分享,可在线阅读,更多相关《基于指纹的中文文档复制检测技术ppt培训课件(22页珍藏版)》请在金锄头文库上搜索。

1、v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理基于指纹的中文文档复制检测系统1v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理主要内容应用背景1研究意义2研究方法3v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理应用背景文档剽窃 Internet为人们提供了 前所未有的便利,我们可以方 便、快捷获得和传递信息,它 推动着高科技不断向前发展。但 是,信息资源的易获性和开放性也 有不利方面,它使剽窃有机可乘, 剽窃越来

2、越容易,越来越猖獗; 剽窃侵犯了著作者的著作权, 严重影响了科学文化的 健康发展。Title Add your textTitle Add your text互联网重复网页 互联网上的信息资源正 在以指数级增长,重复网页 日益增多,很多网页都存在多个 版本。因此搜索引擎经常检索出 具有相同信息的重复网页。这样既 浪费了查询者很多宝贵的查询时 间,降低了检索效率.去除重复 网页成为了搜索引擎技术 中一项很有意义的 工作.v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理 研究意义在数字图书馆里文档主要以电子形式存在,所以很容易被拷 贝,经

3、常出现剽窃论文的现象,这种现象必须解决,否则信 息所有者不愿意将宝贵的信息发布到图书馆中,而且这些剽 窃的文档占有存储空间。在数字图书馆中加入复制检测技术 可以检测出剽窃文档,保护信息所有者的知识产权。信息检索在进行信息检索时总是希望尽快找到准确的内容,一篇文档 很有可能以多种格式存在,检索时可能返回多个结果,这就 降低了检索效率且浪费网络资源。如果在提交此结果之前我 们先加入一个复制检测系统来优先索引网页,如果新的网页 被发现与已经索引的网页相似度很大,那么不再提交此网页。 网上论文提交网上论文提交 现在存在很多网上论文提交系统,在论文提交后,编辑们要 处理两个问题:一是提交的论文与别人在以

4、前的会议、杂志 、学术报告上有多大的相似性;另外,还要检查现在提交的 论文与作者本人以前发表论文有多少不同。 数字图书馆v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理复制检测又称剽窃检测(plagiarism detection),就是判断一个文件的内容是 否抄袭、剽窃或者复制于另外一个或者多 个文件,剽窃不仅仅意味着原封不动地照 搬还包括对原文内容的移位交换、同义词 替换、改变说法重述等。复制检测的定义v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理v 2006年,Nam

5、oh Kang等从剽窃模式的角度进行文本复制 检测的研究,描述了文本复制检测从难到易的检测层次( 如下面图),该模式按照难易程度将文本复制检测分为各 个层次的检测,提出一个基于剽窃模式的更为精确的文本 复制检测系统。 易文档复制 段落复制 句子复制 词的移位变换 句子结构改变改变说法重述文档复制检测的难易程度难v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理现有的文档复制检测方法v基于词频统计的方法 v基于hash文本块的方法 v基于语义知识的方法v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分

6、析中的误差与数据处理研究现状v基于词频统计的文档复制检测方法把文档表示成以词为元素组成的向量,根据每个词出现的频率与逆文 本频率赋以相应的权值,再通过点积或者余弦等方式度量文档间的相 似度。具有代表性的词频统计方法为1995年美国Stanford大学提出的 SCAM (Stanford Copy Analysis Method)模型、1997年香港理工大学建 立的CHECK原型、西安交通大学2001年提出的CDSDG(Copying Detection System of Digital Goods)系统和2006年提出的高频模型 HFM(Heavy Frequency Model)。 缺点:

7、(1)基于词频统计的文档复制检测方法虽然广泛应用于文本聚类、信息 检索等领域,但是它并不适用于文档复制检测技术;(2)只能检测出两篇文档之间的相似度,不能发现一篇文档同时复制多 篇文档的行为;(3) 检测结果准确率不高,误差大。 v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理研究现状v基于Hash文本块的文档复制检测方法从文档中选取一些字符串,然后把字符串映射为Hash表中的数值,这些 数值被称为“指纹”。通过统计Hash表中相同的指纹数目或者比率来得出 文档间的重叠度。具有代表性的Hash文本块方法为1994年ARIZONA亚 利

8、桑那州立大学提出的Sif工具、1995年Stanford大学开发的COPS(COPy detection System)系统、2000年Monostori等人建立的MDR(Match Detect Reveal)原型系统和2003年芝加哥大学提出的Winnowing算法。 优点:算法简单、运算速度快 缺点:该类方法实际上只是进行简单的字符串匹配,因此只能检测出完全相同 的全部或部分复制文本,以及移位变换的复制文本,无法发现复杂复制 方式,如同义词替换、改变说法重述等。v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理 研究现状v基于语义

9、知识的文档复制检测方法从计算语言学领域出发,试图通过各种形式化的方法 表示出文本的语义特征,从而度量文档间的重叠度。现存的基于语义知识的文档复制检测方法为2005年大 连理工大学金博等人提出的基于语义理解的文本相似度算 法。该算法以知网的概念描述为基础,改进了现存的词语 相似度的计算公式,并将词语相似度计算推广到段落范围 ,进而将这种段落相似度计算推广到篇章相似度计算。缺点:能够发现的文档复制方式有限,检测结果的准确率 不理想。v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理基于指纹的文档复制检测系统v 计算指纹v 比较指纹分词文档按

10、段落分块按句子分块计算句子指纹计算段落指纹计算文档指纹文档指纹相同文档1各粒 度指纹文档2各粒 度指纹句子指纹相同段落指纹相同分词NNN文档1与2 完全相同文档1与2 段落相同文档1与2 句子相同YYYv迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理基于指纹的文档复制检测系统E.G.高校是培养人才的基地。大学生是高校思想政治教育的主体。以人为 本是高校思想政治工作必备的理念。以人为本是社会主义市场经济和时代发展的需要。现代社会是政治经 济科技教育文化和生活变化发展极其迅捷的时代。造成了更加激烈的社会 竞争,现代社会知识经济初见端倪。

11、高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主 体。以人为本/是/高校/思想政治工作/必备/的/理念。以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社 会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代 。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。 分词按照段落划分v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理基于指纹的文档复制检测方法高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主 体。以人为本/是/高校/思想政治

12、工作/必备/的/理念。 以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社 会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代 。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主 体。以人为本/是/高校/思想政治工作/必备/的/理念。 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。按照句子划分以人为本/是/高校/思想政治工作/必备/的/理念。 v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析

13、中的误差与数据处理基于指纹的文档复制检测方法高校/是/培养/人才/的/基地。令asc(高校)=0; asc(是)=1; asc(培养)=2; asc(人才)=3; asc(的)=4; asc(基地)=5; 计算句子指纹Hp(w1w2wn)=(w1bn-1+w2bn-2+wn-1b1+wn) mod p 令b=2,p=最大的素数, n=6Hp(高校/是/培养/人才/的/基地)=025+ 124 + 223 + 322 + 421 + 520= 52Hp(大学生/是/高校/思想政治教育/的/主体)=30大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 H

14、p(以人为本/是/高校/思想政治工作/必备/的/理念)=20v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理基于指纹的文档复制检测方法段落指纹:Hp(s1s2sn)=(s1bn-1+s2bn-2+sn-1b1+wn) mod p 令b=2,p=最大的素数。Hp(s1)= 52, Hp(s1)= 30, Hp(s1)= 20, P1: 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/ 主体。以人为本/是/高校/思想政治工作/必备/的/理念。 Hp(P1)=(s1bn-1+s2bn-2+sn-1b1+sn) mod p

15、 = 5222+ 3021 + 2020 = 308以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社 会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代 。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。 P2:Hp(P2)=566计算段落指纹v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理基于指纹的文档复制检测方法P1: 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主 体。以人为本/是/高校/思想政治工作/必备/的/理念。 以人为本/是/社会主

16、义/市场经济/和/时代/发展/的/需要。现代/社 会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代 。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。 P2:Hp(P2)=566Hp(P1P2)=(P1bn-1+P2bn-2+Pn-1b1+Pn) mod p = 3082+56620 = 1182计算文档指纹Hp(P1)=308v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理中文文本指纹提取系统v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理中文文本指纹提取系统v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理中文文本指纹提取系统v迅速改善中信银行零售业绩方案电子商务在传统企业中的应用店长培训之商品销售数据分析定量分析中的误差与数据处理中文文本指纹提取系统v

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号