1、沈阳理工大学 硕士学位论文 反抄袭检测系统的研究与实现 姓名:黄俊花 申请学位级别:硕士 专业:计算机应用技术 指导教师:刘勇 2011-03 沈阳理工大学硕士学位论文 摘 要 随着互联网的普及和网络资源的日益丰富,给人们的工作、生活、娱乐带来 很大的便利,同时也也引发了一系列负面的影响,比如日益严重的抄袭现象。近 年来,学术抄袭现象屡屡发生,给社会以及个人带来了很坏的影响。为了防止信 息资源的非法复制、保护知识产权,各国陆续投入到反抄袭检测技术的研制队列 中并取得了一定的进步,为遏制日益严重抄袭现象的做出了很大贡献。 本文首先介绍了反抄袭技术的发展背景、国内外研究状况以及未来的发展趋 势,接

2、着分析现有国内外典型的反抄袭检测工具技术方案、结构原理以及性能的 优缺点,并探讨了系统所需的模式匹配算法、相似度算法以及中文分词等相关技 术及其特点,在此基础上提出了一款基于中英文的反抄袭检测系统的设计方案。 其次,本文分析目前抄袭检测工具的不足,提出了一种基于中英文环境下的 反抄袭检测算法 APT 算法。 该算法设计实现了对中英文字符串的合理分割和匹配 结构的构建,在匹配过程结合文本跳跃匹配策略,并利用本文设计的相似度度量 方法,实现中英文混合环境下的抄袭检测。 再次,本文设计了基于 B/S 三层架构的反抄袭系统的设计构思,并实现了用 户注册模块、文档提交模块、文档筛选模块、抄袭检测模块、数

3、据库管理模块的 功能。系统设计采用 HTML 作为系统文件,通过在 PHP 程序中嵌入 SQL 语句访 问数据库信息,用 Apache 2.2.6 作为 Web 服务器,MySQL 5.0.51 作为后台数据库 支持,并在 Unix 虚拟环境下采用 C 语言实现对 PHP 函数的功能扩展,最后用户 可以通过浏览器访问本系统。 最后,本文详细介绍了反抄袭检测系统功能模块的实现,包括用户注册、用 户登录、文档提交、文档筛选、用户信息维护、文档库的更新等。并设计两组实 验验证了文档筛选模块和抄袭检测模块的可行性。 关键词:抄袭检测;模式匹配;相似度算法;APT 算法 沈阳理工大学硕士学位论文 Abs

4、tract With the popularity of the Internet and the network resources is becoming richer, peoples work、life、entertainment become great convenience, but also has caused a series of negative effects. Such as, the increasingly serious phenomenon of plagiarism. In recent years, the plagiarism of academic

5、paper has been found repeatedly, brought a serious influence to society and individual. In order to prevent illegal copy of information resources and protect intellectual property, more and more countries has devote to the development of anti-plagiarism technology and have obtained some achievements

6、, great curb plagiarism phenomenon happening. First, this paper introduces background, domestic and foreign research situation and the future development trend of the technology of anti-plagiarism detection. Then it analyses the adopted technology of the scheme, the structure principle and advantage

7、d and disadvantages of the domestic and foreign existing Anti-plagiarism detection system, and explores the technologies and the characteristics of the patter matching algorithm, similarity algorithm and Chinese Word Segmentation for a system design. By these research, this paper puts forward a desi

8、gn scheme of anti-plagiarism detection system based on Chinese and English mixed Context. Secondly, analysis of the existing insufficiency of plagiarism detection tools, this paper proposes APT algorithm, a anti-plagiarism detection algorithm based on Chinese-English mixed text. The APT algorithm de

9、sign and implementation the reasonable segmentation and matching structure construction for Chinese and English strings, in matching process combines the strategy of skip characters and uses method of similarity measurement ,implements the detection on Chinese-English mixed text. Again, this paper h

10、as proposed to establish anti-plagiarism detection system base on the B/S three tiers of the design concept and implement the function of the user registration the module, the documents upload module, the documents filter 沈阳理工大学硕士学位论文 module ,copying detection module ,database administration module.

11、 This system design uses HTML to express the system file, by embedding SQL command in the PHP program to visit database information, use Apache 2.2.6 as the Web server, use MYSQL 5.0.51 as the database server, and use C language realization of PHP function extension in the Unix virtual environment,

12、the user visits this system with the Web browser. Last, this paper introduces each concrete function module realization of this system in detail, including the user registration, user login, uploading for the documents, filter for the documents, user messages management, documents database update an

13、d maintenance. Then design two groups of experimental to proof the documents filter module and copying detection module is feasible. Key words: anti-plagiarism detection; patter matching algorithm; similarity algorithm; APT algorithm. 沈阳理工大学 硕士学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本 人独立完成的。有关观点、方法、数

14、据和文献的引用已在文中指出, 并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任 何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要 贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 作者(签字) : 日 期 : 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解沈阳理工大学有关保留、使用学位论文 的规定,即:沈阳理工大学有权保留并向国家有关部门或机构送交学 位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权沈阳理工 大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其它复制手段保存、汇编学位论

15、文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名: 指导教师签名: 日 期: 日 期: 第 1 章 引言 1 第 1 章 引言 1.1 研究背景和意义 经济的飞速发展与计算机网络技术的不断进步使得互联网走进千家万户,人 们的生活娱乐进入了一个新的时代。互联网成为人们获取各方面信息的主要渠道, 网络资源的丰富多彩给人们的生活、学习、娱乐等带来了很大的便利,但由于网 上资源的纷繁复杂与管理的不到位等各方面原因,也引发了一系列的弊端。例如 网络犯罪、不健康信息对青少年的影响以及利用互联网的便利剽窃、抄袭他人科 研成果等,其中越来越多 “抄袭和反抄袭”相关信息的涌现,引发了人们的广泛 关

16、注。网络资源的膨胀和获取的便利,与文档资源简单的“复制” , “粘贴”功能, 使得抄袭行为越来越简单。日益严重的抄袭现象已经成为人们必须面对和解决的 问题。 从古至今,抄袭就是一个屡禁不止的现象。然而随着竞争力不断的加剧和研 究者大脑思维在学术创新上的有限性,使得抄袭人员的范围逐渐由中小学生的作 业抄袭、考试作弊扩展到大学生、研究生学术论文抄袭甚至更高层次的学术人员 科研成果的抄袭。并且网络技术在不断的发展和各国信息资源开放性的原则,网 络资源是通常采用面向所有用户开放的政策,于是这就为部分投机取巧者提供了 可乘之机。简单的复制粘贴操作就能完成一篇看似不错的文档,面对这样的诱惑 使得很多人放弃了学术原则,甘愿沦落于抄袭者的行列。 如今,信息来源渠道愈来愈广泛使得抄袭手段和途径已经变得多种多样,抄 袭的风潮在各国蔓延开来。2003年约瑟夫森理论研究所的一项调查表明 1,美国有 74%的中学生曾于2002年进行网上作弊。萨特勒在莱比锡大学进行的调查表明 2, 90%的大学生表示原则上能接受抄袭因特网上文章的做法;25%的被调查人承认, 在大



