基于VSM模型的文本相似度的比较.

资源描述

《基于VSM模型的文本相似度的比较.》由会员分享，可在线阅读，更多相关《基于VSM模型的文本相似度的比较.（35页珍藏版）》请在金锄头文库上搜索。

1、毕业设计（论文）专用纸毕业设计（论文）题目：基于VSM模型的文本相似性的比较姓名 X X X X X 学号 A A A A A 所在学院 B B B B B 专业班级 C C C C C 指导教师 D D D D D 日期摘要在互联网迅速发展的时代，网络上的信息数量越来越多，种类也比较纷杂。虽然能在我们查询相关信息是提供大量选择，但是靠人工浏览的方式在浩瀚的信息库中找到自己最需要最相关的信息，无疑给用户带来了麻烦，而且效率也十分低下。为了解决这一个问题，关于判断文本相似度的技术应运而生，目前广泛运用于计算机，电信等行业。本文着重阐述了计算文本相似度的过程中会遇到的难题，

2、以及解决这些难题需要用到的相应算法，最后利用VSM模型进行简单的设计与运用，完成基于web的相似网页检测程序关键字：文本相似度；相似网页检测；VSM模型ABSTRACTWith the Internet developing rapidly,there are more and more Information on the Internet,and the varieties of Information is becoming more complex.Although we have a bigger chance to use the Information,it is very di

3、fficult and inefficient for users to find the Information which they are most needed in the Information Database.To solve this problem,the relevant technology is invented and now widely used in Computer and Telecom field.This passage is mainly demonstrated the problems we may meet when we calculate

4、the text similarity and the relevant algorithm solving the problems above .In the end,we use VSM model to design and complete the Project-Similar Web detection Based On WebKey Words：text similarity;similar web detection;VSM model目录摘要- 1 -ABSTRACT- 2 -目录- 3 -第一章绪论- 6 -1.1选题背景- 6 -1.2研究意义- 6 -1.3国

5、内外研究现状- 6 -1.3.1国外文本相似度研究状况- 6 -1.3.2国内文本相似度研究情况- 7 -1.4开发语言- 8 -1.5本文的主要工作和论文结构- 8 -1.5.1主要工作- 8 -1.5.2论文结构- 9 -第二章系统原理介绍- 10 -2.1原理概述- 10 -2.2系统相关知识点简介- 10 -2.2.1向量空间模型- 10 -2.2.2中文分词技术- 11 -2.2.3TF统计方法- 12 -2.2.4TF-IDF算法- 13 -2.2.5数据降维- 16 -2.2.6相似度计算方法- 16 -2.3系统实现思想- 17 -第三章系统分析与设计- 19 -3.1系统

6、需求分析- 19 -3.2系统功能概述- 19 -3.2.1系统流程- 19 -3.2.2功能模块介绍- 20 -3.3系统性能要求- 21 -第四章系统实现- 22 -4.1系统运行环境- 22 -4.2 核心相关代码分析- 22 -4.2.1分词类的介绍- 22 -4.2.2核心代码解析- 23 -第五章系统测试- 29 -5.1文章分词测试- 29 -5.2获取关键字测试- 29 -5.3抓取网页内容测试- 30 -5.4计算文本相似度- 30 -第六章总结与展望- 31 -6.1总结- 31 -6.2展望- 31 -致谢- 33 -参考文献- 34 -附录中文- 35 -附录译

7、文- 39 -第一章绪论1.1选题背景随着internet的迅猛发展，人们的生活越来越离不开网络。www(world wide web)技术以其使用直观、高效、简单等优点逐步成为Internet上最为重要的信息发布与交互方式，据美国因特网监制公司Netcraft发布的数据表明，截止2008年2月底，全球互联网网站数量超过1.6亿，达162662053，较前一个月增加了450万。网页数量也达到百亿级别。1.2研究意义由于WWW的迅猛发展，越来越多的信息可供用户在网上查询，但是信息膨胀和丰富的同时，加大了用户寻求自己最需要信息的负担，特别是目前用户对查询信息提出了新的需求，除了需要高效率，高准确

8、性等要求外，用户有时需要在互联网上搜索与一篇文档（例如txt文件、word文档等）或一张图片最相关、最相似的信息，这就给目前的技术提出了新的挑战，而与文本相似度有关的算法应运而生。同时，我国学术论文抄袭现象频频发生，非法复制等文档侵权问题也比较严重。在如今的高校中，学生的论文抄袭、作业抄袭现象更是屡见不鲜。学生日益对自己的作业马虎了事，随便抄抄了事。尤其是对于有些枯燥的专业课程通常要进行实验并撰写电子实验报告，这就给不想动手动脑的同学以可乘之机。这种现象长此发展下去，不仅老师不能把握学生专业课程学习的情况，而且学生学习的积极性也会严重下降，抄袭的风气将影响到整个高校的学术氛围。那么文本进行相似

9、度检测应用就成了眼下一个现实的需求。1.3国内外研究现状1.3.1国外文本相似度基本研究状况目前，国内外有很多学者在研究文本相似度计算问题并且已经有很多文本相似度模型被提出并得到广泛应用，如字符串相似度，文档结构相似度以及统计相似度等模型。字符串相似度模型将文档构成的基本单位视为字符串，通过将一个字符串转换为另一个字符串的替换、插入和删除操作次数或最大匹配字符串来计算相似度，如Levenshtein距离和Likelt方法。Nirenberg等也提出了两种串匹配的方法，即更规范的“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似度衡量机制都是词组合法。该系统的相似度计算采用罚分制

10、，两个句子匹配所得到的总罚分值由句子中每个对应单词对的比较所得的罚分组合而成。文档结构相似度模型通过文档结构上的相似程度来计算文档的相似度，如：Lambros等提出同时依据句子的表层结构和内容计算相似度的方法。在计算相似度时，系统使用了两级动态规划技术，应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。统计相似度模型：如Gerard Salton和McGill于早期提出的向量空间模型，他的思想是把文档简化为以特征项的权重为分量的向量表示，通过词频统计与向量降维处理来计算相似度。基于向量的文本相似度计算方法是目前主流的文本相似度计算方法，该方法将要比较相似度的文本根据文本中的词语将

11、文本映射为n维空间向量，然后通过比较向量间的关系来确定文本间的相似度，其中最常见的方式是计算空间向量间的余弦值，但传统向量空间模型就利用文本而不是用词来表示词语之间的关系。现在研究的主流方向就是基于空间向量模型。除了以上的模型以后还有一些其他方法被提出和发展。如：挪威Agdcr大学的Vladimir Oleshchuk等人提出基于本体的文本相似度比较方法，将本体论引入了文本相似度计算，它能计算文本的语义相似度。此外还有学者在研究句子间相似度的计算，如哥伦比亚大学的Carbon ell J.等人的最大边缘相关的MMR方法。1.3.2国内文本相似度研究情况在国内，国内学者盘谦红、王炬提出利用属

12、性论计算文本相似度，建立了文本属性重心剖分模型，通过坐标点与坐标点的距离计算关键字与关键字的相关性，通过坐标点与单纯形的关系计算关键词与文本的相关度。张焕炯、王国胜、钟义信（2001）提出了基于汉明距离的文本相似度计算，该方法提出了汉明码的概念。与其他的文本相似度计算公式相比较，因为该方法只是利用模2加等运算，其方便性是不言而喻的，他完全避开了诸如在欧式空间中求相似度的大量乘法运算，因此，可以较大的提高速度。其次，它跳出了传统的借用空间的理念，而是用码字的方式来表征文本信息的特征，可以不仅限于关键字等孤立的信息，这为联合的描述文本的信息提供了可能。1.4开发语言JAVA语言。JAVA是一种可以

13、撰写跨平台应用软件的面向对象的程序设计语言，是由Sun Microsystems公司于1995年5月推出的Java程序设计语言和Java平台（即JavaEE，JavaME，JavaSE）的总称。Java自面世后就非常流行，发展迅速，对C+语言形成了有力冲击。Java 技术具有卓越的通用性、高效性、平台移植性和安全性，广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网，同时拥有全球最大的开发者专业社群。选择JAVA作为开发语言，一方面是因为自己对这种语言比较熟知，另一方面是因为它的确有着一些优于其他语言的特点：(1)Java是简单的Java与C+极为相似，但却简单得多。高

14、级编程语言的所有特性中，不是绝对需要的都已删去了。例如，Java没有算符过载、标题文件、预处理、指针运算、结构、联合、多维数组、模板及隐式类型变换。(2)Java是编译型的当运行Java程序时，它首先被编译成字节代码。字节代码非常类似于机器指令，所以Java程序非常高效。然而，字节代码并不专对一种特定的机器，所以Java程序无需重新编译便可在众多不同的计算机上执行。(3)Java是可移植的Java程序是一次编译，处处运行。所以Java的移植却很容易，而且不需要进行重新编译。(4)Java是健全的Java程序不可能造成计算机崩溃。Java系统仔细检测对内存的每次访问，确认它是合法的，而且不致引起

15、任何问题。不过，即使Java程序也可能有错误。如果出现某种出乎意料之事，程序不会崩溃，而把该例外抛弃。1.5本文的主要工作和论文结构1.5.1主要工作本文先介绍空间向量模型以及中文分词的相关基本知识，在此基础上，利用Java语言对某篇TXT文档进行分词、词频统计、选出关键词、调用Baidu搜索网页相关内容、下载网页页面、网页去标签获取主题内容、计算余弦值得出相似度，通过上述过程完成基于WEB的相似网页检测。本文的研究内容体现在以下四个方面：(1)VSM空间向量模型(2)中文分词策略(3)HTML解析策略(4)计算文本相似度1.5.2论文结构本文共分为六个章节，具体章节内容安排如下：第一章：绪论，介绍了选题背景和研究意义，然后粗略的讲述了国内外相关研究情况，最后介绍了本文的研究内容和文章结构。第二章：系统原理介绍，主要介绍了系统需要用到的相关知识点，例如向量空间模型、中文分词技术、相似度的计算方式、下载

展开阅读全文