文本相似度算法研究

资源描述

《文本相似度算法研究》由会员分享，可在线阅读，更多相关《文本相似度算法研究（15页珍藏版）》请在金锄头文库上搜索。

1、文本相似度算法研究摘要基于电子作业检查等各类电子文档对比需要，本文探究了电子文档相似度算法,以便解决两个电子文档是否相同，相似比例为多少的问题，考虑到文档的相似度又可分成段落相似度、句子相似度来进行度量，所以该研究课题首先是定义了文本相似度，其次通过研究现有相似度算法，重点是余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法，最后在分析余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法优缺点的基础上，提出了改进的新的相似度算法，对于余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度进行了改进，提高了3种算法检测的准确度。关键词文本相似度；余弦定理；简单共有词；欧几里得

2、距离；相似度算法Research on Text Similarity AlgorithmsAbstractIn order to solve the problem of whether two electronic documents are the same and how much the similarity ratio is, the similarity algorithm of electronic documents is explored in this paper, based on the need of electronic document comparison.

3、Considering that the similarity of documents can be measured by paragraph similarity and sentence similarity, this research firstly defines the text similarity, and secondly, through the research, this paper puts forward that the similarity of documents can be measured by paragraph similarity and se

4、ntence similarity. There are similarity algorithms, focusing on cosine similarity algorithm, simple common word similarity algorithm and Euclidean distance similarity algorithm. Finally, based on the analysis of the advantages and disadvantages of cosine similarity algorithm, simple common word simi

5、larity algorithm and Euclidean distance similarity algorithm, an improved new similarity algorithm is proposed. For cosine similarity algorithm and simple common word similarity algorithm, a new similarity algorithm is proposed. The algorithm and Euclidean distance similarity are improved to increas

6、e the accuracy of the three algorithms.Key wordstext similarity; Cosine theorem; simple common words; Euclidean distance; similarity algorithm111 绪论1.1 研究背景与意义在网络化时代算法改变人们的工作和生活，其中文本相似度算法在网络日益渗透到人们生活方方面面的时代越来越重要，应用范围越来越普遍、所所不及，只要有知识或信息的环境就有可能用到这个算法，当前最典型的应用是智能翻译、分答系统、知识检索、文档分类等领域，在每一个领域的应用都是最基础的应用，没

7、有文本相似度算法就没有更多的其它应用，其它各类应用都是建立在这个算法的基础上，这个算法能够在不同信息之间实现匹配，找到人们希望得到的信息，这就解决了海量知识与精准需求之间的矛盾，解决了快速检索需求与计算效率之间的矛盾1，解决了人工操作费时费力与机器自动计算快捷高效之间的矛盾。当然随着网络规模越来越大，结构越来越复杂，联系越来越频繁，存储的内容越来越海量，对文本相似度算法的计算准确性和计算速度也提出了更高的要求，要求这些算法能够几乎在瞬间就可以精准找到检索的结果，在几乎实时就能够得到人们关注的结果，这样的话人们利用现代信息技术工作和生活的效率更高，更加人性化。这样看来，在前人的基础上深入研究文本

8、相似度算法具有十分重要的意义。1.2 研究现状在国内外对这个算法的研究多年来一直都是热点，有研究基本理论的，也有研究算法应用的，还有创新算法结构的。从国外典型的有代表性的研究来看，发表比较早的研究成果是1969年Salton和McGill的研究成果2，这二位作者提出了“向量空间模型”算法框架，在这一个算法框架中，第一步是对要分析的文本对象采取多种其它算法预处理，第二步通过预处理来获得表示文本对象的特征向量，这个特征向量就表示文本对象，第三步利用算法计算文本特征向量的相似程度，这样的一个算法应用算法领域比较广泛，主要包括文本分类、信息检索和文档查重等方面。这属于通过文本特征向量计算文本相似度的方

9、法，具有典型的代表性。在此基础上，逐渐发展出一种语义检索和判定文本相似度的方法，这种方法是国外的Chris HQDing研究后提出的，其理论基础是矩阵的奇异值分解理论，通过得到文本对于的矩阵，并计算矩阵对应的奇异值阵，再对奇异值阵计算相似度3，这种方法适用于大型、复杂信息文本相似度计算，效率比较高、准确度比较高，经过算法的发展后，目前用在大型数据库检索和搜索引擎中。此外，在国外的研究方面还有从事文本包含度、相似度公式计算的4，主要运用在信息检索领域。从国内有代表性的典型研究来看，随着国内网络理论和信息理论发展，国内学者也十分重视文本相似度算法研究，有跟踪国外研究前沿的，有独创派系的，也有国内国

10、外结合的，比如2009年曹恬、周朋、国煊等人共同研究，经过实验论证，提出了一种新的基于词出现的文本相似度算法5；2010年万小军、彭宇新等人，通过系统分析国内外典型算法的基础上，提出了通过文档结构计算文本相似度的方法6；王晓东、郭雷等人提出基于EMD方法计算文相似度的方法7，金博等人在研究词语相似度的基础上，发现知网中义原分类树可以进行层次判断，可以计算文本中词与词之间的近义性和相关性，这种方法也可以计算出文本的词语相似度和文本相似度8。总的看，国内在文本相似度研究方面有超越国外研究的趋势，经过多年的发展取得了丰硕的成果，在智能计算、语义分析、机器学习、网络翻译、知识检索9等方面有了成熟的应用

11、。1.3 研究框架本文研究主要内容的重点放在余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法，在分析这三种算法基本原理和运用的基础上，结合当前热点应用对算法进行改进，改进的算法将具有一定的实用价值。围绕这样的重点研究内容，本文主要研究提纲包括五个方面：一是文本相似度算法概述，二是文本相似度算法基本原理，三是文本相似度算法分析，四是文本相似度算法改进，五是全文总结。本论文将按照这样一个论文结构和上述三个方面的研究重点展开研究。2 文本相似度算法基本原理2.1 文本相似度含义文本相似度来自于相似度概念，相似度问题是一个最基本的问题，是信息科学中绕不过去的概念，在不同的应用方向其含义有所

12、不同，但基本的内涵表示了一个信息结构与另外一个信息结构的一致程度，从某个角度研究时特征量之间的距离大小10。比如，在机器翻译方面是指词这个基本单位的可替代性，在信息检索方面是指检索结果与检索内容的一致性，在自动问答方面是指搜索的结果与输入的问题的匹配程度。这充分表明文本相似度研究和应用领域十分广泛，所表达的含义也十分不同。从本文研究的角度来看，文本相似度可以描述为：有A、B两个对象，二者之间的公共区域越多、共性越大，则相似程度越高；若二者没有关联关系，则相似程度低。在文本相似度研究方面，一个层次是研究文档中以篇章、句子、词语衡量相似程度，这不同层次衡量算法也不同，研究的标准和依据也不同，算法的

13、复杂程度也不同。从这个意义上，可以运用在新闻领域对新闻稿件进行归档，按照新闻的领域分门别类的存放在一起；也可以运用在信息检索进行信息查询，作为一个文本与另一个文本之间相似程度测量的基本方法。2.2 文本相似度计算方法分类当前研究文本相似度都是以计算机作为计算工具，即利用计算机算法对文本进行分类，在各个领域应用十分广泛，比如包括网页文本分类、数据智能挖掘、信息识别检索、自动问答系统、论文查重分析和机器自主学习等领域，其中起最关键作用的是文本相似度计算算法，在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。特别是随着智能算法、深度学习的发展，文本相似度计算方法已经逐渐不再是基于关键

14、词匹配的传统方法，而转向深度学习，目前结合向量表示的深度学习使用较多，因此度量文本相似度从方法论和算法设计全局的角度看，一是基于关键词匹配的传统方法，如N-gram相似度；二是将文本映射到向量空间，再利用余弦相似度等方法，三是运用机器学习算法的深度学习的方法，如基于用户点击数据的深度学习语义匹配模型DSSM，基于卷积神经网络的ConvNet和LSTM等方法。本文研究的重点是对电子作业检查等各类电子文档对比，在对两个电子文档是否相同，相似比例为多少这一问题探究中需要比较文档的相似度，而文档的相似度又可分成段落相似度、句子相似度来进行考虑，所以课题的关键是如何定义相似度，要求通过研究归类现有相似

15、度算法，分析其优缺点而提出一些改进的新的相似度算法。按照这样一个研究任务，本文主要研究三种方法：一个是应用数学余弦定理计算余弦相似性的相似度计算方法，另一个是运用计算文档共有词的方法评估相似度的简单共有词相似度算法，第三个是以欧几里得距离作为衡量文本相似度的欧几里得距离相似度算法。2.3 本章小结本章从分析文本相似度的内涵和外延出发，对这一个概念进行了阐释，尔后研究了文本相似度计算方法，重点分析了用计算机算法自动计算相似度的典型方法，最后分析了本课题研究中所用到的方法，进行了典型的归纳，为后续研究做好铺垫。3 文本相似度算法3.1 欧几里得距离相似度算法由于欧几里得距离可以度量两个特征向量之间的距离，前文知道文本可以通过提取特征得到文本对应的特征向量，正是有了这样一个关系，所以就建立起了欧几里得距离和衡量文本相似度之间的应用，如图3.1欧几里得相似度示意所示。通过数学知识可以建立起欧几里得算法模型，设,作为向量空间中的任意两个点，则,之间的距离为： (3-1)有了这样一个模型，就可以通过计算需要计算相似度的两个文档的词频，分别表示为,，设文档相似度为S，则： (3-2)这样一个演算过程就得到了需要比较相似度的文档的相似度算法模型。图3.1 欧几里得相似度示意3.2 余弦相似性算法这个算法的数学基础非常典型，用到了夹角的余弦定理，如图3.2夹角余弦相似度示意图所示，就是常见的余

展开阅读全文