毕业论文 (初稿)－金锄头文库

资源描述

《毕业论文 (初稿)》由会员分享，可在线阅读，更多相关《毕业论文 (初稿)（24页珍藏版）》请在金锄头文库上搜索。

1、毕业论文 (初稿) 摘要在中文信息处理中，文本相似度的计算广泛应用于信息检索，机器翻译，自动问答系统，文本挖掘，论文抄袭识别，其中的中文分词环节在搜索引擎，自然语言的处理中起着至关重要的作用，长期以来一直是人们研究的热点和难点。对于中文文本相似度计算，分词是基础和前提，采用高效的分词算法能够极大地提高文本相似度计算结果的准确性；分词中最关键的问题是消歧与未登陆词的识别，本文采用词性转换概率表来进行分词的消歧处理，使用有向拓补图的最短路径来进行分词的处理，得到了比较好的效果。在计算相似度的过程中使用了词频与词序相结合的方法，使用TF-IDF特征法和二部图的最大匹配来计算词频的相似度，但这种方

2、法在颠倒句子中词的顺序时也会得到相同的相似度，必须使用一种能区分词序的算法，马尔科夫模型的状态转移矩阵表示一个词转移到另一词的概率(本文把单个词语作为马尔科夫模型中的一个状态来看待)，后在文本相似度计算中，使用一种将最长公共子序列、马尔科夫状态转移矩阵和TFIDF相结合的算法得到结果。本文使用现代汉语词典与紫光输入法中提供的文本格式词库，来制作适合本项目用的特定格式的索引词库，极大地提高了分词的效率，词性的标注使用1998年人民日报的词性标注，最后测试使用新浪，搜狐，人民网，新华网等各大新闻网站的文本新闻作为测试数据集得到了较好的效果，较准确地统计了两文本文件的相同语数，相似度，并高亮显示相

3、同的部分数据。在网上信息量迅速膨胀的同时，网络搜索引擎、自动分类、信息抽取等信息技术也在研究和成熟之中，为人们高效、准确地获取信息提供了有利的保证。网络信息资源以文本、图像、视频、音频等形式存在，在我国，据中国互联网发展统计报告，文本信息占网上资源的70。这些电子形式的数据为广大学者和师生提供丰富的信息资源和便利的交流机会，促进科学技术的发展。与此同时，电子资源获取的便利及电子资源本身简单的“复制“粘贴功能，为学术论文的抄袭与剽窃等不道德行为提供了方便。我国近年来，学术论文的抄袭与剽窃事件迭起，因抄袭他人论著而被曝光，甚至走上法庭被告席的案件屡有发生。这种行为不仅侵害了作者的权益，

4、而且严重破坏了学术发展的生态环境，损害了学术共同体的尊严，还影响到我国科研水平和科技竞争力的提高，损害了国家和公众的利益。因此，学风问题已成为全社会众矢之的，“学术打假的呼声日甚。当今世界以信息技术为代表的现代科技日新月异，特别是现在以新一代互联网应用为核心的科学技术，使得人们以一种以前无法想象的速度在影响着人的生活，并且正在对人类社会发展产生不可估量而深远的影响。如何在海量的信息中迅速的查找相关信息变得异常重要，对于这个问题的研究和探索不仅会带来社会效益，同时也会带来可观的经济效益，两个最显著的例子国际上，近几年Google的股价超过了Microsoft(前者几乎是后者的20倍)；在国

5、内，百度的影响力也是大家人所共知的事实。这些发生在现实生活中的事情说明了目前信息检索具有多么好的前景和用途，它彻底的改变了人的生活方式。而信息检索一个最基础和最关键的东西就是如何正确的判断网页或者文本的相似度，如果相似度判断不理想的话，就会出现一些重要信息的丢失或者遗漏，甚至错误的产生。 1.2课题研究的目的要想更好的计算文本的相似度，就需要有高效并且同时具有高准确率的文本相似度计算方法。文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数，相似度数值大，说明文本相似度高；反之文件相似程度就低。对于文本分类、文本聚类、计算机智能问答系统以及网页去重等其他很多领域，文本相似度的精确

6、计算问题都是进行信息处理的关键。在信息检索中，为了提高检索的查全率和查准率，更是需要对文档进行适当的文本相似度计算，然后进行分类、聚类和相关性反馈操作，这些都需要计算文本之间的相似度。简而言之，文本相似度研究的目的就是要更好的服务以上所提到的几个关键领域，使得它们能够提高准确率或者效率。完全避开了诸如在欧氏空间中求相似度的大量乘法运算，因此，可以较大的提高1.3国内外文本相似度基本研究概况1.3.1国外文本相似度基本研究概况目前，国内外有很多学者在研究文本相似度计算问题并且已经有很多文档相似度模型被提出并得到广泛应用，如字符串相似度、文档结构相似度以及统计相似度等模型。字符串相似度模型

7、将文档构成的基本单位视为字符串，通过将一个字符串转换为另一个字符串的替换、插入和删除操作次数或最大匹配子字符串来计算相似度，如Levenshtein1距离和Likelt2方法。 Nirenberg3等也提出了两种串匹配的方法，即更规范的“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似度衡量机制都是词组合法。该系统的相似度计算采用罚分制，两个句子匹配所得到的总罚分值由句子中每个对应单词对的比较所得的罚分组合而成。文档结构相似度模型45通过文档结构上的相似程度来计算文档的相似度，如Lambros6等提出同时依据句子的表层结构和内容计算相似度的方法。在计算相似度时，系统使用

8、了两级动态规划技术，应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。统计相似度模型如Gerard Salton和McGill78于早期提出的向量空间模型(Vector Space Model，VSM)，它的思想是把文档简化为以特征项的权重为分量的向量表示，通过词频统计与向量降维处理来计算相似度。基于向量的文本相似度计算方法是目前主流的文本相似度计算方法，该方法将要比较相似度的文本根据文本中的词语将文本映射为n维空间向量，然后通过比较向量间的关系来确定文本间的相似度，其中最常见的方法是计算向量间的余弦值，但传统向量空间模型的缺点是模型中各词语间相互独立，无语义上的联系。因此，广

9、义向量空间模型(Generalized VectorSpaceModel，GVSM)就利用文本而不是用词来表示词语之间的关系。现在研究的主流方向就是基于向量空间模型VSM)。除了以上的模型以外还有一些其他方法被提出和发展。如挪威Agdcr大学的Vladimir Oleshchuk9等人提出基于Ontology(本体)的文本相似度比较方法，将本体论引入了文本相似度计算，它能计算文本的语义相似度。此外还有学者在研究句子间相似度的计算，如哥伦比亚大学的Carbon ellJ等人的最大边缘相关的MMR(Maximal MarginalRelevance)方法。学者Chris HQDing10

10、采用隐性语义索引模型LSI(Latent SemanticIndexing)方法，还有Belkin和Croft11于1992年提出的概率模型等。 1.3.2国内文本相似度基本研究概况在国内，国内学者潘谦红、王炬、史忠植 (1999)相似度，建立了文本属性重心剖分模型，通过坐标点与坐标点的距离计算关键词与关键词的相关性，通过坐标点与单纯形的关系计算关键词与文本的相关度，通过单纯形与单3中山大学硕士学位论文基于知网的中文文本相似度计算研究纯形的关系计算文本与文本的相似性。张焕炯、王国胜、钟义信 (xx)于汉明距离的文本相似度计算，该方法提出了汉明码概念。与其它的文本相似度计算公式相比较，因该方

11、法只是利用模2加等运算，其方便性是不言而喻的，它12提出利用属性论计算文本13提出了基速度。其次，它跳出了传统的借用空间的理念，而是用码字的方法来表征文本信息的特征，可以不仅限于关键字等孤立的信息，这为联合的描述文本的信息提供了可能。晋耀红 (xx)内容抽象成领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个侧面，从概念层面入手，充分考虑了文本的领域和对象的语义角色对相似度的影响，重点针对文本中的歧义、多义、概念组合现象，以及语言中的褒贬倾向，实现了文本间语义相似程度的量化。此外还有霍华、冯博琴 (xx)矩阵矢量相乘的文本相似度计算方法，能够减少计算和存储空间的开销。该方法仅

12、对非零元素存储和表示，然后用压缩稀疏矩阵矢量相乘的方法计算文本和查询的相似度，可通过给定相似度阈值来判定一个文本是否和查询相似。各种文本相似度计算方法均在特定领域取得了良好的效果，但还都存在着缺点与不足，尚需进一步加以改进。预计达到的目标，关键理论和技术，技术指标，完成课题的方案及主要措施。 15提出了基于语境框架的文本相似度计算方法，它把文本16提出的基于压缩稀疏1.4本文研究内容和内容安排1.4.1本文研究内容 (1)中文分词中词典的建立与存取结构的设计，分词机制的好坏决定匹配算法的时间复杂度，认真研究词典机制分析算法的时间复杂度，得到较好的词典存储机制。 (2)研究一些常用的分词算法

13、，分析各自的优点与缺点，充分分析各算法的时空复杂度，进而设计适合于本项目的算法。 (3)文本文件的存储结构研究，以及二部图最大匹配在文本相似度中的应用。 (4)TF-IDF方法；读取分词后的文章，每一词作为一结点插入树中，若存大该结点则将其TF值加1，若无则插入结点；通过该方法结合二部图最大权值匹配可以较准备地计算词频相似度。 (5)马尔科夫模型状态转移矩阵的生成；将一个词语作为转移矩阵的一个状态来看待，继而生成状态转移矩阵，最长公共子序列的求取；马尔科夫模型与最长公共子序列的结合用于计算词序对相似度的影响。 (6)介绍本文文本相似度的计算模型，马尔科夫模型、TF-IDF方法与二部图的最大权值

14、匹配在计算相似度的结合。 (7)项目的测试及运行结果分析。具体的章节内容第1章为绪论部分，主要介绍本文研究的目的和意义，介绍国内外研究现状。第2章中文分词中词典存储机制的建立。第3章介绍常用的分词算法以及复杂度分析，最终设计实现适用于本系统的算法并分析其时间算杂度与空间复杂度。第4章文本文件的存储结构研究，以及二部图最大匹配在文本相似度中的应用。第5章介绍用于计算词频相似度的TF-IDF方法的原理和其算法实现。第6章通过引入马尔科夫模型与最长公共子序列来计算词序对文本相似度的影响。第7章介绍本文文本相似度的计算模型，马尔科夫模型、特征向量法与二部图的最大匹配在计算相似度的结合。

15、第8章项目的测试及运行结果分析。 2.中文分词词典机制2.1传统词典机制想要提高机械式分词算法的执行效率，就要降低匹配算法的时间复杂度，而个匹配算法的时间复杂度，从很大程度上取决于匹配数据的存储结构(在机械式分词算法中，最重要的就是分词词典的存储)下面介绍几种传统的分词词典机制； (1)基于整词二分的分词词典机制该词典的存储机制把词典分为词典正文、词索引表、首字Hash表等三级。词典正文是以词为单位的线性表，词索引表是指向词典正文中每个词的指针表。通过首字Hash表的散列函数和i司索引表很容易确定指定词在词典正文中的可能位置范围，进而在词典正文中通过整词二分进行定位。 23: (2)基于TRIE索引树的分词词典机制TRIE索引树是一种以多重链表形式表示的键树。基于TRIE索引树的分词词典机制有首字散列表和TRIE索引树节点两部分组成。 TRIE索引树的优点是在对被切分语句的一次扫

展开阅读全文

毕业论文 (初稿)

最新文档