搜索引擎中文分词技术研究

资源描述

《搜索引擎中文分词技术研究》由会员分享，可在线阅读，更多相关《搜索引擎中文分词技术研究（66页珍藏版）》请在金锄头文库上搜索。

1、重庆理工大学硕士学位论文搜索引擎中文分词技术研究姓名：任丽芸申请学位级别：硕士专业：计算机应用技术指导教师：杨武 2011-06 摘要 I 摘要摘要中文分词不仅是各种中文信息处理技术中使用最广泛的手段，也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多，它们以字符串匹配、统计模型、理解、路径以及语义等为基础，并辅以分词词典和规则库，能够在一定程度上对中文信息进行切分。但由于汉语本身的特殊性和复杂性，目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别两个难点。因此，一个好的中文分词方法不仅需要具备高效的分词算法和词典机制，而且要准确识别

2、歧义词和未登录词。论文对搜索引擎的中文分词技术进行研究，具有一定的理论价值和实际意义。论文在分析研究现有中文分词算法、词典机制以及歧义词和未登录词处理策略的基础上，提出了一种改进的中文分词方法，该方法以人工切分和标注好的人民日报语料库和专门的人名地名语料库为基础，对中文信息进行处理。一方面，论文针对现有中文分词算法和词典机制存在的不足，提出了基于最大逆向匹配的概率分词算法和基于有限自动机的中文分词词典机制，力求在完成分词功能的同时降低算法的时间和空间复杂度；另一方面，对于目前普遍存在的歧义词和未登录词识别两个难点，论文首先通过最大正向匹配、最大逆向匹配以及基于最大

3、逆向匹配的概率分词算法提取分词碎片，然后结合构词规则和特定的人名地名语料库进行纠错处理，以进一步提高分词准确率。以改进的分词方法为基础，论文设计实现了一个中文分词原型系统，该系统包括提取文本、训练语料库、分词处理、性能测试四个部分。同时，利用人工切分和标注好的人民日报语料库对原型系统的分词速度和准确率进行测试，实验表明，系统的切分速度约为1 200字/秒，分词准确率达到了96%以上。论文从分词算法、词典机制、歧义词处理和未登录词识别四个方面分析研究了中文分词技术，并设计实现了一个中文分词原型系统。在设计实现的过程中，论文对分词技术从理论和实验上所做的探索都会对该领域的研究提供

4、一定帮助。关键词：关键词：中文分词；词典机制；最大匹配；搜索引擎；未登录词识别 Abstract II Abstract Chinese word segmentation is not only the most widely used mean in natural language processing but also an essential basic skill in information retrieval and search engine. In recent years, there are some arithmetic, such as the method ba

5、sed on characters, probability, understanding, path and semantics. The most widely used one is based on characters. However, due to the special nature and complexity of Chinese language, there are two problems in the main Chinese word processing, which are called ambiguity and unlisted words. Theref

6、ore, a good method of Chinese word segmentation should have an efficient dictionary mechanism and can be able to accurately identify the ambiguous words and unknown words. The paper studied the existing Chinese word segmentation algorithms, dictionary mechanisms, processing strategy of ambiguous wor

7、ds and unknown words, and then proposed a segmentation method based on the corpus. The corpus was from Peoples Daily. On the one hand, the algorithm of Chinese word segmentation based on the maximum reverse matching and probability can segment Chinese very well. Aiming at the shortcomings of existin

8、g dictionary mechanisms, the paper proposed a dictionary mechanism for Chinese word segmentation based on finite-state automaton and it can improves in space complexity and time complexity. On the other hand, the paper researched the main problem-identifying of ambiguity and unlisted words by word p

9、atches, rules and corpuses. Based on researches of the Chinese word segmentation algorithm, the dictionary mechanism, the ambiguity and unlisted words above, the paper designed a prototype system, which included extraction of text, the training of corpus, word processing and testing. The paper valid

10、ated the systems performance by experimentation of Peoples Daily. The system reaches a precision of 96% and the speed is above 1 200 words per second. At the same time, the paper summarized all the work and made the basic of forward further work. In a word, the paper analysed Chinese word segmentati

11、on by segmentation algorithm, dictionary mechanism, identifying of ambiguity and unlisted words. The new method proposed by the paper will be helpful for the future study. Keywords: Chinese Word Segmentation; Dicitionary Mechanism; Maximum Match; Search Engine; Unknown Words Recognition 重庆理工大学学位论文原

12、创性声明重庆理工大学学位论文原创性声明本人郑重声明：所呈交的学位论文是本人在导师的指导下，独立进行研究所取得的成果。除文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果、作品。对本文的研究做出重要贡献的集体和个人，均已在文中以明确方式标明。本人承担本声明的法律后果。作者签名：日期：年月日学位论文使用授权声明学位论文使用授权声明本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权重庆理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检

13、索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于（请在以下相应方框内打“” ）： 1.保密，在年解密后适用本授权书。 2.不保密。作者签名：日期：年月日导师签名：日期：年月日 1 绪论 1 1 绪论 1 绪论中文分词技术起源于 20 世纪 80 年代，它不仅是各种中文信息处理中使用最广泛的手段，也是信息检索和搜索引擎必不可少的基本技术。中文信息和英文信息有一个明显差别，即在英文中，单词之间用空格分隔；而在中文文本中，词与词之间没有天然的分隔符，而且语句是连续书写的。这些天然的区别，要求在对中文文本进行分析前，必须先将语句分隔成小

14、的词汇单元，这个过程就是中文分词。近年来，随着搜索引擎的广泛使用，中文分词技术的研究也取得了很大进展，已经成为自然语言处理和信息检索领域的研究热点。 1.1 研究背景及意义中文信息处理是计算机对中文的音、形、义等信息进行处理和加工的过程，它是自然语言处理的一个分支，是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科 1。从 1980 年开始，中文信息处理进入了快速发展阶段，主要分为汉字信息处理与汉语信息处理两部分 1，具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。近年来，随着互联网

15、信息的快速增长，搜索引擎成为中文信息处理一个最为重要的应用技术 1，人们越来越依赖于搜索引擎，以获取有用的信息。据中国互联网信息中心(CNNIC)于 2011 年 1 月发布的第 27 次中国互联网络发展状况统计报告显示 2，截止 2010 年 12 月，中国网民规模已经达到 4.57 亿，而搜索引擎的使用率达到 81.9%，用户规模 3.75 亿，已经成为网民的第一大应用。这些数据表明，在互联网信息迅速膨胀的今天，传统门户网站的地位有所下降，而搜索作为互联网发展的引擎，越来越显示出其“新门户”的特点。常用的搜索引擎系统一般由网页搜集、预处理以及查询服务三个阶段构成 3。在网

16、页搜集阶段，网络爬虫(Spider)利用网页的链接地址(URL)来进行查找，通常从网站的首页开始，读取网页内容，并找到其它链接地址，然后通过这些地址继续查找下一个网页，如此循环下去，直到把全部网页都抓取完为止。预处理阶段的主要工作是对搜集到的原始网页进行加工处理，在后台建立网页倒排索引数据库，并进一步计算出网页的排序权值，对它们进行排序。预处理是搜索引擎的核心阶段，其具体内容包括关键词的提取、网页消重、链接分析和网页排序等，涉及的关键技术有数据存储、重庆理工大学硕士学位论文 2 动态缓存、中文自动分词、分布计算、汉语语言处理、索引建立、网页排序技术等 4。查询服务阶段的主要工作是响应用户请求，并根据要求进行搜索，由于中文中存在一词多义和多词同

展开阅读全文