中文领域术语自动获取方法的研究

上传人:E**** 文档编号:113633009 上传时间:2019-11-09 格式:PDF 页数:54 大小:2.69MB
返回 下载 相关 举报
中文领域术语自动获取方法的研究_第1页
第1页 / 共54页
中文领域术语自动获取方法的研究_第2页
第2页 / 共54页
中文领域术语自动获取方法的研究_第3页
第3页 / 共54页
中文领域术语自动获取方法的研究_第4页
第4页 / 共54页
中文领域术语自动获取方法的研究_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《中文领域术语自动获取方法的研究》由会员分享,可在线阅读,更多相关《中文领域术语自动获取方法的研究(54页珍藏版)》请在金锄头文库上搜索。

1、南京邮电大学 硕士学位论文 中文领域术语自动获取方法的研究 姓名:刘成帅 申请学位级别:硕士 专业:计算机软件与理论 指导教师:郑彦 2011-03 南京邮电大学硕士研究生学位论文摘要 I 摘摘 要要 中文术语自动抽取是中文信息处理中的一项基础性研究课题,在很多领域都有很重要 的作用。如在语言学中的自然语言生成、计算词典编撰学、句法分析、语料库语言学研究 等,在自然语言处理领域中的机器翻译、信息检索、文本分类、文本摘要、领域本体等领 域中都有广泛地应用,特别是针对领域语料而言,术语抽取的作用显得更加重要。 目前,国内有许多学者致力于中文术语的自动提取,也提出了一些有效的方法,但是, 总体技术水

2、平还不成熟;又因为中文文字具有粘合性的特点,字与字之间不像英文那样用 空格隔开,处理过程比英文复杂的多,所以国外的术语提取方法对于中文术语提取也不太 适用。因此,自行研制适合于中文的领域术语自动提取方法,对中文信息处理来说具有十 分重要的意义。本文正是在这种背景下,对中文领域术语提取进行了比较深入的研究,提 出了一种术语自动提取的方法。本文的主要研究工作包括以下几个方面: 第一:总结了术语的各种表现特征,分析了各种术语自动获取方法的特点,并对比分析 国内外在术语自动抽取领域的研究成果。 第二:在分析空间向量模型和词频的基础上提出了一种改进的 TFIDP 方法,并以此方 法进行领域文本的选取,该

3、方法能够从混合文本中选出某一领域的文本,通过实验证明了 该方法的有效性。 第三: 在分析常用的领域术语提取方法和贝叶斯推理的基础上, 将贝叶斯推理引入到领 域术语提取中,然后研究了贝叶斯推理过程中所用到的计算公式,最后给出了基于贝叶斯 推理的领域术语获取过程,并设计了该方法的核心模块。 关键字:关键字:领域术语;术语自动获取;向量空间模型;TFIDF;贝叶斯推理 南京邮电大学硕士研究生学位论文 Abstract II Abstract Automatic Extraction of Chinese Terms is a fundamental issue in Chinese Informat

4、ion Processing; it has a very important role in many fields. In linguistics, such as natural language generation, computational lexicography, parsing, corpus linguistic research and so on. In the field of Natural Language Processing, such as machine translation, information retrieval, text classific

5、ation, text summarization, domain ontology and so on. Especially for area corpora, term extraction seems more significant. At present, many Chinese scholars committed to the automatic term extraction and had put some effective methods, but the overall level of technology is not mature; Because the C

6、hinese language has the characteristics of adhesion, and dose not like in English, there is a space between words, so the process of Chinese language is more complex than English, and the method of foreign terms extraction is not very suitable for Chinese term extraction. Therefore, to develop suita

7、ble way for acquisition Chinese domain terms are very important for Chinese Information Processing. In this context, the article does much in-depth research of Chinese Term Extraction, and gives a method of automatic term extraction. The main works are as follows: First, summarized the performance c

8、haracteristics of a variety of term; analyzed the characteristics of various methods of automatic term extraction, and compared the research of automatic term extraction in domestic and international field. Second, based on analyzing the VSM and the word frequency, the article puts an improved TFIDF

9、 method which uses to select the domain texts and proves the validity by experiments. The method can select a sort of domain texts form mixed texts. Third, introduced Bayesian inference into the field of term extraction, and then researched the formulas of Bayesian inference process, in the last, gi

10、ven the process of domain term extraction based on Bayesian inference, and designed the core module. Keywords: domain term; automatic term extraction; VSM; TFIDF; Bayesian inference 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得南京邮电大学或其它

11、教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:_ 日期:_ 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其它复制手段保存论文。本文电子文档的内容和 纸质论文的内容相一致。 除在保密期内的保密论文外, 允许论文被查阅和借阅, 可以公布 (包 括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权南京邮电大学研究生院(筹) 办理。 研究生签名:_ 导师签名:_ 日期:_ 南京邮电大学硕士研究生学位论文第一章

12、 绪论 1 第一章 绪论 第一章 绪论 1.1 课题的研究背景及意义课题的研究背景及意义 随着社会的发展和科技的进步,语言也在不断地变化,特别是在科学技术高速发展的 今天,每天都有大量的数据文件以电子形式进行交流,科技文献也大量涌现,随之而来的 是大批新的领域词汇(术语);领域词汇集中体现和负载了一个学科领域的核心知识,词汇的 变化在一定程度上反映了一个学科领域的发展变化,领域词汇对于了解、把握一个学科领 域的发展现状、未来趋向等具有重要的理论和现实意义;并且随着中文信息处理应用领域 的不断扩展,对于领域专业词汇词典的需求也越来越迫切1。 很多著名的知识库主要依靠手工构建,比如WordNet2

13、,HowNet3等,并且这些知识库 都是通用词语的数据库,存储的都是一些通用信息,但是不同的专业领域本身词语的构成 特点就有不同,基本上由它们自身特有的子语言来刻画,包括特定的领域术语等,那么用 一个单一的知识库来表示众多不同领域的子语言几乎是不可能的。 在当前科技发展如此迅猛的新形势下,利用传统的手工构建方式识别和获取领域术语, 己远远不能满足科技发展的实际需求。而利用计算机等先进的信息技术手段来处理这些新 知识,新词汇已经成为了一个必然的趋势。 术语自动抽取是中文信息处理中的一项基础性研究课题,在很多领域都有很重要的作 用。如在自然语言处理领域中的机器翻译、信息检索、文本分类、文本摘要、领

14、域Ontology 等; 在语言学中的自然语言生成(natural language generation)、 计算词典编撰学(computational lexicography)、句法分析(parsing)、语料库语言学研究(corpus linguistic research)等领域中都 有广泛地应用,特别是针对领域语料而言,术语抽取的作用显得更加重要4。下面列举几个 领域术语自动获取的具体应用。 1) 机器翻译(machine translation): 又称为自动翻译, 是利用计算机把一种自然源语言转 变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。在基于规则的 机

15、器翻译的过程中,必须首先建立源语言的语法树分析表,所以分析过程中用到的翻译词 典的规模和准确度非常重要,规模比较大的领域词典可以减少翻译过程中的歧义,提高翻 译准确率。我们可以利用术语自动获取技术获取领域术语,然后组成领域词典,以此提高 机器翻译结果的准确度。著名的商业翻译软件 TRADOS 内就集成了术语自动抽取功能。 2) 中文分词(Chinese Word Segmentation):由于中文是粘合性语言,文章都是按字连写 南京邮电大学硕士研究生学位论文第一章 绪论 2 的,不像英文那样词与词之间用空格隔开,因此在对中文文本处理之前,必须对它进行中 文分词。自动分词就是将字与字之间还连续的文本切分成以词为单位的切分文档,在切分 过程中的一个难点就是,如何对新词(未登录词)进行识别。而本文提到的领域术语自动获取 技术可以很好的解决这一问题,从而提高中文分词的分词效率和准确率。 3) 领域Ontology5:也就是领域本体,领域Ontology描述的是特定领域中的概念和概 念之间的关系,提供了某个专业学科领域中概念的词表以及概念间的关系。领域 Ontology形式化表达领域中的各种概念及概念之间的关系, 而这些概念又是通过领域术语来 表示的, 因此领域术语词典在领域Ontology研究中有着重要的作用,而领域术语词典可以通 过领域术语自动获取技术得到;领域Ontol

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号