信息技术领域字母词语提取研究

举报
资源描述
密级: 学校代码:10075 分类号: 学 号:041105 文学硕士学位论文 信息技术领域字母词语提取研究 学位申请人:宋丽娟 指 导 教 师: 田学东教授 学 位 类 别: 文学硕士 学 科 专 业: 语言学及应用语言学 授予学位单位:河北大学 答辩日期:2007年6月 Classified Index: CODE: 10075 U.D.C: NO: 041105 A Dissertation for the Degree of M. Arts Letter-word Phrase Extraction in the Field of Information Technology Candidate: Song Lijuan Supervisor: Prof. Tian Xuedong Specialty: Linguistics&Applied Linguistics Academic Degree Applied for: Master of Arts University: Hebei University Date of Oral Examination: June, 2007 河北大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其它人已经发表或撰写的研究成果,也不包含为获得河北大学或其它教育机构的 学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了致谢。 作者签名:日期:年 月 日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。 本学位论文属于 1、 保密 口,在 年 月 日解密后适用本授权声明。 2、 不保密 □。 (请在以上相应方格内打“””) 作者签名:日期:年 月 日 导师签名: 日期: 年 月 日 摘要 字母词语提取研究,就是从大规模真实文本中识别并提取出字母词语。字母词语提 取,不仅是中文自动分词的需要,对信息检索,机器翻译,自动分类,自动文摘,句法 分析的性能指标都有重要的影响。 本文选择了信息技术领域作为字母词语研究的领域。信息技术领域作为当今发展最 快、影响最大的一门学科,其字母词语的出现频率相对较高,更具有代表性和相对明显 的统计意义。 本文首先论述了字母词语的界定、字母词语的语言学特征、字母词语的考察研究, 然后对字母词语的提取进行了分析,提出了基于转换的错误驱动的字母词语提取方法。 在此基础上,文章介绍了字母词语提取系统的具体实现:以《计算机世界》24万 字的字母词语手工标注语料库为基础,建设字母词语知识库;以字母词语知识库为标注 器,对语料进行初始标注;对比初始标注的结果与正确答案,在错误驱动的基础上,获 取转换规则;并给出了字母词语提取的封闭测试和开放测试结果及分析。 实验证明,“以字母词语知识库为初始标注器,基于转换的错误驱动的学习方法”, 召回率和准确率都取得了较好的效果。 关键词自然语言处理字母词语提取错误驱动知识库 Abstract Abstract The study of letter-word phrase extraction is to recognize and extract the letter-word phrase from a large scale of real texts. It is not only necessary for the automatic segmentation of Chinese words, but also powerfully influential towards the performance of information search, machine translation, automatic classification and automatic abstraction. This paper chooses information technology as its research target in the letter-word phrase study. As the most developed, most influential science, information technology has a relatively high frequency of the letter-word phrase, which is much more representative and relatively obvious for statistics. This paper, firstly, makes a discussion on the definition,the linguistic characteristics and the investigation of letter-word phrase; then analyzes the extraction of letter-word phrase, and finally puts forward the letter-word extraction method which is based on error-driven conversion. On such basis, it introduces the specific realization of the letter-word extraction system: label the letter-word phrase in 《China Computer World》 and establish a letter-word phrase knowledge corpus in terms of the labeled words; with the letter-word phrase knowledge corpus as the labeler, make preliminary labels on the corpus; compare the results and the correct answers of the preliminary labeled words and then obtain a set of conversion rules on the basis of error-driving learning; the closed tests and open tests for the letter-word phrase extraction as well as the final analysis. The experiments have proved"the learning method based on the error-driven conversion with the letter-word phrase knowledge corpus as the preliminary labeler", the recall and the accuracy have a better result. Key words: Natural language processing; Letter-word phrase extraction; Error-driven conversion; Knowledge corpus 目录 第1章引言 1 1.1课题背景及研究意义 1 1.2字母词语提取的研究现状 3 1.2.1字母词语识别研究 3 1.2.2 未登录词研究 4 1.2.3基本名词短语研究 5 1.2.4提取方法分析 6 1.3本文的研究内容 6 1.3.1语料的选择 6 1.3.2语料的获取及处理 7 1.3.3字母词语的研究及提取分析 7 1.3.4字母词语的知识库建设 7 1.3.5字母词语提取系统 7 1.3.6实验结果与分析 7 1.4文章的组织结构 7 第2章 字母词语的语言学研究及对提取的指导 9 2.1字母词语的界定 9 2.1.1语言学领域中字母词语的界定 9 2.1.2信息技术领域字母词语的界定 10 2.2字母词语的语法特征 11 2.2.1字母词语的构成 11 2.2.2字母词语的语法类别 12 2.3字母词语的相关语言学研究 15 2.3.1字母词语的归属 15 2.3.2字母词语的种类和结构方式 15 2.3.3字母词语的统计考察 16 2.3.4字母词语的规范 16 2.3.5字母词语的入典 17 第3章 字母词语考察及提取分析 18 3.1字母词语存在和使用情况的考察 18 3.1.1考察的范围 18 3.1.2字母词语中含有大量专名、术语 18 3.1.3字母词语中标点符号的使用 19 3.1.4字母词语的语形不规范 21 3.1.5字母词语的出现频率 21 3.2字母词语的提取分析 21 3.2.1字母词语中含有字母串 22 3.2.2字母词语是一个完整的语言单位 22 3.2.3字母词语提取的分析 22 第4章 字母词语提取方法 24 4.1基于转换的错误驱动的学习方法概述 24 4.2字母词语知识库建设 25 4.2.1汉字语素或汉语词库(HgC) 25 4.2.2特征词库(Tc) 26 4.2.3指界汉字语素或汉语词库(HzC) 26 4.2.4汉字语素或汉语词词性库(HPC) 26 4.2.5标点符号库(W) 27 4.3初始标注 27 4.3.1分词和词性标注 28 4.3.2初始标注过程 28 4.3.3举例说明初始标注过程 28 4.3.4初始标注结果及分析 29 4.4规则的获取 31 4.4.1规则的获取模式 31 4.4.2本文获取的规则 31 4.5工作流程 33 第5章实验结果与分析 35 5.1实验结果 35 5.2实验分析 35 5.2.1字母词语提取召回率的分析 35 5.2.2字母词语提取准确率的分析 35 第6章结论与展望 38 6.1本文所做的工作 38 6.2结论 38 6.3展望 39 参考文献 40 附 录 42 攻读硕士学位期间发表论文情况 44 致谢 45 第1章引言 1.1课题背景及研究意义 语言是信息的载体,总会随着社会的发展、科技的进步而发生变化。随着科技的飞 速发展和国际交流的日益加深,大量的新事物、新概念不断涌现,汉语对应词汇的产生 却显得有些落后。于是,外文形式的词语便进入了汉语言交际,并且在汉语中扎根生长, 产生了很强的构词能力,如:windows, IT, IT经理世界,美国电脑安全监管机构CERT 等。受到这种形式的影响,为了更快捷的交流,汉语自身的一些词语也出现了一些异化 现象⑴,比如汉语拼音字母缩写词语的出现:HSK, GB等。 作为新出现的非汉字形式的字母词语,很多人对这些字母词语的概念和知识了解不 够。在现代汉语中,字母词语已经成为社会交际语言不可缺少的组成部分,承担着重要 的交际功能,含有外文字母的句子在我们的生活中随处可见。字母词语使用形式的混乱 情况,也在很大程度上影响着信息的理解和交流。因而,从浩瀚的文本中及时发现、提 取这些字母词语,并给予必要的解释和规范,
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关资源
正为您匹配相似的精品文档
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号