1、河北大学 硕士学位论文 中文文-语转换系统中多音字问题研究 姓名:李清 申请学位级别:硕士 专业:汉语言文字学 指导教师:张莉 20100501 摘 要 I 摘 要 计算机文-语转换技术(Text-to-Speech,简称 TTS)指利用计算机程序将既定的可 视文本信息转换成语音的过程。这一系统广泛地涉及了语言学、语音学、计算机编程、 数字信号处理等领域, 是一门综合了多学科多领域的技术项目。 我们接触的拼音输入法、 图书拼音排序检索、各种音序排序、汉语的语音教学软件的运用、各类电子产品的语音 朗读功能的改进、自动介绍或者答复系统以及盲人用品和儿童玩具的开发、甚至包括机 器人制造以及未来语音操

2、控系统在各领域的实现,都离不开这一技术手段。作为一项高 度要求理论性与实用性相结合的技术,TTS 在产生之初就备受各学科学者的高度重视。 如何提高 TTS 系统中语音合成的流畅度、自然度与准确率成为这一技术必须关注的焦 点。其中,汉语多音字读音自动标注的准确率更成为文-语转换技术的难点之一。 本文的研究对象在于,确定现代汉语词典 (第 5 版) (以下简称现汉 )中 921 个多音字及其音项在 CCL 现代汉语语料库中的语用频率,以字频为基础,进而从语言 学理论的角度出发,为 TTS 处理中多音字问题的解决提出一种新思路。 文章的主要内容包括三个部分,第一部分,对现汉中多音字的数目进行统计,

3、确定以 921 个多音字为研究对象,并对每个多音字的词性及进行统计。第二部分,在 CCL 现代汉语语料库中对这 921 个多音字的字频进行语用频率统计。 根据统计结果和累 计频率的计算,最终将这些多音字分出高、中、低三个频级。对各频级的多音字每个音 项的使用频率进行统计,分出高频音、低频音两个音级,对在语料库中只占 1%的低频 多音字采用常读音默认的方法进行处理。第三部分,对中、高频多音字进行分类,综合 运用多音节词排除法、词性确定法和附带常用多音字词库法等方法进行处理。对那些各 音项语用频率相当、词性区别不明显的可独立成词的多音字,则逐条梳理其所有语料, 总结其出现的语境,为多音字构建规则。

4、 关键词 多音字 文-语转换 语料库 字频 音项 Abstract II Abstract Computer Text-to-Speech Technology (Text-to-Speech, referred to as TTS) refers to the use of computer programs to established visual text into speech process. Because of the system include linguistics, phonetics, computer programming, digital signal proc

5、essing and other fields, it is a comprehensive multi-disciplinary technical projects in many fields.We touch input method, Library, various scheduling problems, the use of Chinese language teaching software, all kinds of electronic products to improve voice reading function to automatically introduc

6、e or reply system and the blind development of supplies and childrens toys, and even robots manufacturing and future voice-control system to achieve in all areas,which are inseparable from the technical means. As a highly theoretical and practical combination of technology,TTS received the great att

7、ention from various disciplines and scholars at the beginning of language translation technology in the production.How to improve TTSs speech synthesis fluency, naturalness and accuracy of the technology have become the focus of attention. Among them, the Chinese pronunciation of polyphonic accuracy

8、 of automatic tagging has become one of the difficulties language translation technology in the system of TTS. Object of this paper is to determine the “Modern Chinese Dictionary“ (5th Edition) (hereinafter referred to as “Modern Chinese “) in 921 polyphones and pronunciation items in the CCL of mod

9、ern Chinese corpus, the Pragmatic frequency to frequency-based word, and then from the perspective of linguistic theory, a new idea comes up for the TTS system of polyphone solution to the problem. Article mainly includes three parts, in the first part,according to the “Modern Chinese“ in the polyph

10、onic character of the number of statistical, I got 921 polyphones as the object of study, each polyphoness part of speech and the number of polyphonic words were Statisted. The second part, in CCL modern Chinese corpus on these 921 polyphoness frequency and frequency statistics were pragmatic. Accor

11、ding to statistics, the cumulative frequency of the calculation results and the final separation of these words pronunciation, Abstract III high frequency and low frequency levels. On the frequency of each word-class polyphones frequency of use of the statistical items, separate the regular pronunci

12、ation, second pronunciation, the pronunciation of three rare audio level.In the corpus only 1% of the low-frequency polyphones pronunciation using the default method of constant handling.The third part, the high-frequency words were classified more sound, and the integrated use of multi-syllable wor

13、ds of elimination, parts of speech determine the law and with common polyphones thesaurus other methods,which need processing. The tone of those items very pragmatic frequency, part of speech can not distinctive of a separate polyphones, then using statistical methods build rules for polyphones, acc

14、ording to different types separately. Key words Polyphone Text-to-Speech Corpus Word- frequency Pronunciation item 第 1 章 绪论 1 第 1 章 绪论 1.1 研究对象及意义 汉字是一种综合运用表意和表音手段的意音文字体系,多音字现象是其必然产物。 汉字一字多音现象由来已久,社会上普遍存在的汉字难学难辨,不利于国际化和信息传 播的论断大多与汉字形、音、义关系不完全对应有关。的确,多音字的存在为汉语流通 和传播以及对外汉语教育教学都带来了一定的问题。 随着计算机在国内的广泛应用,

15、中文信息处理这一学科迅速产生和发展起来,70 年代末,电子计算机开始进入汉语词汇学研究领域,在字频与词频统计、词表与词库的 研制、工具书的编纂等方面都取得了一系列的成果。伴随计算机技术广泛应用的同时, 一系列亟需解决的问题也随之产生。 计算机文-语转换技术(Text-to-Speech,简称 TTS)指利用计算机程序将既定的可 视文本信息转换成语音。这一技术广泛地涉及了语言学、语音学、计算机编程、数字信 号处理等多个学科和领域,因此,具有综合性和复杂性的特点。 文-语转换技术应用十分广泛。日常生活中,我们接触的拼音输入法、图书拼音排 序检索、音序排序、汉语教学语音相关软件的开发、各类电子产品的

16、语音朗读功能的改 进、自动介绍或者答复系统以及盲人用品和儿童玩具的开发,甚至包括机器人制造以及 未来语音操控系统在各领域的实现,都离不开这一技术手段。在文-语转换技术中,多 音字现象是难以避免的,在汉字拼音自动标注环节里,怎样处理多音字读音自动标注准 确率不高的问题,已经成为这一技术中较为关键的一步。汉语多音字的自动拼音标注和 语音合成研究又为我们提出了一个中文信息处理领域的新课题。 本文的研究旨在借鉴学界已有的相关研究成果, 结合多音字在语料库中的实际运用 情况,从语言学知识的角度入手,为解决文-语转换技术中多音字词读音选择的问题提 出一种新的解决方案。 1.2 研究现状 1.2.1 多音字的基础研究 二十世纪九十年代至今,学者对于多音字的基础研究越来越重视。其中有关于多音 河北大学文学硕士学位论文 2 字定义界定的文章,如石安石的多音字不是不同的字 、张觉的关于“异读字”正 名等;有关于多音字的来源和成因的,如徐世荣的一字多音的产生、发展及其原因 序等;有关于多音字在生活、教学等领域运用的文章,如徐世荣的 荧屏正音 、谭沅湘的多



