Microsoft Word - 修改后的文章_Huwx doc

资源描述

《Microsoft Word - 修改后的文章_Huwx doc》由会员分享，可在线阅读，更多相关《Microsoft Word - 修改后的文章_Huwx doc（7页珍藏版）》请在金锄头文库上搜索。

1、汉语朗读话语重音自动分类研究 STUDY ON STRESS PERCEPTION IN CHINESE SPEECH 胡伟湘董宏辉陶建华黄泰翼中科院自动化所模式识别国家重点实验室 100080 北京 Hu Weixiang Dong Honghui Tao Jianhua Huang Taiyi National Laboratory of Pattern Recognition (NLPR) Institute of Automation Chinese Academy of Sciences wxhu, hhd, jhtao, Abstract Restricted by pr

2、osody hierarchy and disturbed by tone and intonation, it is a hard task to detect the stress of Chinese speech automatically. In this paper, aiming at automatic stress perception in normal mandarin reading speech, we studied some acoustical measurements based on F0, duration and intensity and propos

3、ed a novel model to calculate the stress of each syllable. With a structure of classify tree, the model combined the restriction of tone context and prosody hierarchy effectively. It was shown from the result that the top line of pitch, pitch range, duration are important cues for stress perception.

4、摘要汉语的重音由于受到声调、语调以及韵律单元层级的干扰和制约，对于重音的自动感知一直是比较困难的问题。针对标准的朗读普通话语，本文在广义韵律结构的框架下研究了重音的声学表现，设计并实现了重音的自动感知模型。本文提出的基于分类树结构的区分度模型能有效地结合韵律单元结构对重音的制约。研究结果表明，音高高线、调域、音长是表达重音最重要线索，利用这些线索能有效地实现对重音的自动感知。 Keyword: Stress, Prosodic Structure. 关键词 : 重音，韵律结构。 1. 引言近些年来，随着言语工程技术的迅速发展，汉语韵律信息的研究成为言语工程领域被广泛关注焦点。人们越

5、来越需要更加深入地了解自然话语的韵律结构，并试图建立完整的数学模型来描述自然语言韵律结构与语言文本、韵律结构与语音声学特征的数量关系，即实现对文本的韵律结构预测和对语音的韵律结构检测，从而实现更加有效地提高合成语音的自然度、语音识别准确率和自然语言正确理解的程度。从言语合成的角度出发，其根本目的是需要实现从文本到韵律结构的关系映射，以及如何根据韵律结构来设定适当的声学参数，从而最终提高言语合成的自然度。 “普通话语句中音节间和短语间的韵律特征变化，与合成语音的自然度关系密切，其中尤以声调的变化最为重要”（吴宗济 2001）。初敏（ 2001）通过两步的韵律实现策略较大地提高了言语合成的自

6、然度。陶建华（ 2001）提出了汉语韵律层级结构分析和韵律建模的统计模型，并在此基础上建立了自然度较高的语音合成系统。在对汉语韵律结构的研究过程中，一个很困惑的问题就是如何明确定义汉语的韵律结构。许多研究者从语言学、感知实验、实验语音学、言语工程等不同角度都提出了各自的不同看法。一般来讲，韵律结构就是指音系学上的韵律层级 (Prosodic Hierarchy)，从小到大依次为：莫拉 (Mora)、音节、音步、音系词、附着词组、音系短语、语调短语和语句。从言语工程的角度，我们一般可以简化为：韵律词、韵律短语和语调短语（曹剑芬 2002）。以往人们对汉语韵律层级结构和重音的研究，都习惯于将二

7、者分割开来进行研究，当然这对于深入研究具体某个方面是一个比较好的简化策略，但是，鉴于汉语韵律层级单元边界与重音在声学表现上的相关性，那些根据声学特性来单纯地确定韵律边界或者重音的方法难免会有一些局限性，比较合理的方法应该是结合广义韵律结构所涵盖的两个方面综合地进行分析。本文将在前文（胡伟湘 2002）的基础上进一步研究韵律结构框架下的重音自动检测方法。在本文中，我们认为韵律词是自然话语的基本韵律单元，一般有 1-4 个音节，可以是一个蜕化单音步、两音节标准音步、三音节超音步和一个四字格的复合韵律词。它只有一个词重音，有比较固定的连调模式。对一些轻读、轻声音节，如功能词，他们可以和其相连的

8、词组成一个多音节韵律词，韵律词内部没有可感知的停顿，但是在词尾一般会出现音高重设，但一般不会有停顿。韵律短语有一个或者多个结合比较紧密的韵律词组成，内部一般不会出现停顿，在短语边界可以出现有声停顿或者无声停顿（林茂灿 2002）。考虑到韵律短语边界出的停顿大小（它反映了前后短语之间关系的密切程度），我们也可以将韵律短语再细分为小韵律短语（ Minor Phrase）和大韵律短语（ Major Phrase）。一个或者多个短语组合在一起，具有完整的语调，称之为语调组（ Intonation Group）（李爱军 2001）。人们对重音（ Accent）的定义也同样存在很多分歧。一般而言

9、，重音指那些在话语中听起来显得比较尖锐而有力的音节或词。在感知表现上重音具有一定的层次。在不同的韵律词、短语或者句子等不同的范围中，音节所负载的重音信息所影响的范围应该是不同的，即有的音节负载的重音只是在韵律词内部相对而言的，而有的音节负载的重音是在整个短语句或者句子范围中都有影响，分别将其称为词重音和语句重音（王韫佳 2003）。因此，对于重音的界定，必须限定在一定的范围内才是有意义的。经过试验，王蓓得到，重读音节时长延长与音节在语调短语中的位置有关，语调短语首的音节重读时时长延长最大（王蓓 2002）。王韫佳等也得出，节奏重音倾向于落在较大韵律单元的最后一个词上，节奏重音通常与停顿伴生

10、等结论（王韫佳 2003）。事实证明，重音的出现是有规律可循的。本文中，我们着重于重音的自动监测方法研究，因此对重音的定义更加偏向于语音感知。本文所谈论的重音是指在不同的韵律层级结构中（比如韵律词、韵律短语等）感知比较突出的音节。本文的后面部分，我们首先将在第二节对本研究所采用的数据库以及相应标注进行描述，同时统计出一些基本的分布规律。第三节将深入分析重音的声学表现。在第四节我们将提出基于分类树结构的重音区分度模型。最后是实验结果和结论。 2. 数据库及标注本文所采用的数据库是朗读语篇语料库 ASCCD，该语料是 18 篇体裁覆盖记叙、议论、通讯、散文等常见文体的短文，每篇短文长度大约

11、 500 个汉字。语音数据由精选的 10 位（ 5 女 5 男）北京地区标准普通话发音人录制而成。对语音的标注有声韵母层（ DE）、拼音层（ PY）、间断指数层（ BI）和重音层（ ST）。间断指数层采用 5 级标注。分别是， 0：韵律词内部音节边界； 1：韵律词边界； 2：韵律小短语边界； 3：韵律大短语边界； 4：语调组边界。重音层按照 4 级标注，分别是， 0：没有被重读的音节； 1：韵律词中最重的音节； 2：韵律小短语中最重的音节； 3：语调短语中最重的音节。另外，我们知道汉语拼音中有很多轻声音节。而且在具体的语言环境中，有的原来不是轻声的被弱化轻读为轻音，本文中，我们将这两者情

12、况都归为轻读音。并在拼音层的声调标注为 0。我们首先对语音库的手工标注得到的轻读音、正常音、三个级别的重音出现的音节总数按照不同的朗读人进行了初步的统计，结果见表 1。表中“交集”列表示 10 个朗读人对同一音节读成相同轻重类别的音节数目（此时我们将重音的 3 个级别不予区分）。表1 相同文本不同朗读人重音表现数据比较忽略人工标注的不一致性，我们发现，对于相同的语料，不同说话人按照相同的朗读风格进行朗读，对音节的轻重设置还是有很大的差异。首先，对轻读音各个不同说话人具有很高的一致性。即那些可能需要轻读的音节大多都被朗读成轻音，因此，轻读音具有较大的稳定性。同时我们也发现，重音与普通音的

13、设置差异却非常大，这说明很多音节可以被重读，也可以不被重读，这种自由度是非常大的。在下文中我们将着重研究重读音和正常音的声学区分特征。 3. 声学特征分析重音是声学因素的强化。实验语音学的研究表明，主要有以下几种声学因素影响重音的感知。 1. 音长：汉语普通话重读音节往往表现为时长明显加长（叶军 2001）； 2. 调阶和调域：在汉语中，音高高音点的升高是重音感知的重要线索（王蓓 2002），另外，重音的音域一般会加宽（叶军 2001）； 3. 声调调型：汉语是声调语言，音节声调调型的稳定性和饱满程度也是重音的重要表现。一般重读音节总是倾向于维持原调型不变或保持原调型的主要特征，相应的

14、，其调型总是表现得相当饱满。（叶军 2001）下面我们将分别对重音在音长、音高等方面的表现特性进行分析。部分方法在文章（ Tao Jianhua 2003）中有详细阐述。 3.1 音长音长是一个发音单元（音节或者声、韵母）的持续时间长度。影响音长的因素很多，比如发音单元类别、上下文、发音轻重、在韵律单元边界的相对位置、声调、语速和语用等等。在本文中我们考虑到本语料库的朗读风格，不妨忽略语速和语用等其他因素的影响，而仅仅考虑发音单元类别、轻重、韵律单元边界位置三个方面的影响，来分析音节的音长统计特性。我们首先应用下面公式（ 1）计算不带声调音节的归一化音长 ND。 iiiDiv

15、DDivDAvgDDND*3)*5.1(+= =111000iiNDifNDifNDNDifND (1) 其中： D表示该音节的实际物理时长，iAvgD 、iDivD 分别为该音节在语料库中的时长均值说话人 M001 M002 M003 M004 M001 M001 M001 M001 M001 M001 交集轻读音 784 898 866 867 850 849 872 854 858 856 722 正常音 4538 4862 3848 4696 4188 4331 4643 4833 4661 4611 11741 级重音 1427 1452 1990 1438 1476 1875 16

16、22 1466 1536 656 2 级重音 641 454 819 805 853 686 754 688 745 1571 3 级重音 1369 1093 1236 953 1392 1018 868 918 959 1063 682 和方差。声调也是影响音长的重要因素，严格意义上我们应该计算带声调音节的归一化音长词才是合理的。考虑到数据的不充分，我们在计算归一化音长时忽略了不同声调对不同音节的影响，事后对四类声调（轻声被当作上面的轻读音，不做进一步计算）进行了统计，发现不同声调类型之间的归一化音长有一定的差异。我们计算四类声调音长总体均值 jtoneNDAverageDTj= ，进而得到四类不同声调的相对音长)(jjjDTMaxDTDT = (j=1,2,3,4)，并以jTD1作为声调 j 的加权因子。从而最终得到带声调音节的归一化音长为：jTDNDND= ，其中 j 代表该音节的

展开阅读全文

Microsoft Word - 修改后的文章_Huwx doc

最新文档