文档详情

普通话语流中的声调音高特征分析(学位论文-工学)

飞***
实名认证
店铺
DOC
197KB
约6页
文档ID:3275481
普通话语流中的声调音高特征分析(学位论文-工学)_第1页
1/6

Report of Phonetic Research 200849普通话语流中的声调音高特征分析熊子瑜中国社会科学院语言研究所摘要:本文以篇章语音材料为研究对象,通过提取和分析音节调形段的音高特征数据,并在此基 础上采用决策树工具对普通话语流中的声调类型进行了判别分析,以考察声调在语流中的音高特征研究 结果表明,即便在不考虑前后语音环境等因素的条件下, 仅依据音节调形段的音高特征数据就可以在很大程度上有效识别普通话语流中的声调类型基于数据分析的 结果,本研究 认为,尽管在语流中由于受到各类因素的影响,普通 话音节的声调音高曲线可以有纷繁复杂的表现,声调调值也可以有很大幅度的变化,但除了 轻声或 轻音之外, 绝大多数音节内部的音高对比关系(主要体现为声调调形)在语流中仍然具有较强的稳定性关键词:普通话 声调识别 音高特征 1.引言汉语是声调语言,其普通话有四个基本调类:阴平、阳平、上声和去声从声调调形上看,阴平字属平调,阳平字属升调,上声字属先降后升的曲折调,有时会变读为阳平,有时会读为呈低降调的半上,去声字属降调从调值上看,标准阴平字为 55 调,阳平字为 35调,全上字为 214 调,半上字为 21 调,去声字为 51 调[11]。

除了这四个基本调类,普通话中还有一些必读轻声的字词,由于轻声没有固定的调形和调值,所以通常不被看作一个独立的调类另外,有些带调音节在语流中由于被弱化,也可能失去或改变其原有的声调,而读成“语流轻声”或“轻音” [5]单念时,普通话的字调调形和调值都比较稳定,主要受其调类控制但在语流中,由于受到前后声调环境 [8]、前后韵律边界类型 [7]、语句焦点位置 [9]、语气类型 [6]、说话人的情绪态度、甚至说话人的生理状况等各类因素的影响,声调调值在语流中可以产生很大变化,有时甚至其调形也可能会发生一些显著的变化例如,下图 1 显示了一个语句的音高曲线,其纵坐标单位为半音,对比其中阴平字“单、加、说”的调值,阳平字“极”和“明”的调值,上声字“简”和“(加)以”的调值,去声字“用、事、例”的调值,不难看出在诸多因素的影响下,声调调值在语流中已发生了显著变化,同一类声调的调值在不同环境下可以存在显著差异但仔细观察,同一调类的单字在调值差异的背后仍然能够找到它们在调形上的相同或相似之处例如三个去声字都表现为降调,三个阴平字也都含有平调部分,两个阳平字都含有上升的调尾,两个上声字一个具有先降后升的全上调形,另一个具有低降的半上调形。

这说明尽管普通话的声调调值在语流中可以有较大的变化,而声调调形却具有相对较强的稳定性,跟其单念时并无太大的差异本文接下来将基于篇章语音语料库的实验数据,分析普通话声调音高特征在语流中的表现形式,以考察声调音高特征的不变性2.语料及错误音高数据检测本研究使用的语音材料取自一个名为 CASS 的篇章语音语料库,该语料库由中国社科院语言所录制,包含 18 篇小短文,由 10 位(5 男 5 女)发音人在录音室中朗读,并同时录入了喉头仪信号,每个发音人的音节数目在 8760 个左右所有语音材料都经过了手工的音段标注和韵律标注本文选用其中编号为 F001 的女发音人朗读语音材料,基于与语音信号同步的喉头仪信号,用 Praat 语音软件分析出每个声音文件的音高数据,并根据音段标注信息提取出每个音节韵母段的音高数据图 1:“可以用极简单的事例加以说明”的语句音高曲线Report of Phonetic Research 200850为了能在一定程度上消除错误音高数据及其对后续分析结果的影响,本研究先对每个音节韵母段的音高数据进行检测,以排查可能含有错误音高数据的音节,主要检测指标包括以下四个方面:(1)检测韵母内部的音高数据在时域维度上有无音高断点;(2)检测韵母内部的音高数据在频域维度上有无音高跳点;(3)检测韵母内部的音高数据在频域维度上有无超出发音人正常音域范围的音高极点;(4)检测韵母内部连续有效的音高点的个数。

如果韵母内部出现了音高断点、音高跳点、音高极点,或连续有效的音高点个数小于 5,则认为该音节可能含有错误的音高数据,并将该音节在后续分析过程中予以剔除本研究采用上述方法和过程,针对发音人 F001 材料中所有带调音节(不含调类标记为 0 的轻声音节和轻读音节)进行了音高数据检测,结果如下:表 1:F001 材料中带调音节的数目及其有无错误音高数据的检测结果 1原始 音节 可能含有错误音高数据的音节可用于后续 分析的音节调类个数 个数 错误率 个数 比率阴平 1669 90 5.4% 1579 94.6% 阳平 2086 181 8.7% 1905 91.3% 上声 1320 408 30.9% 912 69.1% 去声 2835 318 11.2% 2517 88.8% 合计 7910 997 12.6% 6913 87.4% 从上表 1 中的数据可以看出,可能含有错误音高数据的音节占到了带调音节总数的 13%左右,而错误音高数据的出现概率跟声调类型密切相关,有将近 31%的上声字可能含有错误的音高数据,其次是去声字,而阴平字和阳平字可能含有错误音高数据的概率相对较低究其原因,一方面在于上声字(不含变为阳平调的上声字)和去声字含有低调特征,而低调在音高实现时,特别是处在较大韵律单元末尾的情况下,往往会伴随着较低的能量,这会导致波形周期不明显,进而加大了出现错误音高数据的概率。

另一方面,实现为全上和半上的上声字有时会伴随着发声类型的变化,出现明显的喉化现象,这会导致基频值突降,进而加大了出现错误音高数据的概率1 表 1 中的上声音节不含已变调为阳平的上声字,凡已变调为阳平的归入阳平字计数3.声调音高特征数据提取本研究在分析声调音高特征数据时,先检测出声调音高曲线上的 6 个音高特征点,提取各个音高特征点的音高和时点等属性值,再基于音高特征点的属性值将声调音高曲线分析成由 5 个音高特征段组成的线形序列,提取出各个音高特征段的音高和时长等属性值,然后再基于音高特征段的属性值分析出声调的调形段,并剔除弯头降尾 [3][4]部分的音高数据 3.1 音高特征点本研究把具有区别声调调形作用的音高值所在的位置称为音高特征点在分析声调调形时,常用的、易于测量的音高特征值有以下几种类型:音高起点值,本文记为 pStart;音高末点值,本文记为 pEnd;音高最大值,本文记为 pMax;音高最小值,本文记为 pMin在声调音高曲线的起始和末尾位置经常出现弯头降尾现象尽管这部分的音高数据本身不能决定声调的调形,也不会对声调类型的感知结果产生太大影响,但由于它们有时会影响到对声调调形的自动判断,因此应尽可能将其剔除,以获得正确的、稳定的调形段音高数据。

图 2 给出了一个“降尾”现象的实例,在阴平字“粥”的调尾部分有个显著的音高下降过程,落差达3.8 个半音这部分属于明显的“降尾”现象,其音高数据应从调形段中剔除,否则就会得出该阴平字的音高范围约为4个半音的错误结论图 3 给出了一个“弯头”现象的实例,在去声字“论”的起首有个显著的音高上升过程,升幅约为 3 个半音,达到音高最高点后才开始下降这部分属于明显的“弯头”现象,其音高数据也应从调形段中剔除,否则就会得到先升后降的错误调形本研究采取如下方法来自动剔除弯头、降尾部分的音高数据,以便能取得较为稳定的调形段音高特征数据:首先测量出声调音高曲线中的 pMax 和 pMin 及其时间位置 pMaxT 和 pMinT,再以 pMinT 为分界点,分别提取其左右两侧声调音高曲线中的音高最大值pMaxPrepMin 和 pMaxAfterpMin 及其时间位置pMaxPrepMinT 和 pMaxAfterpMinT;并以 pMaxT2为分2 本研究采取以下方法来确定pMaxT,先检测出声调音高曲线中的pMax和pMaxT ,然后自pMaxT向右依次查找有无音高值大于或等于pMax-15*t的音高点,其中t为当前音高点与pMaxT之间相隔的时间,单位为秒。

如果能找到符合上述条件的音高点,则取其中最靠右侧的音高点的时间为pMaxT,但音高最大值保持不变,仍取声调音高曲线的pMax,也就是说只改变 pMaxT的取值例如图2中“粥” 字的音高曲线放大后如下所示,如果直接取其音高最大值,则pMaxT的位置就如下图a 所示,Report of Phonetic Research 200851界点,分别提取其左右两侧声调音高曲线中的音高最小值 pMinPrepMax 和 pMinAfterpMax 及其时间位置pMinPrepMaxT 和 pMinAfterpMaxT对于一个声调音高曲线来说,采取上述方法最多可以分析出 6 个音高特征点,含 pStart 和 pEnd但实际上,6 个音高特征点往往不会同时出现,而是多个音高特征点重叠在一起,如在直降调形的去声中,只有两个可见的音高特征点:pMax 和 pMin,此时 pStart、pMinPrepMax 与pMax(pMaxPrepMin)会重叠在一起,而pEnd、pMaxAfterpMin 与 pMin( pMinAfterpMax)会重叠在一起若按照上述方法处理之后,pMaxT的位置将移到下图b的位置,这样就可以把a点和c 点之间的音高曲线分成两个音高片断,因此也就有可能把b和c之间的音高数据从调形段中剔除出去了。

Report of Phonetic Research 200852图 2:“分粥制度”的语句音高曲线及其韵母调形段的确定图 3:“罗尔斯的恢宏巨著正义论”的语句音高曲线3.2 音高特征段在提取出 6 个音高特征点 3的音高值和时点位置等属性值之后,再据此将韵母的音高曲线划分成 5 个音高特征段,并对每个音高特征段提取以下几类数据:(1)duration(i):时长,等于各音高特征段的终点时间减去其起点时间,单位为秒;(2)length(i):相对时长,等于各音高特征段的时长除以该韵母的音高曲线时长;(3)pRange(i):音高范围,等于各音高特征段的音高最大值与最小值之间的间距,单位为半音,当音高上升时,其值设为正,当音高下降时,其值设为负;(4)pMovRate(i):音高变化速率,等于其音高范围除以时长;然后根据每个音高特征段的相对时长,找出其中相对时长最大的音高片段,再以该主要音高片断的起点和末点分别向两端检测该声调音高曲线的其他音高点,只要发现音高开始下降则结束查找过程,否则继续向两端查找,并将找到的音高点纳入主要音高片断,以最后得到的主要音高片断作为声调音高曲线的调形段以上检测调形段的方法及其过程均已采用 Praat 脚本实现,结果如上图 2 和图 3 所示。

据观察和检查,只要给定韵母的边界,而不需要知道实际的声调类型,这种方法就可在很大程度上剔除弯头降尾部分的音高数据剔除弯头降尾部分的音高数据,能在一定程度上提高了声调调形段数据的正确性和稳定性,从而有助于提高声3 当 pMax 先于 pMin 时,6 个音高特征点按时间依次是 pStart,pMinPrepMax,pMax (pMaxPrepMin),pMin (pMinAfterpMax),pMaxAfterpMin 和 pEnd;当 pMax后于 pMin 时,6 个音高特征点按时间顺序依次是pStart,pMaxPrepMin,pMin (pMinPrepMax),pMax (pMaxAfterpMin),pMinAfterpMax 和 pEnd调类型的识别正确率 [10]4.声调音高特征数据分析在剔除弯头降尾部分的音高数据之后,本研究针对调形段部分的音高曲线提取出几十类有关其音高和时点方面的属性值然后采取 SPSS15.0 提供的 Tree 工具进行 CRT 决策树分析,以考察依据这些指标能在多大程度上正确识别语流中的声调类型,以及这些指标对于正确识别声调类型的重要性系数CRT 分析参数设置如下:父节点最小样。

下载提示
相似文档
正为您匹配相似的精品文档