多媒体计算机技术-4－金锄头文库

资源描述

《多媒体计算机技术-4》由会员分享，可在线阅读，更多相关《多媒体计算机技术-4（88页珍藏版）》请在金锄头文库上搜索。

1、第四讲第四讲数字语音处理技术数字语音处理技术 vv数字音频压缩技术数字音频压缩技术vv三维音效三维音效vv语音识别语音识别vv自然语言理解自然语言理解vv语音合成语音合成数字音频压缩技术数字音频压缩技术v音频压缩技术指的是对原始数字音频信号流音频压缩技术指的是对原始数字音频信号流（PCMPCM编码）运用适当的数字信号处理技术，在编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。下，降低（压缩）其码率，也称为压缩编码。v它必须具有相应的逆变换，称为解压缩或解码。它必须具有相应的逆变换

2、，称为解压缩或解码。v音频信号在通过一个编解码系统后可能引入大量音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。的噪声和一定的失真。数字音频压缩技术数字音频压缩技术v音频压缩算法的分类音频压缩算法的分类v时域压缩算法时域压缩算法v子带编码子带编码vMP3MP3音频压缩编码音频压缩编码vOGGVobisOGGVobis音频压缩算法的分类v一般来讲，可以将音频压缩技术分为无损一般来讲，可以将音频压缩技术分为无损（losslesslossless）压缩及有损（）压缩及有损（lossylossy）压缩两大类，而）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、按照压缩方案的不

3、同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。混合压缩等等。时域压缩（或称为波形编码）时域压缩（或称为波形编码）子带压缩技术子带压缩技术变换压缩技术变换压缩技术数字音频压缩技术数字音频压缩技术v 音频压缩算法的分类音频压缩算法的分类v时域压缩算法时域压缩算法v子带编码子带编码vMP3MP3音频压缩编码音频压缩编码vOGGVobisOGGVobis时域压缩算法vv时域压缩技术一般多用于语音压缩、低码率应用（源信号时域压缩技术一般多用于语音压缩、低码率应用（源信号带宽小）的场合。时域压缩技术主要包括带宽小）的场合。

4、时域压缩技术主要包括PCMPCM、ADPCMADPCM、LPCLPC、CELPCELP，以及在这些技术上发展起来的块压扩技术。，以及在这些技术上发展起来的块压扩技术。脉冲编码调制脉冲编码调制(PCM)(PCM) 增量调制增量调制连续可变斜率增量调制（连续可变斜率增量调制（CVSDCVSD）自适应差分脉冲编码调制自适应差分脉冲编码调制（ADPCMADPCM）数字电路倍增设备数字电路倍增设备自适应差分脉冲编码调制自适应差分脉冲编码调制时域压缩算法嵌入式自适应差分脉冲编码调制（嵌入式自适应差分脉冲编码调制（E-ADPCME-ADPCM ）线性预测编码（线性预测编码（LPCLPC）残

5、差激励线性预测编码（残差激励线性预测编码（RELPRELP）码激励线性预测编码（码激励线性预测编码（CELPCELP）低时延码激励线性预测编码（低时延码激励线性预测编码（LD-CELPLD-CELP）矢量和激励线性预测编码（矢量和激励线性预测编码（VSELPVSELP）代数码本激励线性预测编码代数码本激励线性预测编码(ACELP)(ACELP) 共扼结构共扼结构代数码激励线性预测编码（代数码激励线性预测编码（CS-ACELPCS-ACELP）规则脉冲激励规则脉冲激励长时预测长时预测线性预测编码（线性预测编码（RPE-LTP-RPE-LTP-LPCLPC）脉冲编码调制声音数字化有两

6、个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就是把采样得到的声音信号幅度转换成数字值。量化有好几种方法，但可归纳成两类：一类称为量化有好几种方法，但可归纳成两类：一类称为均匀量化，另一类称为非均匀量化。均匀量化，另一类称为非均匀量化。如果采用相等的如果采用相等的量化量化间隔隔对采采样得到的信号作量化，那么得到的信号作量化，那么这种量化称种量化称为均匀量化。均匀量化就是采用相同的均匀量化。均匀量化就是采用相同的“等分尺等分尺”来度来度量采量采样得到的幅度，也称得到的幅度，也称为线性量化。性量化。这种方法称种方法称为脉冲脉冲编码调制，用制，用PCMPCM表示表示。

7、非线性量化vv非线性量化的基本想法是，对输入信号进行量化时，大的输入信非线性量化的基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。号采用大的量化间隔，小的输入信号采用小的量化间隔。vv在非线性量化中，采样输入信号幅度和量化输出数据之间定义了在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为两种对应关系，一种称为m m m m律压律压( ( ( (缩缩) ) ) )扩扩( ( ( (展展) ) ) )算法算法，另一种称为，另一种称为A A A A律律压压( ( ( (缩缩) ) ) )扩扩( ( ( (展展) ) ) )算

8、法算法。 m m m m律压律压( ( ( (缩缩) ) ) )扩扩( ( ( (展展) ) ) )算法算法m m m m律压扩用在北美和日本等地区的数字电话通信中，律压扩用在北美和日本等地区的数字电话通信中，按下面的式子确定量化输入和输出的关系：按下面的式子确定量化输入和输出的关系：式中：式中：x x为输入信号幅度，规格化成为输入信号幅度，规格化成-1-1 xx 1;1;sgn(sgn(x x) )为为x x的极性；的极性；m m m m为确定压缩量的参数，它反映为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取最大量化间隔和最小量化间隔之比，取100100 m m m m 500

9、500。 A A A A律压律压( ( ( (缩缩) ) ) )扩扩( ( ( (展展) ) ) )算法算法A A A A律律(A-Law)(A-Law)(A-Law)(A-Law)压压扩扩用用在在欧欧洲洲和和中中国国大大陆陆等等地地区区的的数数字字电电话话通通信信中，按下面的式子确定量化输入和输出的关系：中，按下面的式子确定量化输入和输出的关系：式中：式中：x x为输入信号幅度，规格化成为输入信号幅度，规格化成-1-1 x x 1 1，sgn(sgn(x x) )为为x x的的极性；极性；A A为确定压缩量的参数，它反映最大量化间隔和最小为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之

10、比。量化间隔之比。增量调制v增量调制增量调制DM(DeltaModulation)DM(DeltaModulation)是一种预测编是一种预测编码技术。码技术。 vDMDM是对实际的采样信号与预测的采样信号之差是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成的极性进行编码，将极性变成“0”0”和和“1”1”这两这两种可能的取值之一。如果实际的采样信号与预测种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为的采样信号之差的极性为“正正”，则用，则用“1”1”表示；表示；相反则用相反则用“0”0”表示。表示。v由于由于DMDM编码只须用编码只须用1 1比特对信号进行

11、编码，所以比特对信号进行编码，所以DMDM编码系统又称为编码系统又称为“1 1比特系统比特系统”。 DM波形编码的原理图其其中中xixi表表示示在在i i i i点点的的编编码码输输出出， y yi i表表示示输输入入信信号号的的实实际际值值， yiyi表表示示输输入入信信号号的的预预测测值值。假假设设采采用用均均匀匀量量化化，量量化化阶阶的的大大小小为为，在在开开始位置的输入信号始位置的输入信号y y0 0=0=0，预测值，预测值y0=0y0=0，编码输出，编码输出x0x011增量调制的缺点vv一是会出现一是会出现斜率过载斜率过载，即增量调制器的输出不能保持跟踪，即增量调制器的输出不能保持

12、跟踪输入信号的快速变化输入信号的快速变化 vv二是会产生二是会产生粒状噪声粒状噪声。反馈回路输出信号的最大变化速率。反馈回路输出信号的最大变化速率受到量化阶大小的限制，因为量化阶的大小是固定的。受到量化阶大小的限制，因为量化阶的大小是固定的。vv解决方法：解决方法：自适应增量调制自适应增量调制。根据输入信号斜率的变化自根据输入信号斜率的变化自动调整量化阶动调整量化阶的大小，以使斜率过载和粒状噪声都减到的大小，以使斜率过载和粒状噪声都减到最小。许多研究人员研究了各种各样的方法，而且几乎所最小。许多研究人员研究了各种各样的方法，而且几乎所有的方法基本上都是在检测到斜率过载时开始增大量化阶有的方法

13、基本上都是在检测到斜率过载时开始增大量化阶，而在输入信号的斜率减小时降低量化阶，而在输入信号的斜率减小时降低量化阶。 DSD编码vDSD（Direct-StreamDigital，直接数字流编码）编码，简单地讲它是将信号以2.8224MHz采样、经多阶-调制，输出1bit信号流。v多阶（如：7阶）-调制器运用负反馈，将信号与上次采样的波形进行比较（差分运算），“大于”便输出“1”，“小于”便输出“0”。利用求和器将波形在一个采样周期中积累，以形成下次的比较波形。和则分别是差分和求和的含义。由此可见，1bit信号流是相对值，而传统的PCM记录的量化值是绝对值。DSD技术原理v上图是一个正弦波

14、经多阶-调制后1bit数据流。图中显示，正半周，振幅越大，出现“1”越多；负半周，振幅越大，出现“0”越多。DSD噪音整形v从模拟信号到数字信号的调制，不可避免地会引入噪音，这些噪音会在整个频谱均匀地随机出现。但是经过-调制之后，对均匀的出现进行了“整形”，使其变得在高频的地方出现的几率较高，而低频段的地方出现的几率较小（右图）。DSD噪音整形v这时如果辅之以“过采样”，例如以64倍于CD采样率（44.1kHz）的频率（2.8224MHz）来进行采样，就能够把噪音和失真都挪到离音频频带很远的频率去了。自适应差分脉冲编码调制vvADPCMADPCM编码的方法是对输入样值进行自适应预测，然后编码的

15、方法是对输入样值进行自适应预测，然后对预测误差进行量化编码。它是一种预测编码的方法。对预测误差进行量化编码。它是一种预测编码的方法。vv所谓预测编码，是指编码的对象不是原始信号的采样量化所谓预测编码，是指编码的对象不是原始信号的采样量化值，而是对当前采样值与预测值（根据前若干个采样值采值，而是对当前采样值与预测值（根据前若干个采样值采用一定的预测方法产生的输入信号）的差值进行编码。如用一定的预测方法产生的输入信号）的差值进行编码。如果采用的预测方法足够准确（差值将接近于零），可以预果采用的预测方法足够准确（差值将接近于零），可以预见，这种编码方法比直接对样本值进行编码可以采用较少见，这种编码方

16、法比直接对样本值进行编码可以采用较少的比特数。的比特数。 vvCCITTCCITT的的32kbit/s32kbit/s语音编码标准语音编码标准G.721G.721采用采用ADPCMADPCM编码方编码方式，每个语音样值相当于用式，每个语音样值相当于用4bit4bit进行编码。进行编码。自适应差分脉冲编码调制自适应差分脉冲编码调制它的核心想法是：它的核心想法是：利用自适应的思想改变量化阶的大小，利用自适应的思想改变量化阶的大小，即使用小的量即使用小的量化阶化阶(step-size)(step-size)去编码小的差值，使用大的量化阶去编码大的差值去编码小的差值，使用大的量化阶去编码大的差值；使

17、用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。之间的差值总是最小。数字电路倍增设备数字电路倍增设备自适应差分脉冲编码调制自适应差分脉冲编码调制vDCME-ADPCMDCME-ADPCM是是CCITT G.723CCITT G.723语音编码标准算语音编码标准算法法v这种算法可以在这种算法可以在40kbit/s40kbit/s、32kbit/s32kbit/s和和24kbit/s24kbit/s三种三种速率中动态调整，以达到在给定的信道中增加容速率中动态调整，以达到在给定的信道中增加容量的目的量

18、的目的线性预测编码vvLPC(Linear Predictive Coding)LPC(Linear Predictive Coding)语音编码是最基本的低速语音编码是最基本的低速率语音编码方法，率语音编码方法，LPCLPC语音编码的基础是语音产生模型，语音编码的基础是语音产生模型，在这个模型中，语音是由激励信号激励一个自适应滤波器在这个模型中，语音是由激励信号激励一个自适应滤波器（即（即LPCLPC滤波器）而产生。滤波器）而产生。vvLPCLPC滤波器的参数是通过线性预测的方法，即用过去的样滤波器的参数是通过线性预测的方法，即用过去的样值预测当前样值提取的。值预测当前样值提取的。vv美国

19、联邦标准美国联邦标准FS1015FS1015的的2.4kbit2.4kbitsLPC-10sLPC-10和和LPC-10eLPC-10e就是就是LPCLPC语音编码的典型例子，主要用于电话线上的窄带语音语音编码的典型例子，主要用于电话线上的窄带语音保密通信。保密通信。低时延码激励线性预测编码vLD-CELPLD-CELP是是CCITT G.728CCITT G.728语音编码标准算法，其语音编码标准算法，其输出速率为输出速率为16kbit/s16kbit/s。v这种方法在这种方法在CELPCELP算法的基础上，采用后向自适应算法的基础上，采用后向自适应线性预测、线性预测、5050阶合成滤波、

20、短激励矢量（阶合成滤波、短激励矢量（5 5个样值）个样值）等改进方法，从而达到高质量和低时延的目的，等改进方法，从而达到高质量和低时延的目的，总的编码时延小于总的编码时延小于2ms2ms。代数码本激励线性预测编码v极低速率可视电话标准极低速率可视电话标准H.324H.324中语音编码标准是中语音编码标准是G.723.1G.723.1，采用，采用5.27kbit5.27kbits s和和6.3kbit6.3kbits s两种速率，两种速率，其中其中5.27kbit5.27kbits s速率就是以速率就是以ACELPACELP算法为基础。算法为基础。共扼结构共扼结构代数码激励线性预测编码代数码

21、激励线性预测编码vCS-ACELPCS-ACELP编码算法被编码算法被ITU-TITU-T的的8kbit/s8kbit/s语音编码标语音编码标准准G.729G.729采用采用规则脉冲激励规则脉冲激励长时预测长时预测线性预测编码线性预测编码v这这种种算算法法是是欧欧洲洲900MHz900MHz数数字字蜂蜂窝窝移移动动电电话话的的语语音音编编码码标标准准（GSMGSM），也也为为数数字字蜂蜂窝窝系系统统DCS1800DCS1800所采用。所采用。 vRPE-LTP-LPC算法是MPE-LPC的改进算法，除了增加长时预测功能外，激励脉冲的位置具有一定的规律。数字音频压缩技术数字音频压缩技术v 音频

22、压缩算法的分类音频压缩算法的分类v 时域压缩算法时域压缩算法v子带编码子带编码vMP3MP3音频压缩编码音频压缩编码vOGGVobisOGGVobis子带编码子带编码vv子带编码子带编码SBC(SBC(s sububb bandandc coding)oding)的基本思想是，首先使用一组带通的基本思想是，首先使用一组带通滤波器滤波器BPF(BPF(b band-and-p passassf filter)ilter)把输入音频信号的频带分成若干个连把输入音频信号的频带分成若干个连续的频段，每个频段称为子带。对每个子带中的音频信号采用单独的续的频段，每个频段称为子带。对每个子带中的音频信号采用

23、单独的编码方案去编码。在信道上传送时，将每个子带的代码复合起来。在编码方案去编码。在信道上传送时，将每个子带的代码复合起来。在接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，还原成原来的音频信号。还原成原来的音频信号。vv采用对每个子带分别编码的好处有二个。第一，对每个子带信号分别采用对每个子带分别编码的好处有二个。第一，对每个子带信号分别进行自适应控制，量化阶的大小进行自适应控制，量化阶的大小(quantizationstep)(quantizationstep)可以按照每个可以按照每个子带的能量电平加以调节。具有较高能

24、量电平的子带用大的量化阶去子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化，以减少总的量化噪声。第二，可根据每个子带信号在感觉上的量化，以减少总的量化噪声。第二，可根据每个子带信号在感觉上的重要性，对每个子带分配不同的比特数，用来表示每个样本值。例如，重要性，对每个子带分配不同的比特数，用来表示每个样本值。例如，在低频子带中，为了保护音调和共振峰的结构，就要求用较小的量化在低频子带中，为了保护音调和共振峰的结构，就要求用较小的量化阶、较多的量化级数，即分配较多的比特数来表示样本值。而话音中阶、较多的量化级数，即分配较多的比特数来表示样本值。而话音中的摩擦音和类似噪声的声音，通常

25、出现在高频子带中，对它分配较少的摩擦音和类似噪声的声音，通常出现在高频子带中，对它分配较少的比特数。的比特数。子带编码方块图子带编码v对每个子带分别编码的好处是：对每个子带分别编码的好处是：可以利用人耳（或人眼）对不同频率信号的感可以利用人耳（或人眼）对不同频率信号的感知灵敏度不同的特性，在人的听觉（或视觉）知灵敏度不同的特性，在人的听觉（或视觉）不敏感的频段采用较粗糙的量化，从而达到数不敏感的频段采用较粗糙的量化，从而达到数据压缩的目的。据压缩的目的。各个子带的量化噪声都束缚在本子带内，这就各个子带的量化噪声都束缚在本子带内，这就可以避免能量较小的频带内的信号被其它频带可以避免能量较小

26、的频带内的信号被其它频带中量化噪声所掩盖中量化噪声所掩盖通过频带分裂，各个子带的取样频率可以成倍通过频带分裂，各个子带的取样频率可以成倍下降。下降。数字音频压缩技术数字音频压缩技术v 音频压缩算法的分类音频压缩算法的分类v 时域压缩算法时域压缩算法v 子带编码子带编码vMP3MP3音频压缩编码音频压缩编码vOGGVobisOGGVobisMP3音频压缩编码vvMP3MP3是一种音频压缩的国际技术标准。是一种音频压缩的国际技术标准。MP3MP3格式开始于二格式开始于二十世纪十世纪8080年代中期，是在德国夫朗和费研究所年代中期，是在德国夫朗和费研究所（FraunhoferInstituteF

27、raunhoferInstitute）开始的，研究致力于高质量、）开始的，研究致力于高质量、低数据率的声音编码。低数据率的声音编码。vv19891989年，夫朗和费研究所在德国被获准取得了年，夫朗和费研究所在德国被获准取得了MP3MP3的专利的专利权，几年后这项技术被提交到国际标准组织权，几年后这项技术被提交到国际标准组织(ISO)(ISO)，整合，整合进入了进入了MPEG-1MPEG-1标准。标准。 vvMP3MP3格式是一个让音乐界产生巨大震动的一个声音格式。格式是一个让音乐界产生巨大震动的一个声音格式。MP3MP3的全称是的全称是Moving Picture Experts Group,

28、 Audio Layer Moving Picture Experts Group, Audio Layer 3 3，它所使用的技术是在，它所使用的技术是在VCDVCD（MPEG-1MPEG-1）的音频压缩技）的音频压缩技术上发展出的第三代，而不是术上发展出的第三代，而不是MPEG-3MPEG-3。 MP3音频压缩编码vvMPEGMPEG代表的是代表的是MPEGMPEG活动影音压缩标准，活动影音压缩标准，MPEGMPEG音频文音频文件指的是件指的是MPEGMPEG标准中的声音部分即标准中的声音部分即MPEGMPEG音频层。音频层。MPEGMPEG音频文件根据压缩质量和编码复杂程度的不同可分音频

29、文件根据压缩质量和编码复杂程度的不同可分为三层（为三层（MPEG AUDIO LAYER 1/2/3MPEG AUDIO LAYER 1/2/3分别与分别与MP1MP1、MP2MP2和和MP3MP3这三种声音文件相对应）。这三种声音文件相对应）。vvMPEGMPEG音频编码具有很高的压缩率，音频编码具有很高的压缩率，MP1MP1和和MP2MP2的压缩率的压缩率分别为分别为4:14:1和和6:1-8:16:1-8:1，而，而MP3MP3的压缩率则高达的压缩率则高达10:110:112:112:1，也就是说一分钟也就是说一分钟CDCD音质的音乐未经压缩需要音质的音乐未经压缩需要10MB10MB存储

30、空存储空间，而经过间，而经过MP3MP3压缩编码后只有压缩编码后只有1MB1MB左右，同时其音质基左右，同时其音质基本保持不失真。本保持不失真。MP3音频压缩编码vv音乐信号中有许多冗余成分，其中包括间隔和一些人耳分音乐信号中有许多冗余成分，其中包括间隔和一些人耳分辨不出的信息（如混杂在较强背景中的弱信号）。辨不出的信息（如混杂在较强背景中的弱信号）。MP3MP3为为降低声音失真采取了名为降低声音失真采取了名为“ “感官编码技术感官编码技术” ”的编码算法：的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音，接着通过量化的方式将剩

31、下的每一位打散排列，最后音，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的形成具有较高压缩比的MP3MP3文件，并使压缩后的文件在回文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。放时能够达到比较接近原音源的声音效果。vv虽然它是一种有损压缩，但是它的最大优势是以极小的声虽然它是一种有损压缩，但是它的最大优势是以极小的声音失真换来了较高的压缩比。音失真换来了较高的压缩比。数字音频压缩技术数字音频压缩技术v 音频压缩算法的分类音频压缩算法的分类v 时域压缩算法时域压缩算法v 子带编码子带编码v MP3 MP3音频压缩编码音频压缩编码vOGGVobisOGGV

32、obisOGGVobisOGGVobisvOggVorbis是一种通过有损压缩算法进行音频压缩的音乐格式，其主要的特点是：源码完全开放、无专利限制，具有较大编码灵活性。在高质量（高比特率）级别CD或DAT立体声，16/24bit（量化）时，与现有的MPEG-2和MPEG-4等音频算法相当。v输出码率可设置为平均比特率（ABR）或可变比特率（VBR），范围为16128Kbps/ch，输入音频信号支持：采样率8192kHz；量化分辨率1624bit量化；声道数：单声道、立体声、4声道、5.1声道，最高可支持255独立声道。OggVorbisvOggVorbis定位于开源的感知音频编码器，为了避免专

33、利壁垒，Vorbis设计了自己的心里声学模型。其中的心里声学模型对音调和噪声的掩蔽阈值的计算十分细致。vOggVorbis中的主要算法是利用MDCT（ModifiedDiscreteCosineTransform，修饰离散余弦变换）。没有提供帧格式、同步及错误保护等，仅仅是接收输入的音频数据块，并压缩成数据包方式。音频编码标准vG.711G.711vG.722G.722vG.723.1G.723.1vG.728G.728vG.729G.729v音频编码标准比较音频编码标准比较G.71119721972年年CCITTCCITT为电话质量和语音压缩制定了为电话质量和语音压缩制定了PCMPCM标准标

34、准G.711G.711。其速率为。其速率为64kb/s64kb/s，使用，使用律或律或A A律的非线性量化技术，主要用于公共电话网中。律的非线性量化技术，主要用于公共电话网中。 G.722vv19881988年年CCITTCCITT为调幅广播质量的音频信号压缩制定了为调幅广播质量的音频信号压缩制定了G.722G.722标准，它使用子带编码标准，它使用子带编码(SBC)(SBC)方案，其滤波器组将方案，其滤波器组将输入信号分成高低两个子带信号，然后分别使用输入信号分成高低两个子带信号，然后分别使用ADPCMADPCM进行编码。进行编码。vvG.722G.722能将能将224kb/s224kb/

35、s的调幅广播质量的音频信号压缩为的调幅广播质量的音频信号压缩为64kb/s64kb/s，主要用于视听多媒体和会议电视等。，主要用于视听多媒体和会议电视等。 vvG.722G.722的主要目标是保持的主要目标是保持64kb/s64kb/s的数据率，而音频信号的数据率，而音频信号的质量要明显高于的质量要明显高于G.711G.711的质量。的质量。 G.723.119961996年年ITU-TITU-T通过了通过了G.723G.723标准标准“用于多媒用于多媒体传输的体传输的5.3kb/s5.3kb/s或或6.3kb/s6.3kb/s双速率话音编码双速率话音编码”。它。它采用多脉冲激励最大似然量化采

36、用多脉冲激励最大似然量化(MP-MLQ)(MP-MLQ)算法，此算法，此标准可应用于可视电话及标准可应用于可视电话及IPIP电话等系统中。电话等系统中。 G.728为了进一步降低压缩的速率，为了进一步降低压缩的速率，CCITTCCITT于于19921992年年制定了制定了G.728G.728标准，使用基于低时延码本激励线性标准，使用基于低时延码本激励线性预测编码预测编码(LD-CELP)(LD-CELP)算法，其速率为算法，其速率为16kb/s16kb/s，主要，主要用于公共电话网中。用于公共电话网中。 G.729ITU-TITU-T于于19961996年年3 3月通过了月通过了G.729G.

37、729标准，它使标准，它使用用8kb/s8kb/s的共轭结构代数码激励线性预测的共轭结构代数码激励线性预测(CS-(CS-ACELP)ACELP)算法，此标准将在无线移动网、数字多路复算法，此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。用系统和计算机通信系统中应用。音频编码标准比较第四讲第四讲数字语音处理技术数字语音处理技术 vv 数字音频压缩技术数字音频压缩技术vv三维音效三维音效vv语音识别语音识别vv自然语言理解自然语言理解vv语音合成语音合成三维音效三维音效v人类的听觉人类的听觉v3D3D音效的分类音效的分类v杜比杜比AC-3AC-3vDTSDTS 人类的听觉vv

38、人耳的基本声音定位原理是人耳的基本声音定位原理是IIDIID（Interaural Intensity Interaural Intensity DifferenceDifference，两侧声音强度差别）和，两侧声音强度差别）和ITDITD（Interaural Time Interaural Time DifferenceDifference，两侧声音时间延迟差别）。，两侧声音时间延迟差别）。vvIIDIID指距离音源较近的哪一边耳朵，所收到的声音强度比指距离音源较近的哪一边耳朵，所收到的声音强度比另一侧高，感到声音更大一些。另一侧高，感到声音更大一些。vvITDITD指方位的不同，使声音

39、到达两耳的时间有差别，人们指方位的不同，使声音到达两耳的时间有差别，人们会觉得声音位于到达时间早些的那一边，会觉得声音位于到达时间早些的那一边，IID+ITDIID+ITD的结果的结果是把音源定位到以听者两耳这间连线为轴线的锥体范围之是把音源定位到以听者两耳这间连线为轴线的锥体范围之内。内。人类的听觉vv耳廓（外耳）的作用是滤波器，根据声音的不同角度，加耳廓（外耳）的作用是滤波器，根据声音的不同角度，加强强/ /减弱音波能量，过滤之后传给大脑，让我们更准确地声减弱音波能量，过滤之后传给大脑，让我们更准确地声源的位置。耳廓的大小有限，因此能够收到的音波范围也源的位置。耳廓的大小有限，因此能够收

40、到的音波范围也有限，通常是有限，通常是20Hz20Hz到到20KHz20KHz，即波长，即波长1616米到米到1.61.6厘米的音厘米的音波。换言之，低于此范围是次声波，高于此范围是超声波。波。换言之，低于此范围是次声波，高于此范围是超声波。 vv由于两耳机的距离约为由于两耳机的距离约为1515厘米，当波长大于厘米，当波长大于1515厘米时厘米时IITIIT和和ITDITD将会减弱。频率低的声音波长大，因此我们很难判将会减弱。频率低的声音波长大，因此我们很难判断出低音的位置，却能轻易分辨高音的方位。实际上，耳断出低音的位置，却能轻易分辨高音的方位。实际上，耳廓对于声音的定位，是至关重要的一环，

41、没有外耳的人难廓对于声音的定位，是至关重要的一环，没有外耳的人难以判断声音发出的位置。以判断声音发出的位置。人类的听觉vv人类依靠一种称为人类依靠一种称为HRTFHRTF（Head Related Transfer Head Related Transfer FunctionFunction，头部关联传输功能）的系统来判断声音发出的，头部关联传输功能）的系统来判断声音发出的位置。每个人的位置。每个人的HRTFHRTF都不尽相同，还可以进行交换。都不尽相同，还可以进行交换。vvHRTFHRTFHRTFHRTF的检测非常简单，先在人的耳道内放置两个微型麦克的检测非常简单，先在人的耳道内放置两个微

42、型麦克风，再在听者附近放一个音箱，播放确定的信号，同时记风，再在听者附近放一个音箱，播放确定的信号，同时记录麦克风收到的信号。比较源信号和麦克风的脉冲特性曲录麦克风收到的信号。比较源信号和麦克风的脉冲特性曲线就可以得到其中一个滤波效果。最后于听者附近的所有线就可以得到其中一个滤波效果。最后于听者附近的所有位置重复上述过程，即可获取完整的位置重复上述过程，即可获取完整的HRTFHRTFHRTFHRTF系统。系统。三维音效三维音效v 人类的听觉人类的听觉v3D3D音效的分类音效的分类v杜比杜比AC-3AC-3vDTSDTS 3D音效的分类v3D3D音效的两个最重要因素是定位和交互。音效的两个最重

43、要因素是定位和交互。v定位即让人们准确地判断出声音的来源，可以通定位即让人们准确地判断出声音的来源，可以通过预选录制声音，再进行特定的解码来实现。过预选录制声音，再进行特定的解码来实现。v实时的定位就是交互，声音并非预选录制好的，实时的定位就是交互，声音并非预选录制好的，而是按照你的控制来决定声音的位置。即时生成而是按照你的控制来决定声音的位置。即时生成的交互式声音对输入设备的要求，比预选录制音的交互式声音对输入设备的要求，比预选录制音轨的放音设备（如：电影）要更强一些。轨的放音设备（如：电影）要更强一些。 3D音效的分类vv扩展式立体声扩展式立体声它使用声音延迟技术对传统的立体声进行额外处

44、理，它使用声音延迟技术对传统的立体声进行额外处理，扩宽了音场的位置，使声音延展到音箱以外的空间，扩宽了音场的位置，使声音延展到音箱以外的空间，让我们感觉的让我们感觉的3D3D世界更广阔世界更广阔 vv环绕立体声环绕立体声它采用音频压缩技术它采用音频压缩技术( (如：杜比如：杜比AC-3)AC-3)把多通道音源编码把多通道音源编码成一段程序，再以一组多扬声器系统来进行解码，实成一段程序，再以一组多扬声器系统来进行解码，实现多区域环绕效果。现多区域环绕效果。 vv交互式交互式3D3D音效音效交互式交互式3D3D尽量地复制了人耳在真实世界中听到的声音，尽量地复制了人耳在真实世界中听到的声音，并使

45、用一定的算法来播放出来，让我们感到整个三维并使用一定的算法来播放出来，让我们感到整个三维空间的所有地方都可能产生声音，并随听者的移动而空间的所有地方都可能产生声音，并随听者的移动而做出相应改变。做出相应改变。三维音效三维音效v 人类的听觉人类的听觉v 3D3D音效的分类音效的分类v杜比杜比AC-3AC-3vDTSDTS 杜比AC-3vv为了提高为了提高HDTVHDTV声音的质量，避免模拟矩阵编码的局限性，声音的质量，避免模拟矩阵编码的局限性，提出了双通道的码率提供多通道的编码性能的设想，杜比提出了双通道的码率提供多通道的编码性能的设想，杜比AC-3AC-3就是为了实现这一设想而开发的。杜比就

46、是为了实现这一设想而开发的。杜比AC-3AC-3可以把可以把五个独立的全频带和一个超低音通道的信号实行统一编码，五个独立的全频带和一个超低音通道的信号实行统一编码，成为单一的复合数据流。成为单一的复合数据流。 vvAC-3AC-3的频响为的频响为20Hz20Hz20kHz 0.5dB(-3dB20kHz 0.5dB(-3dB时为时为3Hz3Hz20.3kHz)20.3kHz)，超低声道频率范围是，超低声道频率范围是20Hz20Hz120Hz120Hz 0.5dB0.5dB。可。可支持支持32kHz32kHz、44.1kHz44.1kHz、48kHz48kHz三种取样频率。数码率可低三种取样频率

47、。数码率可低至单声道的至单声道的32kb/s,32kb/s,高到多声道高到多声道640kb/s640kb/s，以适应不同需要。，以适应不同需要。杜比AC-3vAC-3AC-3采用基于改良离散余弦变换（采用基于改良离散余弦变换（MDCTMDCT）的自）的自适应变换编码（适应变换编码（ATCATC）算法。）算法。ATCATC算法的一个重算法的一个重要考虑是基于人耳听觉掩蔽效应的临界频带理论，要考虑是基于人耳听觉掩蔽效应的临界频带理论，即在临界频带内一个声音对另一个声音信号的掩即在临界频带内一个声音对另一个声音信号的掩蔽效应最明显。因此蔽效应最明显。因此, ,划分频带的滤波器组要有足划分频带的滤波

48、器组要有足够锐利的频率响应，以保证临界频带外的噪声衰够锐利的频率响应，以保证临界频带外的噪声衰减足够大，使时域和频域内的噪声限定在掩蔽门减足够大，使时域和频域内的噪声限定在掩蔽门限以下。限以下。三维音效三维音效v 人类的听觉人类的听觉v 3D3D音效的分类音效的分类v 杜比杜比AC-3AC-3vDTSDTS DTSvvDTSDTS是是“ “Digital Theatre SystemDigital Theatre System” ”的缩写，是的缩写，是“ “数字化影数字化影院系统院系统” ”的意思。的意思。vv从技术上讲，从技术上讲，DTSDTS与包括与包括Dolby DigitalDolb

49、y Digital在内的其它声音处在内的其它声音处理系统是完全不同的。理系统是完全不同的。Dolby DigitalDolby Digital是将音效数据存储在是将音效数据存储在电影胶片的齿孔之间，因为空间的限制而必须采用大量的电影胶片的齿孔之间，因为空间的限制而必须采用大量的压缩的模式，这样就不得不牺牲部分音质。压缩的模式，这样就不得不牺牲部分音质。vvDTSDTS公司用一种简单的办法解决了这个问题，即把音效数公司用一种简单的办法解决了这个问题，即把音效数据存储到另外的据存储到另外的CD-ROMCD-ROM中，使其与影像数据同步。这样中，使其与影像数据同步。这样不但空间得到增加，而且数据流量

50、也可以相对变大，更可不但空间得到增加，而且数据流量也可以相对变大，更可以将存储音效数据的以将存储音效数据的CDCD更换，来播放不同的语言版本。更换，来播放不同的语言版本。 DTSvvDTS DTS 系统不仅具有系统不仅具有 AC-3 AC-3 相似功能，更加强了其纵深定位交叉效果。相似功能，更加强了其纵深定位交叉效果。DTS DTS 芯片容量为芯片容量为 1536kbps1536kbps，压缩传输比为，压缩传输比为 4:14:1；而；而 AC-3 AC-3 芯片容量为芯片容量为 448kbps448kbps，压缩比为，压缩比为 10:110:1。正是由于。正是由于DTS DTS 信息容量的增加

51、，音色更加信息容量的增加，音色更加优美。优美。vvDTS DTS 家庭影院的核心是家庭影院的核心是 DTS DTS 解码器，它可对解码器，它可对 DVDDVD，CD CD 的杜比数字的杜比数字解码，输出解码，输出 5.1 5.1 声道信息，也可以选择声道信息，也可以选择DTSDTS方式，输出方式，输出6 6 声道信息。声道信息。vvDTS DTS 和杜比数字在音质上有着明显的不同，前者声音力度强劲，声音和杜比数字在音质上有着明显的不同，前者声音力度强劲，声音的上升和切入都很尖锐，音场的透明感清晰可闻，尤其是丰富的低音的上升和切入都很尖锐，音场的透明感清晰可闻，尤其是丰富的低音效果表现得更加激烈

52、火爆。后者在低音方面缺少丰富的力度效果表现得更加激烈火爆。后者在低音方面缺少丰富的力度第四讲第四讲数字语音处理技术数字语音处理技术 vv 数字音频压缩技术数字音频压缩技术vv 三维音效三维音效vv语音识别语音识别vv自然语言理解自然语言理解vv语音合成语音合成语音识别技术及应用v语音识别的发展历史语音识别的发展历史 v语音识别技术语音识别技术v语音识别系统的类型语音识别系统的类型 v语音识别的应用语音识别的应用语音识别的发展历史vv语音识别技术的研究工作始于语音识别技术的研究工作始于2020世纪世纪5050年代，当时年代，当时AT&TBellAT&TBell实验实验室实现了第一个可识别

53、十个英文数字的语音识别系统室实现了第一个可识别十个英文数字的语音识别系统AudryAudry系统。系统。 vv6060年代，计算机的应用推动了语音识别的发展。年代，计算机的应用推动了语音识别的发展。vv7070年代，语音识别领域取得了突破。年代，语音识别领域取得了突破。 vv8080年代，语音识别研究进一步走向深入，其显著特征是年代，语音识别研究进一步走向深入，其显著特征是HMMHMM模型和模型和人工神经元网络（人工神经元网络（ANNANN）在语音识别中的成功应用。）在语音识别中的成功应用。 vv9090年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走年代，随着多媒体时代的来临，迫切

54、要求语音识别系统从实验室走向实用。向实用。语音识别技术的发展历史如图表示了从80年代初以来语音识别技术经历的从孤立词、小词汇量、特定人到大词汇量、非特定人、自然口语识别的发展历程。语音识别技术及应用v 语音识别的发展历史语音识别的发展历史 v语音识别技术语音识别技术v语音识别系统的类型语音识别系统的类型 v语音识别的应用语音识别的应用语音识别技术v不同的语音识别系统，虽然具体实现细节有所不不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，它所涉及的领域同，但所采用的基本技术相似，它所涉及的领域包括：信号处理、模式识别、概率论和信息论、包括：信号处理、模式识别、概率论和信

55、息论、发声机理和听觉机理、人工智能等等。发声机理和听觉机理、人工智能等等。 v语音识别技术主要包括语音识别技术主要包括特征提取技术特征提取技术、模式匹配模式匹配准则准则及及模型训练模型训练技术三个方面。此外，还涉及到技术三个方面。此外，还涉及到语音识别单元的选取。语音识别单元的选取。特征参数提取技术v语音信号中含有丰富的信息，这些信息称为语音语音信号中含有丰富的信息，这些信息称为语音信号的声学特征信号的声学特征 v特征提取是对语音信号进行分析处理，去除对语特征提取是对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别音识别无关紧要的冗余信息，获得影响语音识别的重要信息的

56、重要信息 v由于语音信号的时变特性，特征提取必须在一小由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析段语音信号上进行，也即进行短时分析常用的一些声学特征v线性预测系数线性预测系数LPCLPCv倒谱系数倒谱系数CEPCEPvMelMel倒谱系数倒谱系数MFCCMFCC和感知线性预测和感知线性预测PLPPLP模式匹配及模型训练技术vv模型训练是指按照一定的准则，从大量已知模式中获取表模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模

57、型获得最佳匹配。准则，使未知模式与模型库中的某一个模型获得最佳匹配。 vv语音识别所应用的模式匹配和模型训练技术主要有动态时语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（间归正技术（DTWDTW，又称为动态时间弯折技术）、隐马，又称为动态时间弯折技术）、隐马尔可夫模型（尔可夫模型（HMMHMM）和人工神经元网络（）和人工神经元网络（ANNANN）。）。典型语音识别系统的实现过程语音识别单元的选取vv选择识别单元是语音识别研究的第一步选择识别单元是语音识别研究的第一步 vv语音识别单元有语音识别单元有单词单词（句）、（句）、音节音节和和音素音素三种三种 vv单词单元广泛应用于中

58、小词汇语音识别系统单词单元广泛应用于中小词汇语音识别系统 vv音节单元多见于汉语语音识别音节单元多见于汉语语音识别 vv音素单元以前多见于英语语音识别的研究中，但目前中、音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用大词汇量汉语语音识别系统也在越来越多地采用语音识别技术及应用v 语音识别的发展历史语音识别的发展历史 v 语音识别技术语音识别技术v语音识别系统的类型语音识别系统的类型 v语音识别的应用语音识别的应用语音识别系统的类型语音识别系统有以下几种分类方式：语音识别系统有以下几种分类方式：根据对说话人的依赖程度可以分为特定人和非根据对说话

59、人的依赖程度可以分为特定人和非特定人语音识别系统特定人语音识别系统根据对说话人说话方式的要求，可以分为孤立根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接词语音识别系统字（词）语音识别系统，连接词语音识别系统以及连续语音识别系统以及连续语音识别系统根据词汇量大小，可以分为小词汇量、中等词根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统汇量、大词汇量以及无限词汇量语音识别系统特定人语音识别系统特定人语音识别系统vv特定人的识别系统精明得足以能了解讲话者的语音特点，特定人的识别系统精明得足以能了解讲话者的语音特点，它从语音签名上就能知道讲话者的

60、身份。它从语音签名上就能知道讲话者的身份。 vv只有在讲话者用特定单词组形成的词汇表训练系统后，它只有在讲话者用特定单词组形成的词汇表训练系统后，它才能识别才能识别 vv特定人系统的优点是它是可训练的，系统很灵活，可以训特定人系统的优点是它是可训练的，系统很灵活，可以训练它来识别新词练它来识别新词 vv特定人的系统的缺点是由一个用户训练的系统不能被另一特定人的系统的缺点是由一个用户训练的系统不能被另一用户使用用户使用 vv例：手机中使用的语音拨号例：手机中使用的语音拨号非特定人语音识别系统v非持定人识别系统可识别任何用户的语音。它不非持定人识别系统可识别任何用户的语音。它不需要任何来自用户的训

61、练，因为它不依赖于个人需要任何来自用户的训练，因为它不依赖于个人的语音签名。的语音签名。 v为生成非特定人识别系统、大量的用户训练了大为生成非特定人识别系统、大量的用户训练了大词汇表的识别器。词汇表的识别器。 v在训练系统时，男声和女声、不同的口音和方言，在训练系统时，男声和女声、不同的口音和方言，以及带有背景噪音的环境都计入了考虑范围之内以及带有背景噪音的环境都计入了考虑范围之内以生成参考模板。以生成参考模板。v例：例：IBMViaVoiceIBMViaVoice孤立词语音识别系统v孤立词孤立词( (语音语音) )识别系统，一次只提供一个单一词识别系统，一次只提供一个单一词的识别的识别 v识

62、别器的第一个任务是进行幅度和噪声归一化，识别器的第一个任务是进行幅度和噪声归一化，下一步是参数分析下一步是参数分析 v可以通过把对应于一个词的大量样本聚集为单一可以通过把对应于一个词的大量样本聚集为单一群来获得非特定人孤立单词语音识别器。群来获得非特定人孤立单词语音识别器。连接词语音识别系统v连接词的语音由所说的短语组成，而短语又是由连接词的语音由所说的短语组成，而短语又是由词序列组成词序列组成 v识别连接词短语中单词的一种方法是采用词定位识别连接词短语中单词的一种方法是采用词定位技术技术 v类似于孤立词语音识别，连接词语音识别用于命类似于孤立词语音识别，连接词语音识别用于命令和控制应用令和

63、控制应用连续语音识别系统v连续语音由在听写中形成段落的完整句子组成连续语音由在听写中形成段落的完整句子组成 v连续语音识别系统可以分成下列三部分：连续语音识别系统可以分成下列三部分：第一部分包括数字化、幅度归一化、时间归一第一部分包括数字化、幅度归一化、时间归一化和参数表示化和参数表示另一部分包括分割并把语音段标记成在基于知另一部分包括分割并把语音段标记成在基于知识或基于规则系统上的符号串识或基于规则系统上的符号串最后一部分是设计用于识别词序列而进行语音最后一部分是设计用于识别词序列而进行语音段匹配段匹配语音识别技术及应用v 语音识别的发展历史语音识别的发展历史 v 语音识别技术语音

64、识别技术v 语音识别系统的类型语音识别系统的类型 v语音识别的应用语音识别的应用语音识别的应用v语音邮件集成语音邮件集成v数据库输人和询问应用数据库输人和询问应用 v语音命令和控制应用语音命令和控制应用第四讲第四讲数字语音处理技术数字语音处理技术 vv 数字音频压缩技术数字音频压缩技术vv 三维音效三维音效vv 语音识别语音识别vv自然语言理解自然语言理解vv语音合成语音合成自然语言理解vv自然语言理解就是研究如何能让计算机理解并生成人们日自然语言理解就是研究如何能让计算机理解并生成人们日常所使用的常所使用的( (如汉语、英语如汉语、英语) )语言，使得计算机懂得自然语语言，使得计算机

65、懂得自然语言的含义，并对人给计算机提出的问题，通过对话的方式，言的含义，并对人给计算机提出的问题，通过对话的方式，用自然语言进行回答。目的在于建立起一种人与机器之间用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系，使之能进行高度的信息传递与认知的密切而友好的关系，使之能进行高度的信息传递与认知活动。活动。 vv用自然语言与计算机进行通信，这是人们长期以来所追求用自然语言与计算机进行通信，这是人们长期以来所追求的。的。自然语言理解vv一个中文文本从形式上看是由汉字（包括标点符号等）组成的一个字一个中文文本从形式上看是由汉字（包括标点符号等）组成的一个字符串。由字可组成词，由词

66、可组成词组，由词组可组成句子，进而由符串。由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。一些句子组成段、节、章、篇。vv无论在上述的各种层次：字（符）、词、词组、句子、段，无论在上述的各种层次：字（符）、词、词组、句子、段，还是还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。词串、词组串等，并有不同的意义。vv自然语言处理的核心技术是

67、语言分析技术，即将句子（数量无限）变自然语言处理的核心技术是语言分析技术，即将句子（数量无限）变换成由词语（数量可控）及其抽象形式（数量有限）构成的用某种数换成由词语（数量可控）及其抽象形式（数量有限）构成的用某种数据结构（句法树、复杂特征集或语义网络）表示的内部形式（数量有据结构（句法树、复杂特征集或语义网络）表示的内部形式（数量有限）。限）。自然语言理解vv语言分析技术可以分为基于规则与基于统计数据两大类。语言分析技术可以分为基于规则与基于统计数据两大类。vv概率语法通过语料库统计给每条语言规则加上概率值，语概率语法通过语料库统计给每条语言规则加上概率值，语言规则便有了言规则便有了“柔性

68、柔性”，不再是，不再是“说一不二说一不二”、“非此即彼非此即彼”。vv概率语法是有机结合这两类技术的较好理论体系。为了完概率语法是有机结合这两类技术的较好理论体系。为了完成这种统计，事先必须按照人给出的语言规则加工语料库成这种统计，事先必须按照人给出的语言规则加工语料库（至少要加工一部分训练语料），这说明统计方法也需要（至少要加工一部分训练语料），这说明统计方法也需要规则的指导。两者之间的结合和互相利用是必然的趋势。规则的指导。两者之间的结合和互相利用是必然的趋势。自然语言理解vv语言分析可以划分为词法析、句法分析、语义分析、篇章分析等步骤。语言分析可以划分为词法析、句法分析、语义分析、篇章

69、分析等步骤。现在，词法分析和句法分析相对成熟，语义分析逐渐成为研究重点。现在，词法分析和句法分析相对成熟，语义分析逐渐成为研究重点。对象单元由小到大从句子向篇章发展。实际上只有在篇章的范围内分对象单元由小到大从句子向篇章发展。实际上只有在篇章的范围内分析，省略、指代和句子的固有歧义等问题才可能解决。析，省略、指代和句子的固有歧义等问题才可能解决。 vv如果说自然语言处理技术尚未取得重大突破，其含义就是完整语言分如果说自然语言处理技术尚未取得重大突破，其含义就是完整语言分析技术尚未过关。析技术尚未过关。vv浅层分析技术或者只提取句子中的名词短语，或者只识别句子的谓语浅层分析技术或者只提取句子中的

70、名词短语，或者只识别句子的谓语中心词及其他组块同谓语中心词的依存关系。这样的技术就是适应当中心词及其他组块同谓语中心词的依存关系。这样的技术就是适应当今大规模网上文本信息处理，例如，文献检索、信息提取和文本分类今大规模网上文本信息处理，例如，文献检索、信息提取和文本分类等的需要，吸收传统的语言分析中某些局部技术而发展起来的。等的需要，吸收传统的语言分析中某些局部技术而发展起来的。第四讲第四讲数字语音处理技术数字语音处理技术 vv 数字音频压缩技术数字音频压缩技术vv 三维音效三维音效vv 语音识别语音识别vv 自然语言理解自然语言理解vv语音合成语音合成语音合成语音合成v语音合成是以言语

71、产生模型为基础语音合成是以言语产生模型为基础, ,分析抽取激励分析抽取激励源源, ,声道的特征参数；再利用这些特征参数重新综声道的特征参数；再利用这些特征参数重新综合出语音信号的过程。合出语音信号的过程。 v语音合成是通过一个声学模块来具体实现的。语音合成是通过一个声学模块来具体实现的。语音合成语音合成vv早期的语音合成技术的研究，往往集中在语音合成算法本早期的语音合成技术的研究，往往集中在语音合成算法本身，其研究的方法和手段与语音编码有很多相似之处。身，其研究的方法和手段与语音编码有很多相似之处。vv进入进入2020世纪世纪9090年代以来，波形拼接年代以来，波形拼接(PSOLA(PSOLA

72、，Pitch Pitch Synchronous OverLap Add)Synchronous OverLap Add)的算法，越来越被广泛地应用的算法，越来越被广泛地应用在语音合成系统中。在语音合成系统中。PSOLAPSOLA较好地解决了语音拼接中的较好地解决了语音拼接中的问题，从而推动了波形编辑语音合成技术的发展与应用。问题，从而推动了波形编辑语音合成技术的发展与应用。vv近年来，一些新的方法，如人工神经网络、决策树、隐马近年来，一些新的方法，如人工神经网络、决策树、隐马尔可夫模型等被广泛地应用于语音合成技术。尔可夫模型等被广泛地应用于语音合成技术。 TTSvvTTSTTS即文本语音转换

73、技术即文本语音转换技术(TextToSpeech)(TextToSpeech)，它涉及声学、语言学、，它涉及声学、语言学、数学信号处理技术、多媒体技术等多个学科技术，是中文信息处理领数学信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术，实现把计算机中任意出现的文字转换成自然流畅域的一项前沿技术，实现把计算机中任意出现的文字转换成自然流畅的语音输出。的语音输出。 vvTSTS系统是一种以文字串为输入的规则合成系统。其输入的文字串为通系统是一种以文字串为输入的规则合成系统。其输入的文字串为通常的文本字符串。系统中的文本分析器首先根据发音字典，将输入的常的文本字符串。系统中的

74、文本分析器首先根据发音字典，将输入的文字串分节为带有标记的词及其读音符号，再根据语义规则和语音规文字串分节为带有标记的词及其读音符号，再根据语义规则和语音规则，为每一个词、每一个音节确定声音等级和语调，以及各种停顿等。则，为每一个词、每一个音节确定声音等级和语调，以及各种停顿等。这样文字串就转换为代码串。规则合成系统就可据此合成抑扬顿挫和这样文字串就转换为代码串。规则合成系统就可据此合成抑扬顿挫和不同语气的语句。不同语气的语句。视觉语音vv视觉语音是指人们在用语言交流时所表达出的面部表情和视觉语音是指人们在用语言交流时所表达出的面部表情和动作，它能在一定程度上传达人们想要表达的意思，并能动作

75、，它能在一定程度上传达人们想要表达的意思，并能帮助人们加深对语言的理解。帮助人们加深对语言的理解。 vv近年来出现了另一种多媒体研究热潮，即把声音和文字、近年来出现了另一种多媒体研究热潮，即把声音和文字、图像集成在一起，形成直接由文本到可视语音的转换图像集成在一起，形成直接由文本到可视语音的转换(text-to-visual speech(text-to-visual speech，TTVS)TTVS)，使人们在听计算机说话的，使人们在听计算机说话的同时能看到一个合成的人脸，使人机交互界面更为友好、同时能看到一个合成的人脸，使人机交互界面更为友好、和谐。和谐。视觉语音vvTTVSTTVS的实

76、现方法可分为以下两类：的实现方法可分为以下两类：基于参数控制的方法。首先对人脸建立一个网格模型，基于参数控制的方法。首先对人脸建立一个网格模型，包括多个多边形包括多个多边形( (一般是三角形一般是三角形) )和顶点。由一组参数来和顶点。由一组参数来控制每个顶点的运动，再通过图像变形技术实现人脸控制每个顶点的运动，再通过图像变形技术实现人脸上各个像素点的运动，来生成人们说话时的各种面部上各个像素点的运动，来生成人们说话时的各种面部表情。表情。 vv基于数据驱动的方法。基于数据驱动的方法。类似于语音合成中的波形拼接合成法。通过对人们说类似于语音合成中的波形拼接合成法。通过对人们说话时可能出现的各种表情进行录像，从中提取大量的话时可能出现的各种表情进行录像，从中提取大量的原始数据，建立图像数据库。在合成时从库中选择合原始数据，建立图像数据库。在合成时从库中选择合适的图像进行拼接，并进行一些消除图像边缘效应和适的图像进行拼接，并进行一些消除图像边缘效应和抖动的处理，生成动态的连续的说话者的面部表情。抖动的处理，生成动态的连续的说话者的面部表情。

展开阅读全文

多媒体计算机技术-4

最新文档