语音编解码技术－金锄头文库

资源描述

《语音编解码技术》由会员分享，可在线阅读，更多相关《语音编解码技术（41页珍藏版）》请在金锄头文库上搜索。

1、3.1 语音编解码技术,学习目标理解并掌握GSM语音编解码技术理解并掌握CDMA中的语音编解码技术,3.1 语音编解码技术,3.1.1 GSM语音编解码技术简介 3.1.2 CDMA中的语音编解码技术简介,国际上语音编码技术的两个主要研究方向: 降低语音编码速率提高语音质量语音编码技术是将语音波形通过采样、量化，然后利用二进制码表示出来，即是将模拟信号转变为数字信号，然后在信道中传输；语音解码技术是上述过程的逆过程。语音编解码技术要尽可能地使语音信号的原始波形在接收方无失真地恢复，主要分为: 波形编码参数编码混合编码,1.波形编码波形编码技术基于时域模拟话音的波形，按一定的速率采样

2、、量化，对每个量化点用代码表示。解码是相反过程，将加收的数字信号序列经解码和滤波后恢复成模拟信号。波形编码能提供很好的话音质量，但编码速率较高，一般应用在对信号带宽要求不高的通信中。常见的波形编码技术包括有脉冲编码调制（PCM）、增量调制（DM）、差分脉冲编码调制（DPCM）、自适应差分脉冲编码调制（ADPCM）、自适应增量调制（ADM）、自适应传输编码（ATC）等。,2.参数编码参数编码又称声源编码，该技术基于发音模型，从模拟话音中提取各个特征参量并进行量化编码，可实现低速率语音编码，但话音质量只能达到中等。常见的线性编码技术包括线性预测（LPC）声码器和余弦声码器等。,声码器定义声码器在发

3、送端对语言信号进行分析，提取出语言信号的特征参量加以编码和加密，以取得和信道的匹配，经信息道传递到接受端，再根据收到的特征参量恢复原始语言波形。它主要用于数字电话通信。,原理人讲话时，气流经过喉头形成声源信号，然后激励由口、鼻腔构成的声道，产生话音信号。声码器发信端的分析器首先对话音信号进行分析，提取主要话音参数：声源特性，如声带“振动-不振动”（浊-清音）、声带振动时的基本频率（基频）；声道传输声源信号的特性。这些话音参数变化很慢，它们所占的总频带比话音本身的频带窄得多，因而对这些参数采样编码时总数码率只有几千甚至几百比特秒，只有直接由话音信号采样编码的数码率的十几分之一，可以通过一个普通

4、电话信道来传输。收信端的合成器利用这些参数来合成话音。,3.混合编码混合编码是将波形编码和参量编码结合起来，吸收有波形编码的高质量和参数编码的低速率这两者的优点。常见的混合编码技术有基于线性预测技术的分析-合成编码算法，如泛欧GSM系统的规则脉冲激励-长期预测编码（RPE-LTP)混合编码方案等。,3.1.1 GSM语音编解码技术简介,线性预测编码(LPC)技术：线性预测编码(LPC)是一种类似于人类语音产生方式的、采用周期性的脉冲激活过滤器的语音编码方案。该编码之所以是可预测性的，原因在于其采用过去的数据信息（由向量所代表的），以一种向前反馈的方式预测未来的值。它既是一种语音分析技术又是一

5、种以低的比特率对高质量的语音进行编码的方法。它提供了语音参数的精确评估，而且估算起来相对有效。,线性预测分析是LPC中的关键，线性预测分析的基本概念是一个语音抽样能够用过去若干个语音抽样的线性组合来逼近。通过使在有限时间内的实际语音抽样与线性预测抽样之间的差值平方和最小，能够唯一确定一组预测器参数。这里预测器参数实际就是线性组合中所用的加权系数。利用LPC技术能有效地降低声码器的编码速率，但质量不尽如人意。对此可以采用声激励声码器来构成更精确的激励模型。,混合编码：一条路径产生并传送线性预测参数(线性滤波器数目和增益等)；另一路径是滤出波形信号低频部分，并传送波形编码。在接收端的话音合成器中

6、，将收到的低频话音信号经过适当组合以及平滑处理后，作为激励信号输入到数字滤波器中以恢复话音，而数字滤波器由接收到的预测参数所确定。这种改进的线性预测编码，同时对话音信号的特征参数和原信号的部分波形进行了编码。,GSM数字移动通信系统采用13 kbit/s 的“规则脉冲激励长期预测编码（RPE-LTP）”语音编码技术，它包括预处理、线性预测编码（LPC）分析、短时分析滤波、长时预测和规则码激励编码等5个主要部分，如图3-1所示。,图3-1 RPE-LTP编码示意图,模拟语音信号,预处理,LPC 分析,短时分析滤波,加权滤波,长时预测,RPE 编码,为使合成波形更接近原信号，该方案采用间隔

7、相等、相位和幅度优化的规则脉冲作为激励源，并结合长期预测，从而消除信号冗余度，降低了编码效率，且易于实现。,（1）预处理主要完成两件工作，离散语音信号和高频预加重。先用8kHz采样频率对输入的模拟语音信号进行采样得到离散语音信号S0（n），滤除S0（n）中的直流分量，得到S0f（n）；再采用一阶有限冲激响应（FIR）滤波器进行高频预加重，得到信号S（n）；加重的目的是加强语音谱中的高频共振峰，从而提高谱参数估值的精确性。,预加重：为便于信号的传输或记录，而对其某些频谱分量的幅值相对于其他分量的幅值预先有意予以增强的措施,（2）LPC分析,产生供短时分析滤波时使用的参数，然后按20ms一帧进

8、行处理，共取160个话音样本，编码为260bit编码块，每帧计算出8个LPC反射系数r（i）（反射系数与格型网络滤波器中的部分相关系数ki等效），再转换成对数面积比参数LAR（i），最后对LAR进行量化得到LARc，一方面送到解码器，另一方面对它解码，恢复出量化后的反射系数r（i），以供短时分析滤波时使用。,（3）短时分析滤波主要用于滤除语音信号样点之间的短时相关性，它让信号S（n）经过8级格型滤波器，产生一个短时LP余量信号d（n）。,由于共振峰可以识别音素，而一个音素持续的时间相对较短（音节时间），因此我们说频谱包络反映了话音的短时相关性。人类的语音有一定的周期特征，对应人的发生结构的

9、基音频率的变化比较缓慢，因此需要较细致的刻画，因此可以说频谱的精细结构反映了话音的长时相关性，这同样反映了时频矛盾的问题。,（4）长时预测长时预测是为了除去语音信号相邻基音周期之间的长时相关性，以便压缩编码速率。长时预测按子帧处理，每一帧分成4个子帧。长时预测使用过去子帧中经过处理后恢复出来的短时余量信号 d（n），对当前子帧的余量信号d（n）进行预测。,通过对 d（n）和 d（n）进行互相关运算，获得各个子帧的长时预测系数b和最佳延时N，分别用2bit和7bit编码，即 bc 和 Nc，把它们作为边信息送到解码器。将各个子帧的长时余量信号e（n）=d（n）- d（n）送往RPE编码器的前端

10、加权感觉滤波器。,感觉加权滤波器：感觉加权滤波器根据人耳的掩蔽效应，对共振峰区域进行去加重处理，由于共振峰附近的语音信号能量较强，因此这些区域的噪声被语音信号所掩蔽，人耳感觉不到。这样，尽管使信噪比有所降低，但是适当设计噪声谱形状时，主观评定却认为合成语音质量较高。,（5）规则码激励序列编码经短时、长时分析之后得到的LP余量信号，在这里进行平滑及降维激励脉冲串的选取。,（6）比特分配 GSM编码方案的语音帧长20 ms，每帧有260 bit，所以总的编码速率为13 kbit/s。经过激励信号自身编码，把以上一组参数组合到260 bit的帧中，编码后260 bit分配如表3-1所示。 260

11、 bit再经过信道编码、交织、调制、上变频，得到射频信号形成GSM突发发射到无线信道中。,表3-1 编码后260bit分配,CDMA的语音编码主要采用码激励线性预测编码（CELP)，它包含多种算法，如美国联邦通信标准的CELP算法，IS-54的 VSELP算法，IS-95的QCELP等。 CELP码激励线性预测编码（Code Excited Linear Prediction）概述CELP语音编码算法综合使用了线性预测、矢量量化、感觉加权、A-B-S(综合分析法）等技术，具有很清晰的语音品质和很高的背景噪声免疫性。,3.1.2 CDMA中的语音编解码技术简介,矢量量化矢量量化是70年代后期发展

12、起来的一种数据压缩技术。基本思想：将若干个标量数据组构成一个矢量，然后在矢量空间给以整体量化，从而压缩了数据而不损失多少信息矢量量化编码也是在图像、语音信号编码技术中研究得较多的新型量化编码方法，它的出现并不仅仅是作为量化器设计而提出的，更多的是将它作为压缩编码方法来研究的。,在传统的预测和变换编码中，首先将信号经某种映射变换变成一个数的序列，然后对其一个一个地进行标量量化编码。而在矢量量化编码中，则是把输入数据几个一组地分成许多组，成组地量化编码，即将这些数看成一个k维矢量，然后以矢量为单位逐个矢量进行量化。在矢量量化编码中，关键是码本的建立和码字搜索算法。码字搜索是矢量量化中的一个最基本

13、问题，矢量量化过程本身实际上就是一个搜索过程，即搜索出与输入最为匹配的码矢。,CELP编码器的基本原理框图如图3-2所示，其核心是用线性预测提取声道参数，用一个包含许多典型激励矢量的码本作为激励参数，每次编码时都在这个码本中搜索一个最佳的激励矢量，这个激励矢量的编码值就是这个序列的码本序号。,图 3-2 CELP编码其原理框图,具体原理如下：目前常用的CELP模型中，激励信号来自两个方面，长时基音预测器（又称自适应码本）和随机码本。自适应码本被用来描述语音信号的周期性（基音信息）。固定的随机码本则被用来逼近语音信号经过短时和长时预测后的线性预测余量信号。,从自适应码本和随机码本中搜索出的

14、最佳激励矢量乘以各自的最佳增益后相加，便可得到激励i（n）。它一方面被用来更新自适应码本，另一方面则被输入到合成滤波器H（z）以得到合成语音s（n）。s（n）与原始语音s（n）的误差通过感觉加权滤波器W（z）后可得到感觉加权误差信号e（n）。使e（n）均方误差为最小的激励矢量就是最佳激励矢量。,CELP的解码过程已经包含在编码过程中。在解码时，根据编码传输过来的信息从自适应码本和随机码本中找出最佳码矢量，分别乘以各自的最佳增益并相加，可以得到激励信号e(n)，将i(n)输入到合成滤波器H(z)，便可得到合成语音s(n)。,可以看出，搜索最佳激励矢量是通过综合出重建语音信号进行的。这种通过综合来

15、分析语音编码参数的优化方法称为综合分析法，即A-B-S方法。这种采用闭环LPC结构，由特征参数激励得到预测信号，将此信号与原信号s(n)相减得到残差信号e(n)，把此信号与有关参数一并编码传送，在解码端进行误差修正可有效改善合成语音质量，但也使编码运算量增加不少。,为了进一步降低编码速率，可以对一定时间内残差信号可能出现的各种样值的组合按一定规则排列构成一个码本，编码时从本地码本中搜索出一组最接近的残差信号，然后对该组残差信号对应的地址编码并传送，解码端也设置一个同样的码本，按照接收到的地址取出相应的残差信号加到滤波器上完成话音重建，则显然可以大大减少传输比特数，提高编码效率。这就是CELP编

16、码的基本原理。,QCELP 受激线性预测编码QCELP是美国Qualcomm通信公司的专利语音编码算法，是北美第二代数字移动电话（CDMA）的语音编码标准（IS-95）。QCELP算法被认为是到目前为止效率最高的一种算法，该算法可依靠适当的门限值来决定所需速率，而门限值根据背景噪声电平的变化而变化，这样就抑制了背景噪声。,IS-95是由高通公司发起的第一个基于CDMA数字蜂窝标准。基于IS-95的第一个品牌是cdmaOne。它是一个使用CDMA的2G移动通信标准，一个数据无线电多接入方案，其用来发送声音，数据和在无线电话和蜂窝站点间发信号数据（如被拨电话号码）。 IS-95是TIA（电信工业协

17、会）为最主要基于CDMA技术2G移动通信的空中接口标准分配的编号，IS全称为Interim Standard，即暂时标准。,IS-95中的CELP技术通过4个等级的变速率编码实现话音激活，即使用者发声时进行全速了（9.6kbit/s）编码，而不发声时仅仅传递八分之一（1.2kbit/s)的背景噪声，以降低功耗和对其他用户的干扰。由于一般通话过程中讲话的时间比例大约占40%（即话音激活比例），此时的编码对应于全速率，听的时间比例大约占50%，对应于八分之一速率，其余是介于两者之间的过渡速率，即二分之一和四分之一速率，因此，使用这种变速率编码技术从总体上减少了约一半系统中的干扰，增加了系统中同时通话的用户数，提高了系统整体容量。,

展开阅读全文

语音编解码技术

最新文档