语音编码总结－金锄头文库

资源描述

《语音编码总结》由会员分享，可在线阅读，更多相关《语音编码总结（14页珍藏版）》请在金锄头文库上搜索。

1、语音编码总结一、历史与概念1、模拟的声音信号话音信号：（口语发声的）200Hz3400Hz调幅广播信号：（无线广播）50Hz到7000Hz调频广播信号：（无线广播）20Hz到16000Hz激光唱机信号（CD）： 10Hz20000Hz2、话音编码技术的历史回顾高保真立体音频 16位 44.1k 905.6k PCM ISO 1990压缩64k128k MPEG每声道在32k448k：.丁1；无线_ :；无线 AM 14 位 16k 224k PCM 64k | I:；:64k PCM 8 位 8k j 子带 ADPCM ;!（Toll）G.711 ：88 年 G.722 :!II-I.10

2、 205020034007000 1600 20000 Hz话音编码研究的历史表明，这一领域的研究成果直接为通信产业发展提供了源动力。目前IP电话所用的编码的标准有G.723.1, G.728, G.729。具有低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。3、若干概念术语（1）数字信号：标称的不连续信号。它可以用离散的步差从一个状态转变到另一个状态。（2）采样:按周期T对模拟信号进行测量，称为采样。采样频率Fs=1/T. 在满足奈奎斯特定理时，从采样值可准确的恢复原信号。（3）量化用数字信号表示话音的过程称为量化。（4）非均匀量化非均匀量化可以兼顾动态范围

3、和小信号的系统精度。Reeves提出概念。即对大信号取较大的量化步长。对小信号取较小的量化步长。二、矢量量化将k个样点构成的有序集（信源矢量集合）映射为M个恢复失量构成的有限集A （码书，码本）中的某个矢量Yi （码字，码元）的映射，称为矢量量化，它是对标量量化在K维空间的一个推广。标量量化矢量量化量化对象单个采样点K个采样点集合划分在一维幅度轴上划分有限个区间 1=a0 a1）.LIn=anT an）在k维空间里，划分成有限个子空间S=Si|i=1,2, M量化过程在每个区间里，选一个代表值 fiQQi I=1,2,.n在每个子空间里，选一个代表矢量Yi=Yi1,Yi2,Yii Yi

4、IZISi） i=1,2,.M量化方法对任一模拟信号，当其标称值属于区间i时，就用数字信号fi代表值对任一k维模拟信号的矢量。当其标称值属于子区间Si时,就用代表矢量Yi去量化之。1、码本设计的LBG方法（1）在矢量空间X中，进行最佳划分，即，把X划分成M个子空间Si i=,1.2.m使平均失真最小。（2）对划分后的子空间Si求出其形心作为新的最佳代表矢量Yi，从而构成新的码本。将上述步骤反复迭代，最终求出最佳码本和量化器。（3）初始码本的选择：A、随机选取，迭代时间较长B、分裂法（4）LBG方法不是最优化方法，即迭代过程不能保证收敛到全局最小值。后来有人提出模拟退火法，将LBG方法收

5、敛到局部最小值时，采用某种扰动将迭代过程继续进行下去。2、空间分布对矢量量化的影响LBG算法把问题简化为：在矢量空间中，样点的分布是均匀的。但实际的应用场合往往不满足这个前提。因此应考虑空间分布，空间分布对量化值的选择有很重要的影响。对矢量的情况，影响依然存在。3、语音编码方案的三种类型语音编码的主要任务：对量化的话音信号施加某种数字变化，使其具有适于数字信道传输的形式，同时尽可能多信号所承载的信息。话音信号的剩余度主要表现在三个方面：（1）相邻样点存在较强的相关性（2）对浊音信号存在周期（准周期）性（3）信号短时平稳，时不变性此外，人类听觉对话音有选择效应，即当一个强音与一个弱音

6、同时存在时，人类听觉能够自动抑制弱音的效果，称为人耳的“掩蔽效应”。这些是话音压缩编码的出发点。3.1波型编码：对话音信号的每一个样点进行量化、编码和传输。因此，波型编码是没有延迟的话音编码方案。3.1.1差值脉码调制（DPCM和-调制）一位的DPCM系统成为-调制或增量调制DM。流程图如下：编码器解码器这里，八表示对应的量化值，上标表示对应的预测值，用ei表示差值di的量化误差。收端恢复的量化信号只与差值信号的量化误差有关，而与预测器性质无关。（1）当信号变化快时，恢复波形跟不上信号的变化，称为”斜率过载“（2）对于零信号，DM方法交替输出一串0和1，这种随机交变电平成为“颗粒噪

7、声”。解决办法是在量化器引入自适应阶矩调整机制（ADM）。如果自适应调整依据输入信号，称为前向自适应。如果自适应调整依据是量化器输，称为后向自适应。前向自适应将导致延迟的产生，后向自适应有可能不稳定。3.1.2连续可变斜率增量调制（CVSD）其原理可用下图说明：ALL 0当反馈回路中，出现连续四个“1”或连续四个“0”时，表明系统出现斜率过载的情况，此时或门输出一个高电平，驱动触发器改变量化的阶矩的大小，以便适应输入信号的变化。3.1.3自适应差值脉码调制（ADPCM）PCM:非均匀量化。D:调制。差值调制。CVSD：自适应概念将脉码调制、差值调制和自适应技术三者结合起来。使编码算法

8、不仅适用于幅值起伏较大的话音信号，而且能很好的适合于平稳信号（如话带数据）。3.1.4信息压缩的基本思路1、信息与消息（1）消息是由符号、数字、文字或语言组成的序列。（2）信息是消息中不确定的内容。消息是信息的载体，信息是消息的内含。由于信息是消息中承载的不确定性因素（差别、变化、区别等），因此必然与通信双方的知识（约定）有关。越少见的事件，其出现带来的信息越多.2、信息压缩的主要手段（1）减少不确定性差值编码：相当于用前一个值来预测当前值，引出线性预测的概念pd（n） = s（n） z a s（n -1）i=1（2）通信双方建立某种知识约定，如码书或算法（3）对变化的规律、不确定性因素

9、建立描述机制或学习机制3.2参数编码就是对每帧语音信号，将滤波器系数和残差e(n)分别进行量化编码。由于e(n)的平均能量和幅度变化范围远远小于信号s(n)，因此在信噪比相同的条件下，可以用较少的比特对其编码。参数编码时，将激励按清音、浊音分成高斯随机白噪声或准周期信号。倒谱参数C(n)构成的同态声码器，用共振峰参数构成的共振峰声码器，都是参数编码方法。1、基音提取：并联基音提取方法。(1) 短时平均幅度差函数AMDF(2) 中心削波法是对信号的一个非线性变换：国()-CS () C/IC S (n) T 01 S (n) C，、，、 1S (n) + C S (n) - C 虹i

10、i式中，Cl称为削波电平，它取信号最大值Smax的一个百分比(30% 80%)/C/S (n) C， S (n) = 0- C 1S (n) 用YS(n)表示三电平中心削波器的输出，在自相关函数中有1y (n + m) = y (n + m - k)y(n + m) y(n + m 一 k) = 0y(n + m) = 0.or.y(n + m 一 k) = 01y (n + m)丰 y (n + m 一 k)用三电平中心削波信号计算自相关函数，找到自相关函数最大值，并将峰值与一个固定门限例如Rn(0)的1/3比较，如果低于门限判为清音，如果高于门限则最大峰位置判为基音周期。2、并联基音提

11、取基本方法原理：(1) 先对信号进行处理产生若干冲激串，冲激串只保留原始信号的周期性而去除了与基音检测无关的信息。(2) 估计每个冲激串的周期。(3) 对这些周期进行逻辑判断，最后确定语音信号的周期，将进过低通滤波的信号按如下原则求出六个冲激串3.3混合编码波形编码音质好但码率高，参数编码可以获得很低的码率但音质不好，为了兼顾二者的长处和不足，提出了残差激励模型，多脉冲激励模型和码激励模型。此外，对LPC参数模型也提出了噪声加权整形技术和长时预测滤波器等方法。1、混合编码中的新技术(1)长时预测滤波器浊音信号存在准周期性，当用滤波器pe (n ) = s (n ) - 或 s (n

12、- i)i=i描述语音信号时，残差序列e(n)保留着中准周期性。为此，用一个称为长时预测滤波器的B(z)来去除这种准周期性。B (z) = Pz -(M + j)M + j j =-I式中M是对应于基音周期的样点数。I根据滤波器阶数一般取0或1。残差e(n)经B(z)滤波器滤波后将得到更加白化的噪声谱。2、噪声整形信号经短时长时滤波后，噪声谱一般是平坦的。由于在两个共振峰之间，信号谱低于噪声谱，因此尽管总的信噪比是高的，但在阴影区域对应的频率上，噪声能明显被人耳感觉到。采用噪声谱变形后，总的信噪比有所降低，但在所有频率上信号的能量大于噪声的能量，由于人耳的选择性，可以形成对噪声的听

13、觉屏蔽效应，所以采用噪声整形。功率谱 dB频率 kHz(a)加噪声谱变形3、合成分析法(Analasys By Sythesis A-B-S)波形编码器内一般要嵌入一个解码器，使得解码信号与原始信号作差，提供一个比较信息或形成后向自适应。在参数编码时也用这一类方法，将合成信号与原始信号作差(加权)并比较，以次为依据进行参数修正或选择激励，这种方法称为A-B-S。LPC编码方法的二元激励模型过于简化。(1)多脉冲激励线性预测编码器MPLPC的关键问题是，如果一帧中允许用M个激励脉冲，如何求出这M个脉冲的位置和幅度，使得合成语音与原始语音的感觉加权均方误差最小。用自相关法求出短时滤波器A

14、(z)后经听觉加权处理，其冲击响应为：一cP一h (n) = 8 (n) + z a r jh (n - j)1 n Nj=i它们激励综合滤波器合成语音信号为：s (n ) = 1 g h (n - m )i = 1(2)规则脉冲激励线性预测编码器(RPE-LPC)规则脉冲是多脉冲的一种，即脉冲间隔固定的多脉冲激励。对于规则脉冲激励，算法可以简化。其结构图如下：S(n)原始语音一_)一r(n)残差激励发生器V(nM；1/A(z/r)|均方误差最小估值e(n)规则脉冲是让原始语音经短时滤波后的信号r(n)与激励信号作差，然后对感觉加权后的差值信号求均方误差最小来确定最佳激励。规则脉冲激励的问题是A、确定规则脉冲最佳的相位B、为每个非零脉冲确定一个幅度。（4）码激励CELP 通过LPC分析去除信号的短时相关性，再用长时基音分析去除基音周期性，得到的是信号具有高斯白噪声特性。（5）G.728低延迟码激励话音编码算法（LD-CELP）A、特点a、每5个样点为一帧，延迟为0.625ms b、采用50阶LPC滤波器，不用长时预测和基音检测 c、50阶LPC滤波器参数每4帧（20个样点，2.5ms）更新一次，具有时变参数特性 d、3位增益码书，7位波形码书的结构，增益码书与波形码书分别有 0.5位冗余 e、采用后向滤波技术，因此不传递参数信息，只传递激励信息 f、采用对数增益滤波技术，有

展开阅读全文