语音编码总结

上传人:鲁** 文档编号:511957426 上传时间:2023-05-19 格式:DOCX 页数:14 大小:125.28KB
返回 下载 相关 举报
语音编码总结_第1页
第1页 / 共14页
语音编码总结_第2页
第2页 / 共14页
语音编码总结_第3页
第3页 / 共14页
语音编码总结_第4页
第4页 / 共14页
语音编码总结_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《语音编码总结》由会员分享,可在线阅读,更多相关《语音编码总结(14页珍藏版)》请在金锄头文库上搜索。

1、语音编码总结一、历史与概念1、模拟的声音信号话音信号:(口语发声的)200Hz3400Hz调幅广播信号:(无线广播)50Hz到7000Hz调频广播信号:(无线广播)20Hz到16000Hz激光唱机信号(CD): 10Hz20000Hz2、话音编码技术的历史回顾高保真立体音频 16位 44.1k 905.6k PCM ISO 1990压缩64k128k MPEG每声道在32k448k:.丁1; 无线_ :; 无线 AM 14 位 16k 224k PCM 64k | I:;:64k PCM 8 位 8k j 子带 ADPCM ;!(Toll)G.711 :88 年 G.722 :!II-I.10

2、 205020034007000 1600 20000 Hz话音编码研究的历史表明,这一领域的研究成果直接为通信产业发展 提供了源动力。目前IP电话所用的编码的标准有G.723.1, G.728, G.729。具有低延迟、低码率、低复杂性、高音质的话音编码算法将 是未来IP电话网络的奠基石。3、若干概念术语(1)数字信号:标称的不连续信号。它可以用离散的步差从一个状 态转变到另一个状态。(2)采样:按周期T对模拟信号进行测量,称为采样。采样频率Fs=1/T. 在满足奈奎斯特定理时,从采样值可准确的恢复原信号。(3)量化用数字信号表示话音的过程称为量化。(4)非均匀量化非均匀量化可以兼顾动态范围

3、和小信号的系统精度。Reeves提出概 念。即对大信号取较大的量化步长。对小信号取较小的量化步长。二、矢量量化将k个样点构成的有序集(信源矢量集合)映射为M个恢复失量构 成的有限集A (码书,码本)中的某个矢量Yi (码字,码元)的映射, 称为矢量量化,它是对标量量化在K维空间的一个推广。标量量化矢量量化量化对象单个采样点K个采样点集合划分在一维幅度轴上划分有限个区间 1=a0 a1).LIn=anT an)在k维空间里,划分成有限个子空间S=Si|i=1,2, M量化过程在每个区间里,选一个代表值 fiQQi I=1,2,.n在每个子空间里,选一个代表矢量Yi=Yi1,Yi2,Yii Yi

4、IZISi) i=1,2,.M量化方法对任一模拟信号,当其标称值属于 区间i时,就用数字信号fi代表值对任一k维模拟信号的矢量。当其标称值属于 子区间Si时,就用代表矢量Yi去量化之。1、码本设计的LBG方法(1)在矢量空间X中,进行最佳划分,即,把X划分成M个子空间Si i=,1.2.m使平均失真最小。(2)对划分后的子空间Si求出其形心作为新的最佳代表矢量Yi,从 而构成新的码本。将上述步骤反复迭代,最终求出最佳码本和量化器。(3)初始码本的选择:A、随机选取,迭代时间较长B、分裂法(4)LBG方法不是最优化方法,即迭代过程不能保证收敛到全局最 小值。后来有人提出模拟退火法,将LBG方法收

5、敛到局部最小值时, 采用某种扰动将迭代过程继续进行下去。2、空间分布对矢量量化的影响LBG算法把问题简化为:在矢量空间中,样点的分布是均匀的。但实 际的应用场合往往不满足这个前提。因此应考虑空间分布,空间分布 对量化值的选择有很重要的影响。对矢量的情况,影响依然存在。3、语音编码方案的三种类型语音编码的主要任务:对量化的话音信号施加某种数字变化,使其具 有适于数字信道传输的形式,同时尽可能多信号所承载的信息。话音 信号的剩余度主要表现在三个方面:(1)相邻样点存在较强的相关性(2)对浊音信号存在周期(准周期)性(3)信号短时平稳,时不变性此外,人类听觉对话音有选择效应,即当一个强音与一个弱音

6、同时存在时,人类听觉能够自动抑制弱音的效果,称为人耳的“掩蔽 效应”。这些是话音压缩编码的出发点。3.1波型编码:对话音信号的每一个样点进行量化、编码和传输。因 此,波型编码是没有延迟的话音编码方案。3.1.1差值脉码调制(DPCM和-调制)一位的DPCM系统成为-调制或增量调制DM。流程图如下:编码器解码器这里,八表示对应的量化值,上标表示对应的预测值,用ei表示 差值di的量化误差。收端恢复的量化信号只与差值信号的量化误差 有关,而与预测器性质无关。(1)当信号变化快时,恢复波形跟不上信号的变化,称为”斜率过 载“(2)对于零信号,DM方法交替输出一串0和1,这种随机交变电平 成为“颗粒噪

7、声”。解决办法是在量化器引入自适应阶矩调整机制(ADM)。如果自适应调整依据输入信号,称为前向自适应。如果自 适应调整依据是量化器输,称为后向自适应。前向自适应将导致延迟 的产生,后向自适应有可能不稳定。3.1.2连续可变斜率增量调制(CVSD)其原理可用下图说明:ALL 0当反馈回路中,出现连续四个“1”或连续四个“0”时,表明系统出 现斜率过载的情况,此时或门输出一个高电平,驱动触发器改变量化 的阶矩的大小,以便适应输入信号的变化。3.1.3自适应差值脉码调制(ADPCM)PCM:非均匀量化。D:调制。差值调制。CVSD:自适应概念将脉码调制、差值调制和自适应技术三者结合起来。使编码算法

8、不仅适用于幅值起伏较大的话音信号,而且能很好的适合于平稳信号 (如话带数据)。3.1.4信息压缩的基本思路1、信息与消息(1)消息是由符号、数字、文字或语言组成的序列。(2)信息是消息中不确定的内容。消息是信息的载体,信息是消息的内含。由于信息是消息中承载的不 确定性因素(差别、变化、区别等),因此必然与通信双方的知识(约 定)有关。越少见的事件,其出现带来的信息越多.2、信息压缩的主要手段(1)减少不确定性差值编码:相当于用前一个值来预测当前值,引出线性预测的概念pd(n) = s(n) z a s(n -1)i=1(2)通信双方建立某种知识约定,如码书或算法(3)对变化的规律、不确定性因素

9、建立描述机制或学习机制3.2参数编码就是对每帧语音信号,将滤波器系数和残差e(n)分别进 行量化编码。由于e(n)的平均能量和幅度变化范围远远小于信号s(n), 因此在信噪比相同的条件下,可以用较少的比特对其编码。参数编码 时,将激励按清音、浊音分成高斯随机白噪声或准周期信号。倒谱参 数C(n)构成的同态声码器,用共振峰参数构成的共振峰声码器,都是 参数编码方法。1、基音提取:并联基音提取方法。(1) 短时平均幅度差函数AMDF(2) 中心削波法是对信号的一个非线性变换:国()-CS () C/IC S (n) T 01 S (n) C,、 ,、 1S (n) + C S (n) - C 虹i

10、i式中,Cl称为削波电平,它取信号最大值Smax的一个百分比(30% 80%)/C/S (n) C, S (n) = 0- C 1S (n) 用YS(n)表示三电平中心削波器的输出,在自相关函数中有1y (n + m) = y (n + m - k)y(n + m) y(n + m 一 k) = 0y(n + m) = 0.or.y(n + m 一 k) = 01y (n + m)丰 y (n + m 一 k)用三电平中心削波信号计算自相关函数,找到自相关函数最大值,并 将峰值与一个固定门限例如Rn(0)的1/3比较,如果低于门限判为清 音,如果高于门限则最大峰位置判为基音周期。2、并联基音提

11、取基本方法原理:(1) 先对信号进行处理产生若干冲激串,冲激串只保留原始信号的 周期性而去除了与基音检测无关的信息。(2) 估计每个冲激串的周期。(3) 对这些周期进行逻辑判断,最后确定语音信号的周期,将进过 低通滤波的信号按如下原则求出六个冲激串3.3混合编码波形编码音质好但码率高,参数编码可以获得很低的码率但音质不 好,为了兼顾二者的长处和不足,提出了残差激励模型,多脉冲激励 模型和码激励模型。此外,对LPC参数模型也提出了噪声加权整形技 术和长时预测滤波器等方法。1、混合编码中的新技术(1)长时预测滤波器浊音信号存在准周期性,当用滤波器pe (n ) = s (n ) - 或 s (n

12、- i)i=i描述语音信号时,残差序列e(n)保留着中准周期性。为此,用一个 称为长时预测滤波器的B(z)来去除这种准周期性。B (z) = Pz -(M + j)M + j j =-I式中M是对应于基音周期的样点数。I根据滤波器阶数一般取0或1。残差e(n)经B(z)滤波器滤波后将得到更加白化的噪声谱。2、噪声整形 信号经短时长时滤波后,噪声谱一般是平坦的。由于在两个共振峰之 间,信号谱低于噪声谱,因此尽管总的信噪比是高的,但在阴影区域 对应的频率上,噪声能明显被人耳感觉到。采用噪声谱变形后,总的 信噪比有所降低,但在所有频率上信号的能量大于噪声的能量,由于 人耳的选择性,可以形成对噪声的听

13、觉屏蔽效应,所以采用噪声整形。功率谱 dB频率 kHz(a)加噪声谱变形3、合成分析法(Analasys By Sythesis A-B-S)波形编码器内一般要嵌入一个解码器,使得解码信号与原始信号作 差,提供一个比较信息或形成后向自适应。在参数编码时也用这一类 方法,将合成信号与原始信号作差(加权)并比较,以次为依据进行 参数修正或选择激励,这种方法称为A-B-S。LPC编码方法的二元激 励模型过于简化。(1)多脉冲激励线性预测编码器MPLPC的关键问题是,如果一帧中允许用M个激励脉冲,如何求出这M个脉冲的位置和幅度,使得合成语音与原始语音的感觉加权均 方误差最小。用自相关法求出短时滤波器A

14、(z)后经听觉加权处理,其冲击响应为:一cP一h (n) = 8 (n) + z a r jh (n - j)1 n Nj=i它们激励综合滤波器合成语音信号为:s (n ) = 1 g h (n - m )i = 1(2)规则脉冲激励线性预测编码器(RPE-LPC)规则脉冲是多脉冲的一种,即脉冲间隔固定的多脉冲激励。对于规则脉冲激励,算法可以简化。其结构图如下:S(n)原始语音一_)一r(n)残差激励发生器V(nM;1/A(z/r)|均方误差最小估值e(n)规则脉冲是让原始语音经短时滤波后的信号r(n)与激励信号作差,然后对感觉加权后的差值信号求均方误差最小来确定最佳激励。规则脉冲激励的问题是A、确定规则脉冲最佳的相位B、为每个非零脉冲确定一个幅度。(4)码激励CELP 通过LPC分析去除信号的短时相关性,再用长时基音分析去除基音周 期性,得到的是信号具有高斯白噪声特性。(5)G.728低延迟码激励话音编码算法(LD-CELP)A、特点a、每5个样点为一帧,延迟为0.625ms b、采用50阶LPC滤波器,不用长时预测和基音检测 c、50阶LPC滤波器参数每4帧(20个样点,2.5ms)更新一次,具 有时变参数特性 d、3位增益码书,7位波形码书的结构,增益码书与波形码书分别有 0.5位冗余 e、采用后向滤波技术,因此不传递参数信息,只传递激励信息 f、采用对数增益滤波技术,有

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号