数字语音处理课程总结

资源描述

《数字语音处理课程总结》由会员分享，可在线阅读，更多相关《数字语音处理课程总结（3页珍藏版）》请在金锄头文库上搜索。

1、1 共 3 页数字语音处理课程总结-浅谈声码器的原理与应用摘要随着科技发展，人们对于通信的要求也逐渐提高，于是一系列编码技术以及声码器出现了，本文简单介绍了声码器的原理、特点、LPC 技术，并且介绍了一些在现代被广泛运用的声码器以及编码技术。关键字声码器、LPC、CELP、ERVC正文随着通信要求的提升，通信系统中逐渐开始运用一系列的编码技术以及声码器，那么什么是声码器呢？声码器是一种对话音进行分析和合成的编、译码器，也称话音分析合成系统或话音频带压缩系统。声码器在发送端对语言信号进行分析，提取出语言信号的特征参量加以编码和加密，以取得和信道的匹配，经信息道传递到接受端，再根据收到的特征参量

2、恢复原始语言波形。分析可在频域中进行，对语言信号作频谱分析，鉴别清浊音，测定浊音基频，进而选取清-浊判断、浊音基频和频谱包络作为特征参量加以传送。分析也可在时域中进行，利用其周期性提取一些参数进行线性预测，或对语言信号作相关分析。根据工作原理，声码器可以分成：通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器。它主要用于数字电话通信，特别是保密电话通信。那它的原理是什么呢？人讲话时，气流经过喉头形成声源信号，然后激励由口、鼻腔构成的声道，产生话音信号。声码器发信端的分析器首先对话音信号进行分析，提取主要话音参数：1) 声源特性，如声带“振动-不振动”（浊-清音

3、）、声带振动时的基本频率（基频）；2) 声道传输声源信号的特性。这些话音参数变化很慢，它们所占的总频带比话音本身的频带窄得多，因而对这些参数采样编码时总数码率只有几千甚至几百比特秒，只有直接由话音信号采样编码的数码率的十几分之一，可以通过一个普通电话信道来传输。收信端的合成器利用这些参数来合成话音。至于如何提取浊-清音的参数，我们有多种方法，可以通过话音在时域上的短时能量、短时平均幅度、平均幅度差的分析和频域上的倒谱图来分辨浊-清音。而基音频率的话，我们可以通过话音的自相关函数来确定其基音周期，进而确定它的基因频率。声码器的明显优点是数码率低，因而适合于窄带、劣质信道条件下的数字电话通信，

4、能满足节约频带、节省功率和抗干扰编码的要求。低数码率对话音存储和话音加密处理也都很有利。声码器的缺点是音质不如普通数字电话好，而且工作过程较复杂，造价较高。随着对人类发声机构和听觉机理的深入研究以及计算机技术和大规模集成电路的发展，声码器的音质和设备小型化将不断得到改进，并将在数字通信中得到更广泛的应用。2 共 3 页这边我想简略地谈一下线性预测分析（LPC）。在对语音信号进行预处理时，许多声码器都会使用到线性预测分析（LPC），那么线性预测分析是什么呢？为什么声码器预处理时要采用这种分析方式呢？在估计基本的语音参数（如基音周期、共振峰频率、谱特征、声道截面积函数等）方面，线性预测分析（L

5、PC）是一种主要的分析技术。LPC 分析的基本思想是：利用语音信号之前的相关性，用过去的取样值来预测现在或未来的取样值，即用过去若干个语音信号的取样值的线性组合逼近一个语音信号的取样值。在某个测度准则下，通过使实际的取样值与预测值之间的差别达到最小，确定唯一的一组预测系数。这组预测系数反映了语音信号的特性，可以作为语音信号特征参数用于语音编码、语音合成和语音识别等。在语音信号处理中应用 LPC 技术，不仅利用了期预测功能，而且它提供了一种更优良的声道模型。这种模型对理论研究和实际应用都起到了极其重要的作用。升到模型的优良性能不仅意味着 LPC 技术是一种高效的语音编码方法的基础，而且意味着预测

6、系数是语音识别的非常重要的信息来。因此，LPC 的基本原理和语音信号数字模型密切相关。语音信号的 LPC 分析的基本途径是采用 LPC 误差滤波方法，即求解一组预测器系数，使得在一短段语音信号序列中方均预测误差最小，并把求得的参数作为语音产生模型中滤波器 H(z)的参数。H(z)=X(z)/U(z)=G/(1-i=1 Paiz-i)而 LPC 也有缺点：根据语音信号的产生机理，很多语音（特别是清音和鼻音）的升到相应都含有零点。因此，理论上应采用机灵点模型（ARMA 模型），而不是简单的全极点模型（AR 模型）。尽管全极点模型的 LPC 分析有种种缺点，然而它能够通过求解线性方程组快速获得相

7、应的 LPC 系数，从而相当准确地估计出基本的语音参数，且这些参数也能相当精确地描述语音信号的重要参数。因此，全极点模型的 LPC 分析在数字语音信号处理的众多领域得到了非常成功地运用。LPC 技术运用到声码器中，而声码器也被运用到第三代移动通信，例如 WCDMA 使用自适应多速率（AMR）声码器来传送话音，CDMA2000 移动通信系统采用 3 种话音压缩编码标准来实现移动终端的话音编解码处理：EVRC（IS-127）、8K QCELP（IS-96）和 13K QCELP（IS-733）。AMR、8K QCELP 以及 13K QCELP 的语音压缩编码算法基于码激励线性预测(CELP)

8、的编码模式，CELP 是在 1985 年由 Manfred R. Schroder 和 Bishnu S.Atal 提出的，他们提出用码书作为激励信号的 LPC 编码方案。CELP 一经提出就得到广泛应用，原因是它能够根据信号能量和背景噪声动态调整编码速率，在基本不影响语音质量的前提下，明显降低数据的平均速率；自适应码本搜索采用开环基音分析与闭环搜索相结合的模型；固定码本采用循环递归结构，减少了码本搜索的计算量和存储空间。CELP 以 2030ms 分帧，采用合成 -分析搜索、感觉加权、矢量量化、线性预测等技术。CELP 按帧作 LPC 参数构造综合滤波器。 CELP 建立两个码书：一个称为自

9、适应码书，其中码字（码矢量）用来逼近语音的是周期性（基音）结构；另一个称为固定码书或随机码书，其中码字（码矢量）用来逼近语音经过短时、长时预测后的残差信号。从两个码书中搜索出最佳码矢，乘以各自的最佳增益后相加，其和为 CELP 的激励信号。将激励信号输入 p 阶 LPC 综合滤波器 1、A(z) ，得到合成语音 X（n ），合成语音 X（n）与原始语音x（n）之差 x（n）-X（n）经过感觉加权滤波器 W(z)，得到感觉加权误差 e（n），根据最3 共 3 页小方均误差的准则搜索最佳码矢量及其幅度增益。一般码矢长度与子帧长度有关，码书的大小与占用存储空间大小及搜索时间长短有关。其中固定码书

10、预先设计好，并固化到编/议器中；而自适应码书是在 AbS 分析过程中不断更新的，也就是说最初为空，用感觉加权误差减去固定码矢后，填充或更新自适应码书。一般都采用二码书激励 CELP 方案。而通过 CELP 编码模式后，可改善语音的质量： 1) 对误差信号进行感觉加权，利用人类听觉的掩蔽特性来提高语音的主观质量； 2) 用分数延迟改进基音预测，使浊音的表达更为准确，尤其改善了女性语音的质量；3) 使用修正的 MSPE 准则来寻找 “最佳” 的延迟，使得基音周期延迟的外形更为平滑；4) 根据长时预测的效率，调整随机激励矢量的大小，提高语音的主观质量； 5) 使用基于信道错误率估计的自适应平滑器，在

11、信道误码率较高的情况下也能合成自然度较高的语音。而 EVRC (Enhanced Variable Rate Codec)增强型变速率语音编解码，建立在 RCELP 编码器的基础上，加入了 VAD 检测，差错隐藏等技术，对语音信号进行变速率编码从而达到节约带宽，保持语音质量的目的。EVRC 编解码算法包括编码器和解码器。在编码器端，首先对语音信号进行预处理，通过线性预测分析和长时预测提取线谱频率(LSF)和基音延时，得出的 LSFs 用分裂矢量量化(SVQ)方法进行量化，然后利用速率判决算法确定本帧的编码速率，最后根据编码速率计算所需的参数并将这些参数按相应的格式打包发送。在解码器端，首先用帧

12、错误检测模块检测并修正帧错误，然后从接收到的数据包中恢复出语音参数，产生激励通过合成滤波器重构语音信号，并经过后置滤波进一步增强音质。它是为了解决8K QCELP 音质不好但 13K QCELP 速率又太高而推出的。相信随着科技的发展，通信系统中将越来越多地运用到声码器以及一系列编码技术，并且这些声码器以及编码技术可以更加简单并且精确地采集人的语音，对语音进行编码以及解码。参考文献数字语音编码-赵晓群著百度百科声码器、CELPEVRC 编码器的研究与实现http:/ 中的 8KQCELP、8KEVRC/13KQCELPhttp:/ 手机中的 AMR 采用了多速率码激励线性预测（MR-ACELP）编码技术http:/

展开阅读全文

数字语音处理课程总结

最新文档