音频压缩编码原理及标准

上传人:飞*** 文档编号:50954656 上传时间:2018-08-11 格式:PPT 页数:67 大小:3.25MB
返回 下载 相关 举报
音频压缩编码原理及标准_第1页
第1页 / 共67页
音频压缩编码原理及标准_第2页
第2页 / 共67页
音频压缩编码原理及标准_第3页
第3页 / 共67页
音频压缩编码原理及标准_第4页
第4页 / 共67页
音频压缩编码原理及标准_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《音频压缩编码原理及标准》由会员分享,可在线阅读,更多相关《音频压缩编码原理及标准(67页珍藏版)》请在金锄头文库上搜索。

1、 音频压缩编码的基本原理MPEG-1音频压缩编码标准杜比AC-3音频压缩算法MPEG-2音频压缩编码标准MPEG-4音频压缩编码标准按照对声音质量的要求不同以及使用频带的宽窄 ,将音频信号分为以下4类:窄带语音:又称电话频带语音,300-3400Hz,用 于各类电话通信,数字化时采样频率常用8kHz。宽带语音:用于电话会议,视频会议,50- 7000Hz ,数字化时采样频率常用16kHz。数字音频广播:20-15000Hz,数字化时采样频率 常用32kHz。高保真立体声音频信号:20-20KHz,用于VCD、 DVD、CD等,数字化时采样频率常用44.1kHz 或 48kHz。巨大的数据量给存

2、储和传输带来的压力CD唱片 Fs=44.1KHz 量化精度 16bit 双声道 数码率? 1.41Mbit/s 1S信号所需存储空间? 176.4KB3.1 音频压缩编码的基本原理数字音频信号中存在着大量冗余频域冗余: 1. 低频成分比高频成分多 2. 语音信号的共振峰时域冗余: 1.小幅度样本比大幅度样值出现的概率大。 2.相邻样值间的相关性 3.信号周期的相关性 4.长时自相关 5.话音间隙冗余听觉冗余:利用人耳的感知特性,将听不到的信号压缩掉。声音信号的频率范围?20Hz-20KHz声音频谱的特点:高频段快速下降,高幅值大部分集中在中频段,有的延 伸到低频段电平分布特点:声音信号的电平存

3、在冗余一个较弱的声音(被掩蔽音)的听觉感受被 另一个较强的声音(掩蔽音)影响掩蔽量与掩蔽声具有的声压级成正比掩蔽声的声压级越高、掩蔽的频率范围随之加宽被掩蔽声的频率越接近掩蔽声,掩蔽效应越显著、掩蔽 量增大掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱,对于高 于掩蔽声频率的声音掩蔽效果显著。利用声音的掩蔽效应,可以用有用的信号去掩蔽 无用的信号只需把无用信号的声压级降至掩蔽域之下即可, 无需消除无用分量人耳听力系统 带通滤波器对某频率的声音信号的拾取会采用中心频率接近此频率 的带通滤波器,因此,只有通过该带通滤波器的那部分 噪声才会对该信号产生影响临界带宽描述人耳的滤波特性如果在一频带内噪声的功率

4、等于该纯音的功率,且这时 ,纯音刚好能被听到(临界状态),此纯音附近的窄带 噪声带宽的宽度便称为临界带宽通常认为20Hz20KHz内有24个临界频带窄带噪声的掩蔽效应要明显于纯音声压级较低时,掩蔽仅局限于中心频率附近较窄的频率范围随着声压级的提高,掩蔽区的频率范围加宽随着声压级的提高,对高于中心频率的声音掩蔽作用加强时域掩蔽前向掩蔽:20ms,由于人耳的积累效应,被掩蔽声尚未 被听到,掩蔽声已经出现,其掩蔽效果很差后向掩蔽:100ms,由于人耳的存储效应,掩蔽声虽已 消失,掩蔽效应仍然存在。生理声学研究听觉器官的构造和听音机理心理声学研究听觉心理,研究主观量与客观 量之间 的关系。心理声学模型

5、中一个基本概念:听觉系统中存在一个听觉阈值电平,低于这个电平的音频信号 就听不到,因此就可以把这部分信号忽略掉,无需对它进行编 码,而不影响听觉效果心理声学模型要完成掩蔽阈值的估算,输出信号-掩蔽比 率(SMR)利用人耳的听觉感知特性,使用心理声学模型,将人耳 不能感知的声音成分去掉,只保留人耳能感知的声音成 分。不为追求最小的量化噪声,只要量化噪声不被人耳感知 即可。感知音频编码(MPEG)原理音频编解码器的性能指标:重建的音频质量、数码率、复杂度和时延。研究 的基本问题是:更好的音频质量,并尽可能小的编解码时延 和算法复杂度;降低数码率。重建音频质量的评价方法有客观评价和主观 评价。分类方

6、法一:时域编码利用声音信号在时间域内幅度变化经PAM后形成的样本 值,对不同样本值实现二进制码替代,从而形成数据码 流频域编码将时域中的声音信号进行频率变换,结合声音的相关性 及人的感知,选取量化比特数进行编码统计编码依据各个信号幅值出现的概率不同进行概率匹配编码音频压缩编码的方法分类方法二:波形编码对音频信号的时域或频域波形采样值进行编码。主要利用音频样值的幅度分布规律和相邻样值间的相关性 进行压缩。参数编码根据声音形成机理的分析,以重建语音信号具有足够可 懂度的原则上,通过建立语音信号的产生模型,提取代 表语音信号特征的参数进行编码混合编码上述两种编码的混合音频压缩编码的方法结合声音幅度的

7、出现概率来选取量化比特数进行 编码,在满足一定的量化噪声下压缩数码率,从 而降低比特率。时域编码利用人耳听觉的声掩蔽特性,在满足一定量化噪 声下来压缩码率采用滤波和变化,在频域内将其能量较小的分量 忽略,从而实现降低比特率频域编码子带编码:通过带通滤波器分成许多频带子带,分析每 个子带取样的能量,依据心理声学模型来编码变换编码:变换到频域,根据心理声学模型对变换系数 进行量化和编码首先用一组带通滤波器把输入的音频信号分成若干个连 续的子带,然后对每个子带中的音频信号单独编码,在 接收端将各子带单独译码,然后组合、还原成音频信号 。对每个子带的采样值分配不同的比特数。低频分配较多 量化比特,高频

8、分配较少量化比特。利用声音信号的频 谱特点及人耳的感知模型。声音信号从时域变为频域,用频率分量形式表示 原信号,再对其频谱系数进行量化编码量化编码过程中,利用心理声学模型,对频谱系 数进行优化,来实现对音频数据进行有效的压缩时频变化的方法:离散余弦变换DCT 、改进的离 散余弦变换MDCT离散余弦变换(DCT)时频变换(DFT)变换时将PCM样值分为N长的一块块进行变换块长:一块中包含的样本数N窗长:N (1/Fs)频率分辨率:Fs/N 频率轴上的所能得到的最小频率间隔块越长,变化编码的频率分辨率越高,但损失了时域分辨率逆变换离散余弦变换(DCT)将原信号沿负方向延拓定义域,并合理选择对称坐标

9、轴, 使其正、负轴对称,这样信号变为实轴对称的偶函数,DFT 变换后仅有余弦项而不存在正弦项,运算量大为减小。原本的N个样本,经过对称后变为2N个2N为抽取的样本值总数,为DCT变换的块长度。例:采样为48KHz的PCM样值进行DCT变换,窗长分别为 21.33ms(相当于1024个样值),5.33ms(相当于256个样 值),则频率分辨率和时间分辨率分别为?时间分辨率:长窗=2N (1/Fs)=42.68ms短窗= 2N (1/Fs)=10.66ms频率分辨率:长窗=Fs/2N=23.43Hz短窗= Fs/2N=93.75Hz依据各个信号幅值出现的概率不同进行概率匹配编码熵编码是依据声音信号

10、幅度的概率分布特点,通过合理 的比特数分配使得信号概率与比特数之间相匹配,以达 到降低平均码长的目的统计编码可变字长编码MPEGMoving Picture coding Experts Group 活动图像专 家组1988年由国际标准化组织ISO和国际电工委员会IEC联合成 立的专家组,负责开发电视图像数据和声音数据的编码、 解码和它们的同步等标准。已经开发和正在开发的MPEG标准有:MPEG-1:数字存储媒体标准,1992年正式发布。MPEG-2:数字电视标准 ,1993年11月发布。MPEG-4:多媒体应用标准(1999年发布)。MPEG-7:多媒体内容描述接口标准(1998年10月)M

11、PEG21:开放的多媒体传输和消费的框架。(2002年6月)3.2 MPEG-1音频压缩编码标准MPEG-1 音频压缩算法的特点l世界上第一个高保真音频数据压缩标准l输入线性PCM信号,采样频率可以为32kHz,44.1KHz, 48KHz,输出数码率32-384kbit/sl压缩后的比特流可以是:单声道模式/双-单声道模式/立体声模式/联合立体声模式l提供3个独立的压缩层次:第1层(Layer1),第2层,第 3层MPEG-1 音频压缩算法的特点l可预先定义压缩后的数码率l编码后的数据流支持循环冗余校验l支持数据流中载带附加信息MPEG-1 音频压缩编码的基本原理lMPEG-1音频压缩的基础

12、是量化lMPEG-1使用感知音频编码来达到压缩音频数据又尽可能 保证音质的目的。l感知音频编码的理论依据是听觉系统的掩蔽特性。基本 思想是在编码过程中,保留有用的信息而丢掉被掩蔽的 信号。lMPEG-1提供3个独立的压缩层次,它们的基本模型相同 。层1是最基础的。任何MPEG-1音频码流帧结构的同步 头中都有一个2bit的层代码字段用来指出所用的是哪一个 层次lMPEG-1按规定构成“帧”格式,层1的每帧包含384个采 样值码字。384个采样值来自32个子带,每个子带12个采 样值。层2和层3每帧包含1152个采样值的码字每个子带 包含36个采样值。MPEG-1 层1原理方框图MPEG-1 层

13、1 1、子带分析滤波器组将宽频带信号分割成32个子带信号子带为等宽的均匀划分 2、标定将每个子带中12个采样值归并成一个块找出12个采样值中绝对值最大的样本值根据其值的大小确定比例因子(查表得到,大于该绝对值 的一系列值中的最小值定为比例因子)将12个采样值用比例因子归一化(标定) 比例因子用6个bit来表示每12采样值并成的块进行一次比特分配,并记录一个比例 因子MPEG-1 层1 3、快速傅里叶变换(FFT)信号从时域变换到频域的过程 使信号具有高的频率分辨率,为心理声学模型分析提供 信号的频谱特征4、心理声学模型MPEG-1 层1把音频信号分到频域子带,然后根据每个子 带内的量化噪声的大

14、小对每个子带进行量化。为了达到 最大的压缩比,应求出每个子带的量化级数使得量化噪 声恰好不被听到目标:计算子带的信号掩蔽比(SMR)数字音频信号用傅里叶FFT变时域为频域确定每个子带的声压级确定安静状态的阈值找出声音信号中的纯音和非纯音成分单独掩蔽域值的计算总体掩蔽阈值的计算每个子带最小掩蔽阈值的确定每个子带的信号-掩蔽比率的计算MPEG-1 层1 5、动态比特分配为了满足数码率和掩蔽特性的要求,比特分配器应同时 考虑来自分析滤波器的输出样值及来自心理声学模型的 信号掩蔽比(SMR),来决定分配给各个子带信号的量 化比特数,使量化噪声低于掩蔽阈值。不同的子带信号可分配不同的量化比特数,但对于各

15、个 子带信号而言,是线性量化。 6、帧结构量化后的采样值和格式标记以及其他附加辅助数据按照 规定的帧格式组装成比特流数据MPEG-1 层1的帧结构同步头:用于同步和记录帧信息 32bit CRC:用于检验传输差错的循环冗余校验码 16bit 比特分配:描述比特分配信息的字段 ,每个子带4bit 比例因子:每个子带6bit 采样值码字:同一个子带内的每个采样值用215bit表示 可能的附加辅助数据:长度未作规定MPEG-1 层2MPEG-1 层2 层2和层1的不同 1、使用1024点的FFT,提高频谱分辨率 2、每帧包含1152个采样值的码字。每个子带包含36个采样 值的码字,按照3个块进行编码

16、,每块12个采样值。3、描述比特分配的字段长度随子带的不同而不同。低频段 子带用4bit描述,中频段3个bit,高频段2个bit 4、编码器可对一个子带内3块采样值使用3种不同的比例因 子,传输时采用比例因子选择信息(SCFSI)描述MPEG-1 层2、lSCPSI 比例因子选择信息为了降低传送比例因子的码率,信号平稳变化时,只传 送其中1个或2个较大的比例因子;对于瞬态变化的信号 ,3个比例因子都传递。00 传送所有的3个比例因子01 传送第1和第3个比例因子10 传送一个比例因子11 传送第1和第2个比例因子MPEG-1 层1与层2参数比较参数MPEG-1层1MPEG-1层2帧长3841152子带3232子带取样1264FFT5121024比特分配每子带4个24比例因子选择信息无每子带2个比例

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号