数字电视原理与应用教学课件 ppt 作者姜秀华第09章

资源描述

《数字电视原理与应用教学课件 ppt 作者姜秀华第09章》由会员分享，可在线阅读，更多相关《数字电视原理与应用教学课件 ppt 作者姜秀华第09章（36页珍藏版）》请在金锄头文库上搜索。

1、第9章数字声频压缩编码及应用,9.1 人耳的听觉特性 9.2 声频数据压缩编码 9.3 声频压缩标准,9.1 人耳的听觉特性,9.1.1 心理声学有关人听觉的研究包含人耳的生理结构，以及人的大脑对声音信息的翻译等方面的内容。心理声学研究的是人对所听到的声音的主观反映。人耳对声音频率的响应是对数的，这可以通过人耳对音程的感觉加以说明。当频率相近的两个声音同时发声时会产生拍频。,9.1.2 人耳的生理结构和临界频带 1人耳的生理结构人耳将声能转换成机械能，并最终将电脉冲传送至大脑，大脑能感知到声音中包含的信息，图9-2所示的是人耳的生理结构解剖图。,图9-2 人耳的生理结构和构造剖示图,

2、2临界频带对基底膜的研究表明：人耳中大约包含有30，000个沿着基底膜排列的多列绒毛细胞，每列大约32mm长，这就是所说的螺旋器。,Bark(以德国的物理学家Geory Heinrich Barkhausen的名字命名的)是感知频率的单位。我们用Bark来度量临界频带的比值，一个临界频带具有一个Bark的宽度，1/100Bark相当于1美。音调定位理论进一步解释了基底膜的作用。,9.1.3 听觉阈和掩蔽人耳听觉阈范围内临界频带的例子说明了随着绝对频率的增高，临界频带也增宽。影响人听力的两个基本现象是最小听觉阈和掩蔽。听觉阈曲线描述的是人耳对某一给定频率的音调音能够检测或听到的最低声级

3、。,当某一音调音使其附近的频率区域的听觉阈的阈值曲线向上推移时，就说明产生了幅度掩蔽。基底膜的机理可以解释掩蔽现象。当声音发声在时间上很接近，但不是同时的时候会发生瞬时掩蔽。一个信号可以被在此之后发生的另一个信号(或噪声)所掩蔽，这称为预掩蔽(有时也称为后向掩蔽)。,另外，在一个信号开始之前结束的另一个信号(或噪声)也可以掩蔽这个信号，这称为后掩蔽(有时也称为前向掩蔽)。瞬态掩蔽理论认为：大脑对一段时间内的声音进行积分处理，并且在听觉皮层上处理脉冲形式的信息；另外，大脑处理强的声音要快于弱的声音。,9.2 声频数据压缩编码,数据压缩编码器就是在量化误差最小的同时，以压缩的数据率来表示声频

4、信号。频域编码器有两种类型：子带和变换编码器。一般而言，子带编码器具有出色的时间分辨率，但频率分辨率差；而变换编码器有出色的频率分辨率，但时间分辨率差。,子带和变换编码都是针对一定的采样块进行工作的。该采样块必须保持短一点，以使其处在人耳的瞬态分辨率之内。,9.2.1 感知编码的原理所有数据压缩系统的目的就是减低数据率、采样频率和字长，这一目的可以通过降低采样频率来达到。但是，奈奎斯特理论指出，采样频率的降低相应地也会减小声频带宽的高端频率。另一种方法是减少字长，但是这会造成声频信号动态范围的下降，每减少一比特，动态范围减小6dB，因此造成量化噪声的增加。,9.2.2 子带编码子带编码是

5、由贝尔实验室于20世纪80年代初首先提出的，并在此后的十年内欧洲对此进行了不间断的研究工作。其中，图(a)所示的为高分辨率的窄带采样；图(b)所示的为归一化和被比特率压缩的子带采样；图(c)所示的为重建的带有被掩蔽的本底噪声的采样。,图9-9 子带编码原理框图,解码器利用量化的数据来重新构成每个块中的采样，利用一个反向合成滤波器组将子带信号相加来重建宽带的输出信号。其中，图(a)所示的为24个频带的子带滤波器的输出；图(b)所示的为计算每个子带的平均电平；图(c)所示的为计算每个子带的掩蔽级；图(d)所示的为闻阈之下的子带不进行编码，闻阈之上的频带进行编码；图(e)所示的为根据掩蔽阈之上的

6、峰值电平情况进行比特分配。,图9-10 子带编码示意图,9.2.3 变换编码在变换编码中，时域声频采样块被转换到了频域。编码器可以采用诸如离散傅立叶变换(DFT)方法快速傅立叶变换(FFT)来进行变换，或者采用改进的离散余弦变换(MDCT)来进行变换。时域采样被变换到频域，会产生谱系数。其中的系数数目有时被称为频率箱(Bin)数目，,9.3 声频压缩标准,9.3.1 MP EG-1声频压缩标准国际标准化组织(ISO)和国际电工委员会(IEC)组成的活动图像专家组(MPEG)颁布了ISO/IEC11172国际标准“对以1.5Mbits/s左右数据率进行的数字存储媒体的活动图像和相应声频的编

7、码”，它用来对数字视频和声频信号进行数据率压缩，它于1992年11月最终定稿，即通常所称的MPEG-1。,MPEG-1标准是专门开发用来支持在1.41Mbit/s的CD带宽上进行CD质量重放的声频和视频编码的。 MUSICAM(掩蔽型通用子带综合编码和复用)是早期开发的一种成功的感知编码算法，它是由MASCAM(掩蔽型自适应子带编码和复用)派生出来的。MUSCAM将输入的声频信号分成32个子带，并利用最小听阈和掩蔽创建的编码模型来取得数据压缩。,在复杂性和编码延时方面，MUSICAM是相当不错的。 1MPEG-1层层可以说是MUSICAM标准的简化版本，层单通道编码器和解码器的框图(也适用于

8、层)如图9-15所示。,图9-15 MPEG-1层或层的声频编码器和解码器,2MPEG-1层层基本上与最初的MUSICAM标准相一致(帧的字头不同)，所以与层相类似，但在设计上较层更复杂精密一些。,3MPEG-1层层结合了与MUSICAM和ASPEC一样的基本要素，并且较层和层更加复杂。它可以以非常低的数据率和稍高一点的成本为代价，来得到适度保真度的音质。它的文件就是所说的MP3文件。分配控制算法采用了动态量化，噪声分配迭代环路被用来计算并优化每个子带的最佳量化噪声，这称之为噪声分配，这与比特分配相对应。,4心理声学模型 MPEG-1标准提供了两个心理声学模型，它们决定了不可闻的最低掩蔽

9、阈。最大信号电平与掩蔽阈间的差值由比特分配器利用来设定量化级。,5MPEG-1的特性与性能 MPEG-1各层支持采用强度编码的立体声结合编码。 MPEG-1声频数据是成帧传送的，如图9-18所示。,图9-18 MPEG-1声频层，和比特流的结构,MPEG-Surround(MPEG-环绕声)是MPEG标准的进一步延伸，它利用了通道间冗余的特点，对5.1声道进行编码。 MPEG-Surround(MPEG-环绕声)是MPEG标准的进一步延伸，它利用了通道间冗余的特点，对5.1声道进行编码。,9.3.2 MPEG-2声频标准 MEPG-2的声频标准(ISO/IEC DIS 13818-3)是在原M

10、EPG-1声频标准(ISO/IEC11172-3)的基础上发展起来的。 MPEG-2的成功之处就在于它在低比特率情况下对音质的提高和对声音信号空间表现的改善，这其中包括多声道立体声(环绕声)和多语种节目。,1低采样频率算法为了在低于64kbit/s的低取样频率下能得到高质量质量声音，相对于MPEG-标准，采用了三个新取样频率：16kHz，22.05kHz和24kHz。,2多声道/多语种算法它是为了将MPEG-标准与三声道以上的多声道声频及多语种声频相对应而引入的。它的一个特点是与MPEG-标准具有兼容性。 (1)多声道格式多声道输入声频信号如表9-4所示，共有9种，有7种输出可与之对应。

11、,(2)MPEG-的前向/后向兼容性多声道方式具有与MPEG-的后向兼容性，这是非常重要的。,9.3.3 AC-1，AC-2和AC-3 AC-1立体声编码器采用了自适应增量调制及模拟压扩技术，它并不是感知编码器。AC-1编码器可将20kHz带宽的立体声声频信号编码为512kbit/s的比特流(大约为31的压缩)，它应用于电视的卫星中继、FM节目的卫星中继和有线广播业务。 AC-2立体声编码器是一种采用了低复杂程度块变换的感知编码器。,AC-2编码器可在256kbit/s的数据率下提供高质量的声音。 AC-3算法是AC-2编码格式的一个分支，这种感知编码器可以对左、中、右、左环绕、右环绕和一个

12、重低音声道，即5.1声道进行多声道环绕声格式的编码。另外，AC-3使用了对白电平控制，以便使所有节目和声道的对白重放电平是一致的。,AC-3采用了混合型的后向/前向自适应性比特分配。在AC-3编码器中，512个采样的数据块被采集，并且通过3Hz的高通滤波处理，以消除直流偏置，并用带通滤波器进行分解以检测出瞬态。核心比特分配算法将解码的谱包络视为信号的功率谱密度(Power Spectral Density，PSD)。,一个AC-3帧包含有一个同步区、页头、被量化了频率系数的声频数据和CRCC误码校验数据，48kHz采样频率的帧周期为32ms。在对电影进行编码时，AC-3称为杜比立体声数字(Dolby Stereo Digital)电影声音，它具有5.1声频声道。,

展开阅读全文

数字电视原理与应用 教学课件 ppt 作者 姜秀华 第09章

最新文档

数字电视原理与应用教学课件 ppt 作者姜秀华第09章