多媒体技术应用基础第3章

资源描述

《多媒体技术应用基础第3章》由会员分享，可在线阅读，更多相关《多媒体技术应用基础第3章（121页珍藏版）》请在金锄头文库上搜索。

1、3.1 概述 3.2 数据压缩的基本方法 3.3 JPEG彩色静止图像编码标准 3.4 MPEG运动图像编码标准 3.5 音频的数字化与压缩编码技术,第 3 章多媒体的数据压缩技术,返回主目录,第3章多媒体数据压缩技术,3.1 概述多媒体是先进的计算机技术和视频、音频及通信等技术集成的产物。多媒体计算机涉及的信息包括：文字、语音、音乐、静止图像、电视图像、电影、动画、图形等等。这些信息经数字化处理后的数据量非常大，那么如何在多媒体系统中有效地保存和传送这些数据就成了多媒体计算机面临的一个最基本的问题，也是最大的难题之一。以彩色电视信号为例，设Y、I、Q色空间各分量均被数字化

2、为8 bit，它的数据量约为100 Mbit/s，用现在1GB容量的CD -ROM光盘，也仅能保存约1分钟的原始电视数据。,此外，彩色静止图像、文件图像以及语音等等的数据量也是非常巨大的，特别是电视图像的数据量，在相同条件下要比语音的数据量大1 000倍以上。况且，现在个人电脑的传输率一般是150 Mbit/s，无法处理更大的数据量。因此，要把这些视频、音频等信号在有限的空间上存储和在目前的电脑总线上正确传输，必须采取数据压缩技术。可见，数据压缩技术是多媒体计算机(MPC)发展的关键性技术。 ,3.1.1 数据冗余在实际中，我们需要的是各种信号数据携带的信息，而数据中存在许多与有用信息

3、无关的数据，这就是所谓数据冗余。如果能够有效地去除这些冗余，就可以达到压缩数据的目的。解决数据压缩技术的核心问题就是利用最少的时间和最小的空间，传输和保存多媒体的数据。数据冗余一般有6种。 1. 空间冗余空间冗余在图像数据中经常存在。例如，图像中的某个区域的颜色是相同的，相邻像素的颜色信息相同，则该区像素这个颜色相关性的光成像结果在数字化图像中就表现为数据冗余。,2. 时间冗余时间冗余在序列图像(电视图像、运动图像)和语音数据中经常存在。如当一景物是静止或运动较慢时，相邻两帧图像基本相同，即后一幅图像中的背景及物体与前一幅的有很强的时间相关性。再有，人说话时发音的频率是一个连续和渐变

4、的过程，时间上不是完全独立的。这些都反映为时间冗余。空间、时间冗余是我们将图像信号看作概率信号所反映出的统计特性，也被称为统计冗余。 ,3. 信息熵冗余(编码冗余) 信息熵指一组数据所携带的信息量。在实际应用中，我们数据编码的码元长按概率对应的数据量往往大于信息熵，这就是信息熵冗余，或称为编码冗余。 4. 结构冗余图像存在结构上的一致，如草席、网格图像，反映为结构冗余。 5. 知识冗余许多图像的理解与某些知识有很大的相关性。如人脸的图像有固定的结构，我们已知它的结构规律，此类即是知识冗余。 ,6. 视觉冗余人的视觉系统并不是对于图像场的任何变化都能查觉的，如对色差信号的

5、变化不敏感。这样在数据压缩和量化过程中引入了噪声，使图像发生变化，只要这个变化值不超过视觉的可见阈值，就认为是足够好。此类冗余就是视觉冗余。,3.1.2 量化的基本概念一般图像、声音的特征信息都可直接由一些模拟信号来表示。而要通过计算机进行处理，就必须转化为计算机所能接受的数字信号，即进行模拟量到数字量的转换，即A/D转换。这个数字化的过程就叫量化过程。量化过程可再细分为采样与量化处理两个步骤。采样的结果就是确定使用多少个像素点来表示一幅图像，它决定了图像的分辨率。要想得到高分辨率，就需对图像更多的点进行采样处理。量化处理是预先设置一组判决电平和一组重建电平，每个判决电平将覆盖一定

6、的空间，所有判决电平要覆盖整个有效取值区间。,量化时将模拟量的采样值同这些电平比较，落在某个判决电平区间上，就取这个量化级的代表值作为它的重建电平或叫作码字。量化一般可分为 3 类：标量量化(零记忆或一维量化)、向量量化(分组量化)和序列量化。标量量化是一维量化，所有采样使用同一个量化器进行量化，每个采样的量化都与其它所有采样无关。现在市场上的A/D转换器件中所使用的PCM编码器，是最典型的一维量化的实例。所谓向量量化，就是从称为码本(Codebook)的码字集合中选出最适配于输入序列的一个码字，来近似一个采样序列即一个向量的过程。这种方法以输入序列与选出码字之间失真最小为依据，显然

7、比标量量化的数据压缩能力要强。可见，量化的过程实际上也是数据压缩的编码过程。,向量量化不仅可作为单独的一种编码方法，还可与其它编码方法构成混合方法使用。它经常与变换编码相结合，对信息源进行变换后，按一定的方式形成多维向量组，然后再到码本中寻找最佳码字。量化器的好坏对于化量误差有直接影响。若要使量化的数据在其动态范围内的概率密度服从均匀分布，则量化级别可等间隔分配。但事实上属于这种情况的并不多，有些数据的概率密度服从高斯分布，有些像预测编码的误差数据服从拉普拉斯分布。因而，为使整体的量化失真最小，就需依照统计和概率分布来设计最优的量化器，它一般是非线性的。已知的最优量化器是Max量化器。

8、 ,除量化器的量化区间划分为非线性之外，还可对于各区间的代表值(码字的长短)作非等步长的处理，使概率密度大的区间的码字用较少的比特数表示，反之码字取较多的比特数。目前，量化器主要有以下 3 类：一是均匀量化器，其量化间隔是等长的；二是非均匀量化器，其量化间隔是不等长的；三是自适应量化器，其量化间隔随传送数据的特点而变化。对于分布概率模型未知的随机过程，优化量化器的设计较为困难。虽然Lloyd提出了LloydMax 算法来解决此问题，但从硬件实现角度来说仍是较复杂的。,3.1.3 数据压缩方法的一般分类数据压缩处理一般由编码和解码两个过程组成。编码过程就是将原始数据经过某种变换编

9、码的压缩过程；解码过程是对编码数据进行解压缩，可认为是一种反变换，使之还原成可使用数据的过程。根据解码后的数据与原始数据是否一致，数据压缩方法可划分为两类： (1) 可逆编码。其压缩是完全可恢复的或没有偏差的，解码图像与原始图像严格相同，故也称无损编码。 (2) 不可逆编码方法。其还原图像较之原始图像存在一定误差，但视觉效果可以接受。根据压缩方法的原理，可将其划分为以下 7 种： ,(1) 预测编码。这是一种针对统计冗余进行压缩的方法。对于空间冗余来说，它表现在一幅画面内相邻像素点之间的相关性较强，因而任一像素点均可由与它相邻的且已被编码的点来进行预测。预测是根据某一模型进行

10、的。若模型选择得好，则只需存储或传输起始像素点和模型参数就可代替整个一帧图像了。有时也需要传输预测的误差。时间冗余的预测方法与其相似，只是针对的是帧间图像。 (2) 变换编码。这也是一种针对统计冗余进行压缩的方法。它将图像光强矩阵(时域信号)变换到系数空间(频域)上进行处理。在空间上具有强相关性的信号，反映在频域上是某些特定区域内能量被集中在一起，或是系数矩阵的分布具有某些规律。因此我们可利用这些规律分配频域上的量化比特数，从而达到压缩数据的目的。,因为正交变换的变换矩阵是可逆的，且可逆矩阵与转置矩阵相等，这使得解码运算(反变换)一定有解且运算方便。所以，变换编码总是选用正交变换。 (3

11、) 量化与向量量化编码。我们已经知道，量化过程就是将连续的模拟量通过采样，离散化为数字量的过程。对像素进行量化时，可以一次量化多个点，这种方法就是向量量化。例如，可以每次量化相邻的两个点，这样就可将这两点用一个量化码字表示，达到数据压缩的目的。其数据压缩能力与预测编码方法相近，本质上也是针对统计冗余的压缩。 (4) 信息熵编码。信息熵编码就是利用信息的相关性压缩冗余度。它根据信息熵原理，对出现概率大的用短的码字表示，反之用较长的码字表示，目的是减少符号序列的冗余度，提高码字符号的平均信息量。最常见的方法有哈夫曼编码、行程编码和算术编码。,(5) 分频带编码。就是将图像数据变换到频域

12、后，按频率分段，之后用不同的量化器进行量化，从而达到最优的组合。或者采用分步渐近编码。开始时，对某一频带的信号进行解码，逐渐扩展到所有的频带。随着解码数据的增加，解码图像也就逐渐清晰。这种方法对于远地图像模糊查询与检索的应用比较有效。 (6) 结构编码。编码时首先将图像中的边界轮廓、纹理等结构特征求出，然后保存这些参数信息。解码时根据结构和参数信息进行合成，恢复出原图像。 (7) 基于知识的编码。对于像人脸等可用规则描述的图像，可利用人们已知的知识形成一个规则库，据此将人脸等的变化用一些参数进行描述。这些参数和模型一起就可实现图像的编码和解码。 ,3.1.4 数据压缩系统的构成一般

13、数据压缩系统的构成如图3 -1所示。其中，信息源编码器的构成如图3 - 2所示。从数据压缩系统组成框图中，可很清楚地看出多媒体信息源的数据压缩和解码流程。从中可看出，解码实际是编码的逆过程。对于不同的应用要求，其中的信息源编码器(解码器)及内部码编码器(解码器)的具体形式会不相同，它由信源数据性质所决定的有效数据压缩方法来定。下一节，我们将对应用广泛的几个基本的数据压缩方法作详细的介绍。,图 3 1 数据压缩系统组成,图 3 2 信息源编码器的构成,3.2 数据压缩的基本方法,3.2.1 预测编码预测编码是减少时间冗余和空间冗余(即统计冗余)的主要方法，对于时间序列数据有广泛的

14、应用。预测编码的特点是直观、简捷、易于实现，容易设计成实时性的硬件结构。对于传输速度要求高的应用系统，经常会用到这种方法。预测编码的原理简单地说就是：存储以前的样本值(像素、帧)，根据选取的适当模型来预测未来的样本值，对这两个样本值相减得到的误差进行编码。显然，这种方法可以得到较大的数据压缩结果。预测编码可分为帧内预测编码和帧间预测编码。 ,1. 帧内预测编码用得最多的是差分脉冲编码调制，即DPCM法。 DPCM法编码的基本原理如下所述。通过画面上坐标(m, n)的像素点的 3 个相邻(或更多)点(m-1, n)、 (m-1, n-1)、 (m, n-1)的数值，预测(m, n

15、)像素点的数值。若记(m, n)点的信息数值(如亮度)为Ymn，预测值用表示，则预测公式采用下式可得到预测值：公式中的a1、 a2、 a3为预测参数，可以通过使误差emn=Ymn- 的数学期望为零、均方误差最小或通过最小二乘法得到。,对误差emn进行量化、编码，显然要比对原来图像的像素进行编码的比特数小得多。解码时，只要用emn数据修改预测的像素点信息，就可得到当前像素点的信息值。在量化过程中会引起信息损失，使图像失真。但只要选择合理的量化步长，使量化误差不超过人眼的可见阈值，图像质量就可以达到主观保真度要求。这种方法在有些情况下效果不好。当画面上相邻点发生全范围变化，比如，边界处由

16、白变为黑。这时DPCM系统会过载，即系统要用许多点才能输出全黑。这是因为，每个差值像点只表示幅值的一小部分，这种现象称为斜率过载，会产生图像边缘的模糊效应。自适应DPCM编码将会有效减轻这种现象。 ,所谓自适应DPCM编码(ADPCM)，就是在DPCM的基础上，根据图像的局部特征对量化步长及预测参数进行自适应调整，即定期地重新计算协方差矩阵和相应的加权因子，充分利用其统计特性及变化，重新调整预测参数，以得到较为理想的输出。 2. 帧间预测编码序列图像(运动图像)帧间有很强的时间相关性。像电视图像，每秒钟传送30帧画面(保证画面流畅)，相邻帧的时间间隔只有1/30 s，大多数像素的亮度信号在帧间的变化是不大的。帧间编码技术处理的对象就是这些序列图像。随着大规模集成电路的迅速发展，已有可能把几帧图像存储起来作实时处理。这样利用帧间编码技术就可减少帧序列内图像信号的冗余度。,1) 条件补

展开阅读全文

多媒体技术应用基础第3章

最新文档