多媒体数据压缩技术

上传人:新** 文档编号:495483286 上传时间:2023-12-15 格式:DOC 页数:41 大小:189.86KB
返回 下载 相关 举报
多媒体数据压缩技术_第1页
第1页 / 共41页
多媒体数据压缩技术_第2页
第2页 / 共41页
多媒体数据压缩技术_第3页
第3页 / 共41页
多媒体数据压缩技术_第4页
第4页 / 共41页
多媒体数据压缩技术_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《多媒体数据压缩技术》由会员分享,可在线阅读,更多相关《多媒体数据压缩技术(41页珍藏版)》请在金锄头文库上搜索。

1、第6章 多媒体数据压缩技术【教学内容】 1多媒体数据压缩编码的必要性、可能性和压缩方法的分类;2量化;3统计编码;4变换编码;5多媒体数据压缩编码国际标准。【教学目的与要求】数字化后的音频和视频等媒体信息具有数据海量特性,与当前硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距(虽然现在的存储器的容量越来越大),解决这一问题的关键技术就是数据压缩技术,即多媒体数据压缩编码的必要性。由于数据中存在着大量的冗余,所以多媒体数据压缩才是可行的。介绍常用的编码方法,数据压缩编码的国际标准:JPEG、MPEG等。 1熟练掌握:多媒体数据压缩编码的必要性、可能性;哈夫曼编码;JPEG压缩编码。2掌

2、握:量化; 统计编码; 变换编码。1 一般了解:压缩编码的分类; 多媒体数据压缩编码的其他国际标准,如MPEG-1,MPEG-2,MPEG-4,MPEG-7等;【考核知识点】多媒体数据压缩编码的必要性;多媒体数据压缩的可行性;哈夫曼编码、算术编码的基本原理;数据压缩编码的国际标准:JPEG、MPEG的基本原理。 随着通信、计算机和大众传播这三大技术更紧密的融合,计算机已不局限于数值计算、文字处理的范畴,同时成为处理图形、图像、文字和声音等多媒体等多种信息的工具。数字化后的视频和音频等媒体信息具有数据海量性,与当前硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距,可以通过数据压缩技术解决

3、该关键问题。在多媒体计算机技术的发展与进步的进程中,数据压缩技术扮演着举足轻重的角色。本章重点介绍一些重要的压缩编码方法,也介绍现有的多媒体数据压缩的国际标准:JPEG、MPEG、H.21、H.23可视通信的国际标准。这些压缩算法和国际标准可以广泛地应用于多媒体计算机、多媒体数据库、常规电视数字化、高清电视(HDTV)以及交互式电视(Interactive TV)系统中。目前,正在开展应用的项目有:可视电话、视频会议、多媒体电子邮件、音频、视频点播和IP电话等。6.1 多媒体数据压缩技术概述6.1.1 多媒体数据压缩编码的必要性由于媒体元素种类繁多、构成复杂,即数字计算机所要处理、传输和存储等

4、对象为数值、文字、语言、音乐、图形、动画、静态图像和电视视频图像等多种媒体元素,并且使他们在模拟量和数字量之间进行自由转换、信息吞吐、存储和传输。目前,虚拟现实技术要实现逼真的三维空间、3D立体声效果和在实境中进行仿真交互,带来的突出的问题是媒体元素数字化后数据量大得惊人。在前几章中曾介绍过诸如声音、图像等信号的海量表现,下面不妨再举几个例子说明:(1)陆地卫星的水平、垂直分辨率分别为3240和2340,4波段、采样精度为7位,那么一幅图像的数据量为2340324074/8=26.5MB,按每天30幅计算,每天的数据量就有26.530=795MB,每年的数据量高达283GB。(2)高保真立体声

5、音频信号的采样频率为44.1kHz、16位采样精度,一分钟存储量为10.34MB。一片CD-ROM(存储量为650MB)可存放约63分钟的音乐。如果使用48 kHz采样频率的话,需要的存储量就更大了。(3)数字电视图像(International Consultative Committee For Radio,ICCR)格式,PAL制式、8:8:8采样,每帧数据量为7205763=1.19MB;每秒的数据量为1.1925=29.75MB;一片CD-ROM只能存放6501.19=546帧图像,或一片CD-ROM可存储节目的时间为65029.75=21.85秒。从以上的例子可以看出,数字化信息的

6、数据量十分庞大,无疑给存储器的存储量、通信干线的信道传输率以及计算机的速度都增加了极大的压力。如果单纯靠扩大存储器容量、增加通信干线传输率的办法来解决问题是不现实的。通过数据压缩技术可以大大降低数据量,以压缩的形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机得以实时处理音频、视频信息,保证播放出高质量的视频和音频节目。6.1.2 多媒体数据压缩的可能性(可行性)经研究发现,与音频数据一样,图像数据中存在着大量的冗余。通过去除那些冗余数据可以极大地降低原始图像数据量,从而解决图像数据量巨大的问题。图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法。

7、因此,进行图像压缩研究的起点是研究图像数据的冗余性。(1)空间冗余。在静态图像中有一块表面颜色均匀的区域,在这个区域中所有点的光强和色彩以及色饱和度都相同,具有很大的空间冗余。这是由于基于离散像素采样的方法不能表示物体颜色之间的空间连贯性导致的。(2)时间冗余。电视图像、动画等序列图片,当其中物体有位移时,后一帧的数据与前一帧的数据有许多共同的地方,如背景等位置不变,只有部分相邻帧改变的画面,显然是一种冗余,这种冗余称为时间冗余。(3)结构冗余。在有些图像的纹理区,图像的像素值存在着明显的分布模式。例如,方格状的地板图案等,称此为结构冗余。如果已知分布模式,就可以通过某一过程生成图像。(4)知

8、识冗余。对于图像中重复出现的部分,我们可以构造出基本模型,并创建对应各种特征的图像库,进而使图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。(5)视觉冗余。事实表明,人的视觉系统对图像的敏感性是非均匀性和非线性的。在记录原始的图像数据时,对人眼看不见或不能分辨的部分进行记录显然是不必要的。因此,大可利用人的视觉的非均匀性和非线性,降低视觉冗余。(6)图像区域的相同性冗余。它是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。在以上的情况下,当记录了一个区域中各像素的颜色值,则与其相同或相近的

9、其他区域就不需要记录其中各像素的值。采用向量量化(Vector quantization)方法就是针对这种冗余性的图像压缩编码方法。随着对人的视觉系统和图像模型的进一步研究,人们可能会发现图像中存在着更多的冗余性,使图像数据压缩编码的可能性越来越大,从而推动图像压缩技术的进一步发展。6.1.3 多媒体数据压缩方法的分类多媒体数据压缩方法根据不同的依据可产生不同的分类。1第一种分类方法是根据解码后数据是否能够完全无丢失地恢复原始数据,可分为两种:(1)无损压缩:也称为可逆压缩、无失真编码、熵编码等。工作原理为去除或减少冗余值,但这些被去除或减少的冗余值可以在解压缩时重新插入到数据中以恢复原始数据

10、。它大多使用在对文本和数据的压缩上,压缩比较低,大致在2:15:1之间。典型算法有:哈夫曼编码、香农-费诺编码、算术编码、游程编码和Lenpel-Ziv编码等。(2)有损压缩:也称不可逆压缩和熵压缩等。这种方法在压缩时减少了数据信息是不能恢复的。在语音、图像和动态视频的压缩中,经常采用这类方法。它对自然景物的彩色图像压缩,压缩比可达到几十倍甚至上百倍。什么是熵?数据压缩不仅起源于20世纪40年代由Claude Shannon首创的信息论,而且其基本原理即信息究竟能被压缩到多小,至今依然遵循信息论中的一条定理,这条定理借用了热力学中的名词“熵”(Entropy)来表示一条信息中真正需要编码的信息

11、量:考虑用0和1组成的二进制数码为含有n个符号的某条信息编码,假设符号Fn在整条信息中重复出现的概率为Pn,则该符号的熵也即表示该符号所需的位数位为:En=-log2(Pn)整条信息的熵也即表示整条信息所需的位数为:E=En举个例子,对下面这条只出现了a、b、c三个字符的字符串:Aabbaccbaa字符串长度为10,字符a、b、c分别出现了5、3、2次,则a、b、c在信息中出现的概率分别为0.5、0.3、0.2,他们的熵分别为:Ea=-log2(0.5)=1Eb=-log2(0.3)=1.737Ec=-log2(0.2)=2.322整条信息的熵也即表达整个字符串需要的位数为:E=Ea*5+Eb

12、*3+Ec*2=14.855位回想一下如果用计算机中常用的ASCII编码,表示上面的字符串我们需要整整 80 位呢!现在知道信息为什么能被压缩而不丢失原有的信息内容了吧。简单地讲,用较少的位数表示较频繁出现的符号,这就是数据压缩的基本准则。我们该怎样用0、1这样的二进制数码表示零点几个二进制位呢?确实很困难,但不是没有办法。一旦我们找到了准确表示零点几个二进制位的方法,我们就有权利向无损压缩的极限挑战了。第二种分类方法是按照压缩技术所采用的方法来分的,如P111表6-1所示:表6-1 多媒体数据编码算法分类PCM自适应式、固定式 多 媒 体 数 据 编 码 算 法预测编码自适应式、固定式(DP

13、CM、M)混合编码变换编码傅里叶、离散余弦、离散正统、哈尔、斜变换、沃尔-哈达马、卡胡南-劳夫(K-L)、小波统计编码(熵编码)哈夫曼编码、算术编码、费诺编码、香农编码、游程编码(RLE)、LZW静态图像编码方块、逐渐浮现、逐层内插、比特平面、抖动电视编码帧内预测帧间编码运动估计、运动补偿、条件补充、内插、帧间预测其他编码矢量量化、子带编码、轮廓编码、二值图像实际上连续模拟信号进行数字采样表示时,通常采用奈斯特采样速率。若量化器为N级,即N=2b,则每一个采样的样本用b位的二进制代码表示。在信号的量化中,每一色彩分量一般用8位表示。PCM编码器和解码器位于一个图像编码系统的起点和终点,它们实际

14、上分别是A/D转换器和D/A转换器,以下所讨论的压缩技术编码方法都是在多媒体数据模拟信号经过编码后再进行的。2第二种分类方法是按具体编码算法来分:(1)预测编码(Predictive Coding,PC):这种编码器记录与传输的不是样本的真实值,而是真实值与预测值之差。对于语音,就是通过预测去除语音信号时间上的相关性;对于图像来讲,帧内的预测去除空间冗余、帧间预测去除时间上的冗余。预测值由预编码图像信号的过去信息决定。由于时间、空间相关性,真实值与预测值的差值变化范围远远小于真实值的变化范围,因而可以采用较少的位数来表示。另外,若利用人的视觉特性对差值进行非均匀量化,则可获得更高压缩比。(2)

15、变换编码(Transform Coding,TC):在变换编码中,由于对整幅图像进行变换的计算量太大,所以一般把原始图像分成许多个矩形区域,对子图像独立进行变换。变换编码的主要思想是利用图像块内像素值之间的相关性,把图像变换到一组新的“基”上,使得能量集中到少数几个变换系数上,通过存储这些系数而达到压缩的目的。采用离散余弦编码DCT变换消除相关性的效果非常好,而且算法快速,被普遍接受。(3)统计编码:最常用的统计编码是哈夫曼编码,出现频率大的符号用较少的位数表示,而出现频率小的符号则用较多位数表示,编码效率主要取决于需要编码的符号出现的概率分布,越集中则压缩比越高。哈夫曼编码可以实现熵保持编码,所以是一种无损压缩技术,在语音和图像编码中常常和其他方法结合使用。6.2 量化通常量化是指模拟信号到数字信号的映射,它是模拟量转化为数字量必不可少的步骤。由于模拟量是连续的,而数字量是离散量,因此量化操作实质上是用有限的离散量代替无限的连续模拟量的多对一映射操作。6.2.1 比特率比特率是采样率和量化过程中使用的比特数的产物。用例子说明更容易理解,电话通信中,语音信

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号