多媒体技术基础－金锄头文库

资源描述

《多媒体技术基础》由会员分享，可在线阅读，更多相关《多媒体技术基础（130页珍藏版）》请在金锄头文库上搜索。

1、第二章多媒体技术基础2.1 数据压缩技术概述2.2 数据压缩编码标准2.3 数字音频技术2.4 图形与图像处理技术2.5 计算机动画技术2.6 多媒体视频技术2.1 数据压缩技术概述2.1.1 数据压缩的基本原理2.1.2 数据压缩方法的分类2.1.3 数据压缩算法的综合评价指标2.1 .1 数据压缩的基本原理1、多媒体的数据量、信息量和冗余量数据压缩的对象是数据，数据是信息的载体，用来记录和传送信息。真正有用的不是数据本身，而是数据所携带的信息。设从N个数中选定任意一个数x的概率为 P(x)，并设选定任意一个数的概率相等，即P(x)=1/N,则信息量为I(x)=log2N= -lo

2、g21/N =-log2P(x)信息和熵将信息源所有可能事件的信息量进行平均，即可得到信息的熵：H(x)=信息熵是指一组数据所携带的信息量, 这个表达式在形式上与热力学中熵的表达式相似，借用“熵”表示对信息量的度量，称为信息熵。一个事件发生的概率越小，其信息熵越高，所含的信息量越大。信息和熵例：设信源x有16种符号，其出现的概率相同，即p(x)=1/16。计算其平均信息熵。解：H(x)=这正是在计算机中要表示16种不同的符号使用的二进制存储位数。信息和熵例：某信源有8种符号，其出现概率如下：符号ABCDEFGH出现概率0.30.250.150.150.070.040.030.0

3、1计算该信息源的信息熵。信息和熵H(x)=2.51实际上它说明要在计算机中表示这样的8种符号平均需要使用的最少位数。香农定理的要点：信源中含有自然冗余度，这些冗余度既来自信源本身的相关性，又来自于信源概率分布的不均匀性。信源所含有的平均信息量是进行无失真编码的理论极限。只要不低于此极限，就能找到适宜的编码方法，去逼近信息熵，实现数据压缩。2.1 .1 数据压缩的基本原理多媒体数据表示中存在着大量的冗余，多媒体数据压缩技术就是利用多媒体数据的冗余性来减少多媒体数据量的方法。常见多媒体数据冗余类型如下：1. 空间冗余2. 时间冗余3.信息熵冗余4.视觉冗余5.结构冗余6.知识冗余

4、空间冗余一幅图像表面上各采样点的颜色之间往往存在着空间连贯性，基于离散像素采样来表示物体表面颜色的像素存储方式可利用空间连贯性，达到减少数据量的目的。例如，在静态图像中有一块表面颜色均匀的区域，在此区域中所有点的光强和色彩以及饱和度都是相同的，因此数据有很大的空间冗余。空间冗余是图像数据中经常存在的一种冗余。在同一幅图像中，规则物体和规则背景的表面物理特性具有相关性，这些相关性的光成象结构在数字化中就表现为数据冗余。空间冗余时间冗余是序列图像和语音数据中所经常包含的冗余。图像序列中的两幅相邻的图像之间有较大的相关性，这反映为时间冗余。在语言中，由于人在说话时发音的音

5、频是一连续的渐变过程，而不是一个完全时间上独立的过程，因而存在时间冗余时间冗余信息熵冗余也称为编码冗余，是指数据所携带的信息量少于数据本身而反映出来的数据冗余。信源编码时，当分配给第i个码元的比特数为log2pi时，才能使编码后单位数据量等于其信源熵H(x)，即达到其压缩极限。而自然编码的比特分配不能达到最佳，即存在信息熵冗余。视觉冗余人类的视觉系统对图像场的敏感度是非均匀的。但是，在记录原始的图像数据时，通常假定视觉系统近似线性的和均匀的，对视觉敏感和不敏感的部分同等对待，从而产生比理想编码（即把视觉敏感和不敏感的部分区分开来的编码）更多的数据，这就是视觉冗余。结构冗

6、余有些图像从大域上看存着非常强的纹理结构，我们称它们在结构上存在冗余。例如，布纹图像和草席图像。知识冗余数据的理解与先验知识有很大的关系。如当接收到成语“大惊小”时，就会想到下个字是“怪”，最后一个字不携带任何信息量。如对某些图像的理解与某些基础知识有相当大的相关性。人脸的图像有固定的结构。比如说嘴的上方有鼻子，鼻子的上方有眼睛，鼻子位于正脸图像的中线上等。这类规律性的结构可由先验知识和背景知识得到，我们称此类冗余为知识冗余。2.1.2 数据压缩方法的分类压缩处理一般是由两个过程组成：一是编码过程，即将原始数据经过编码进行压缩，以便存储与传输；二是解码过程，此过

7、程对编码数据进行解码，还原为可以使用的数据。数据压缩可分为两种类型：一种叫做无损压缩，另一种叫做有损压缩。无损压缩混合压缩有损压缩n根据解码后数据与原始数据是否完全一致，数据压缩方法划分为两类：可逆编码(无失真编码)解码图像与原始图像严格相同，压缩大约在2：1到5：1之间。如Huffman编码、算术编码、行程长度编码等。不可逆编码(有失真编码) 还原图像与原始图像存在一定的误差，但视觉效果一般可以接受，压缩比可以从几倍到上百倍来调节。常用的有变换编码和预测编码无损压缩无损压缩法去掉或减少了数据中的冗余，但这些冗余是可以重新插入到数据中的，因此无损压缩是可逆的过

8、程。无损压缩法不会产生失真，在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。无损压缩无损压缩常用在原始数据的存档，如文本数据、程序以及珍贵的图片和图像等。其原理是统计压缩数据中的冗余 (重复的数据)部分。常用的有： RLE (run length encoding)行程编码 Huffman 编码算术编码 LZW (lempel-ziv-welch)编码(1)、行程编码（RLE） RLE 编码是将数据流中连续出现的字符用单一记号表示。例如,字符串AAABCDDDDDDDDBBBBB 可以压缩为3ABC8D5B 。 RLE编码简单直观，编码/解码速度快，因此许多图形

9、和视频文件，如.BMP .TIFF及AVI等格式文件的压缩均采用此方法.(2)、Huffman编码它是一种对统计独立信源能达到最小平均码长的编码方法。其原理是，先统计数据中各字符出现的概率后，再按字符出现频率高低的顺序分别赋以由短到长的代码，从而保证了文件的整体的大部分字符是由较短的编码构成的。(3)、算术编码其方法是将被编码的信源消息表示成实数轴0-1之间的一个间隔，消息越长，编码表示它的间隔就越小，表示这一间隔所需的二进制位数就越多。该方法实现较为复杂，常与其它有损压缩结合使用，并在图像数据压缩标准(如JPEG)中扮演重要角色。(4)、LZW编码 LZW(Lem

10、pel-Ziv-Welch)压缩使用字典库查找方案。它读入待压缩的数据并与一个字典库(库开始是空的)中的字符串对比，如有匹配的字符串，则输出该字符串数据在字典库中的位置索引，否则将该字符串插入字典中。许多商品压缩软件如ARJ、PKZIR、 ZOO、LHA等都采用了设方法。另外，.GIF 和.TIF 格式的图形文件也是按这一文件存储的。有损压缩图像或声音的频带宽、信息丰富，人类视觉和听觉器官对频带中某些频率成分不大敏感，有损压缩以牺牲这部分信息为代价，换取了较高的压缩比。常用的有损压缩方法有：PCM(脉冲编码调制)、预测编码、变换编码、插值与外推等。新一代的数据压缩

11、方法有：矢量量化和子带编码、基于模型的压缩、分形压缩及小波变换等。混合压缩混合压缩是利用了各种单一压缩的长处，以求在压缩比、压缩效率及保真度之间取得最佳折衷。该方法在许多情况下被应用，如 JPEG 和MPEG 标准就采用了混合编码的压缩方法。2.1.3 数据压缩算法的综合评价指标1.压缩的倍数（压缩率）两种衡量方法：压缩前数据量：压缩后数据量压缩后的比特流中每个显示像素的平均比特数bpdp 2.图像质量使用信噪比、峰值信噪比和主观评定 3.压缩和解压缩的速度对称压缩：压缩和解压缩实时进行非对称压缩：解压缩是实时的压缩的计算量2.2 数据压缩编码标准2. 静止图像压缩标准

12、3. 运动图像压缩标准4视频通信编码标准1. 音频压缩技术标准5.低比特率音视频压缩标准音频压缩技术标准多媒体中常用的音频压缩标准是 MPEG音频。它提供三个独立的压缩层次。层1(Layer1)：编码器最简单，压缩后的数据传输率为384Kb/s，主要用于数字录音机。层2(Layer2)：编码器的复杂程度中等，压缩后数据传输率为192Kb/s,包括数字广播声音、数字音乐、CD-I和VCD。层3(Layer3)：编码器最复杂，压缩后的数据传输率为64Kb/s，主要用于ISDN的声音传输。MP3(MPEG Audio layer 3)是一种按 MPEG标准的音频压缩技术制作的音频文

13、件。特点：高压缩比(11:1)，优美音质音频压缩技术标准补充：数字音频信号的编码一般情况下，声音的制作是使用麦克风或录音机来产生，再由声卡上的WAVE合成器的 (模/数转换器)对模拟音频采样后，量化编码为一定字长的二进制序列，并在计算机内传输和存储。在数字音频回放时，再由数字到模拟的转化器(数/模转换器)解码可将二进制编码恢复成原始的声音信号，通过音响设备输出。如下图所示。模拟音频信号输入采样/量化编码传输/存储解码播放分类标准说明电话语音质量G.711采样8kHz，量化8bit，码率64kbpsG.721采用ADPCM编码，码率32kbpsG.723采用ADPCM有损

14、压缩，码率24kbpsG.728采用LD-CELP压缩技术，码率16kbps调幅广播质量G.722采样16kHz，量化14bit，码率224(64)kbps高保真立体声MPEG 音频采样44.1kHz，量化16bit，码率705kbps (MPEG三个压缩层次，384-64kbps)资料：音频压缩技术标准静止图像压缩标准国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合成立的 “联合照片专家组“ JPEG (joint photographic experts group) 于1991年提出的 “多灰度连续色调静态图像压缩编码“ (简称JPEG标准)。这是一个适用于

15、彩色和单色多灰度或连续色调静止数字图像的压缩标准。JPEG标准支持很高的图像分辨率和量化精度。它包含两部分：第一部分是无损压缩，采用以预测编码技术为基础的无损压缩。第二部分是有损压缩，采用离散余弦变换(DCT)和Huffman编码, 通常压缩20-40倍。原始图像重构图像逆向离散余弦变换正向离散余弦变换量化逆量化编码解码压缩图像量化表编码表JPEG标准(ISO 10918)包括图像编码和解码过程以及压缩图像数据的编码表示。静止图像压缩标准补充：JPEG 2000压缩标准JPEG 2000(ISO 15444)是JPEG的更新换代标准，针对Internet应用和无线通信等

16、领域。关键技术：以离散小波变换DWT为主的多解析压缩方式核心算法：EBCOT 高压缩比：比JPEG压缩性能提高30%原始图像重构图像逆向离散小波变换正向离散小波变换量化逆量化熵编码熵解码压缩图像JPEG与JPEG 2000的性能比较标准JPEGJPEG 2000标题连续色调静态图像的数字压缩编码新一代静态图像编码标准日期1986.3-1992.101996.2-2000.12 压缩比2-30:12-50:1 主要技术离散余弦变换DCT Zigzag扫描哈夫曼编码算术编码离散小波变换DWT EBCOT核心算法 ROI编码空间可扩展编码应用场合Internet 数字照相图像视频编辑Internet 数字照相打印、扫描、移动通信运动图像压缩标准视频图像压缩的一个重要标准是 MPEG (Moving Picture Experts Group)MPEG标准是面向运动图像压缩的一个系列标准。最初MPEG专家组的工作项目是3个，即在1.5Mbps,10Mbps,40Mbps传输速率下对

展开阅读全文