第三章-多媒体数据压缩技术课件

上传人:我*** 文档编号:147297215 上传时间:2020-10-08 格式:PPT 页数:75 大小:189.50KB
返回 下载 相关 举报
第三章-多媒体数据压缩技术课件_第1页
第1页 / 共75页
第三章-多媒体数据压缩技术课件_第2页
第2页 / 共75页
第三章-多媒体数据压缩技术课件_第3页
第3页 / 共75页
第三章-多媒体数据压缩技术课件_第4页
第4页 / 共75页
第三章-多媒体数据压缩技术课件_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《第三章-多媒体数据压缩技术课件》由会员分享,可在线阅读,更多相关《第三章-多媒体数据压缩技术课件(75页珍藏版)》请在金锄头文库上搜索。

1、第三章 多媒体数据压缩技术,第二节 数据压缩方法,第一节 数据压缩技术概述,第三节 数据压缩标准,一、多媒体关键技术,1.数据压缩技术 未经压缩的视频图像处理时的数据量每秒约28MB,播放一分钟立体声音乐也需要100MB存储空间。 字符数据量压缩到原来的1/2 语音数据量压缩到原来的1/2-1/10 图像数据量压缩到原来的1/2-1/60,2.多媒体专用芯片技术 固定功能的芯片 可编程的数字信号处理器(DSP)芯片 3.数据存储技术,4.多媒体输入与输出技术 媒体变换技术 媒体识别技术 媒体理解技术 媒体综合技术 5.多媒体软件技术,6.多媒体通信技术 包含语音压缩、图像压缩及多媒体的混合传输

2、技术。 多网合一 7.虚拟现实技术 利用计算机技术生成的一个逼真的视觉、听觉、触觉及嗅觉等的感觉世界,用户可以用人的自然技能对这个生成的虚拟实体进行交互考察。,二、什么是数据压缩,在一定的精度损失条件下,以最少的数码表示信源所发出的信号。,三、多媒体数据压缩的必要性,多媒体信源引起了“数据爆炸” 不压缩,传输和存储都难以实用化。,例证: 一幅分辨率为640480的真彩色图像(24B/像素),它的数据量约为7.37MB。若要达到每秒25帧的全动态显示要求,每秒所需的数据量为184MB,而且要求系统的数据传输率必须达到184MB/s。 对于数字化的声音信号,若采样精度为16bit/s样本,采样频率

3、为44.1kHz,则双声道立体声声音每秒将有176KB的数据量。,1分钟数字音频信号需要的存储空间,1分钟数字视频信号需要的存储空间,四、多媒体数据压缩的可能性,原始信源的数据存在很大的冗余度,数据冗余的类型: 1.空间冗余 2.时间冗余 3.信息熵冗余 4.视觉冗余 5.听觉冗余 6.结构冗余 7.知识冗余,1.空间冗余 同一幅图像中,规则物体和规则背景的表面物体特性具有相关性。 2.时间冗余 反映在视频帧序列中,相邻帧图像之间有较大的相关性。,3.信息熵冗余 所携带的信息量少于数据本身而反映出来的冗余。 4.视觉冗余 人类的视觉系统由于受生理特性的限制,对于图像场的注意是非均匀和非线性的。

4、一般只能分辨26灰度等级。然而,在记录原始图像数据时,通常假定视觉系统是线性的和均匀的,对视觉敏感和不敏感的部分同等对待,一般都采用28灰度等级,从而产生了比理想编码更多的数据,这就是视觉冗余。,5.听觉冗余 人耳对不同频率的声音的敏感性是不同的,不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。 6.结构冗余 数字化图像中物体表面纹理等结构往往存在着数据冗余,称结构冗余。 7.知识冗余 由图像的记录方式与人对图像的知识之间的差别所产生的冗余称为知识冗余。,五、数据压缩的好处,时间域压缩迅速传输媒体信源 频率域压缩并行开通更多业务 空间域压缩降低存储费用 能量域压缩降低发射功率

5、,六、数据压缩技术的性能指标,压缩比要大 恢复后的失真小 压缩算法要简单、速度快 压缩能否用硬件实现,返回,一、模拟信号的数字化过程,1、采样 把时间上连续的模拟信号变成离散的有限个样值的信号。 2、量化 量化是在幅度轴上把连续值的模拟信号变成为离散值的数字信号,在时间轴上已变为离散的样值脉冲,在幅度轴上仍会在动态范围内有连续值,可能出现任意幅度,即在幅度轴上仍是模拟信号的性质,故还必须用有限电平等级来代替实际量值。,以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近

6、0 9之间的一个数来表示,如图。图中每个正方形表示一次采样。,D/A转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。,将上图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。左图,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。右图,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。信号的失真明显减少,信号质量得到了提高。,3、编码 编码是把代表特定

7、量化等级的比较器的输出状态组合,变换成一个n位表示的二进制数码,即每一组二进制码代表一个取样值的量化电平等级。 由于每个样值的量化电平等级由一组n位的二进制数码表示,所以,取样频率f与n位数的乘积nf就是每秒需处理和发送的位数,通常称为比特率或数码率。例如,CD音响的采样频率选用44.1kHz,量化位数n16,采用立体声,相应的比特率为:44.1kHz1628176.4kB/s,二、压缩处理的组成,编码过程 解码过程,三、压缩编码方法,1.按解码后的数据与原始数据一致性分类 (1)可逆编码(无损编码)。此种方法的解码图像与原始图像严格相同,压缩比大约在2:1-5:1之间。主要编码有Huffma

8、n编码、算术编码、行程长度编码等。 (2)不可逆编码(有损编码)。此种方法的解码图像与原始图像存在一定的误差,但视觉效果一般可以接受,压缩比可以从几倍到上百倍调节。有损压缩广泛应用于语音、图像和视频数据的压缩。常用的编码有变换编码和预测编码。,2.根据压缩的原理分类 (1)预测编码。它是利用空间中相邻数据的相关性来进行数据压缩的。通常用的方法有脉冲编码调制(PCM)、增量调制(DM)、差分脉冲编码调制(DPCM)等。这些编码主要用于声音的编码。 如果差值编码中小幅度出现的机会增加,由于其对应的码长较短,总数码率会进一步减小。如果能猜出下一个样值,那么差值就会是零,当然这种情况是没有意义的,因为

9、若预先知道下一样值,就不需要进行通信了。但可以肯定,如果我们不仅利用前后样值的相关性,同时也利用其它行、其它帧的像素的相关性,用更接近当前样值的预测 值与当前样值相减,小幅度差值就会增加,总数码率就会减小,这就是预测编码的方法。,(2)变换编码 是针对空间冗余和时间冗余的压缩方法。该方法将图像时域信号转换为频域信号进行处理。这种转换的特点是把在时域空间具有强相关的信号转换到频域上时在某些特定的区域内,数据处理时可以将主要的注意力集中在相对较小的区域,从而实现数据压缩。一般采用正交变换,如离散余弦变换(DCT)、离散傅立叶变换(DFT),(3)量化与向量量化编码 对模拟信号进行数字化时要经历一个

10、量化的过程。为了使整体量化失真最小,就必须依据统计的概率分布设计最优的量化器。最优的量化器一般是非线性的。我们对像元点进行量化时,除了每次仅量化一个点的方法外,也可以考虑一次量化多个点的做法,这种方法称为向量量化。即利用相邻数据间的相关性,将数据系列分组进行量化。,(4)信息熵编码(统计编码) 依据信息熵原理,让出现概率大的信号用较短的码字表示,反之用较长的码字表示。常见的编码方法有Huffman编码、Shannon编码以及算术编码。 (5)子带(subband)编码 将图像数据变换到频率后,按频率分带,然后用不同的量化器进行量化,从而达到最优的组合。或者分布渐进编码,在初始时,对某一个频带的

11、信号进行解码,然后逐渐扩展到所有频带。随解码数据的增加,解码图像也逐渐清晰。,(6)结构编码编码时首先将图像中的边界、轮廓、纹理等结构特征找出来,然后保存这些参数信息。解码时根据结构和参数信息进行合成,恢复原图像。 (7)基于知识的编码 对于人脸等可用规则描述的图像,可以利用人们对于人脸的知识形成一个规则库,据此将人脸的变化等用一些参数进行描述,从而利用参数加上模型就可以实现人脸的图像编码与解码。,3.按照其作用域分为 空间方法、变换方法和混合方法 4.根据是否自适应 自适应性编码和非适应性编码,四、音频压缩技术,1音频信号的编码分类 无损压缩包括不引入任何数据失真的各种熵编码; 有损压缩又可

12、分为波形编码、参数编码和同时利用这两种技术的混合编码方法。,2常用的音频编码 (1)脉冲编码调制PCM(Pulse Code Modulation)将模拟信号经过抽样、量化、编码三个处理步骤变成数字信号的A/D转换方式。 按量化方式的不同,分为: 均匀量化PCM 瞬时压扩PCM 自适应量化PCM,(2)MP3编码 是一种有损压缩,将音频信息用1:10甚至1:12的压缩率压缩。 (3)Real Audio编码 压缩比可达1:96,五、静态图像压缩技术,一种是采用以离散余弦变换(Discrete Cosine Transform,DCT)为基础的有损压缩算法。 另一种是采用以预测技术为基础的无损压

13、缩算法。 基于离散余弦变换(DCT)的压缩法有两种不同层次的系统:基本系统和增强系统。并且定义了两种类型的工作方式:顺序方式和累进方式。累进方式又分为频谱选择累进和按位逼近累进两种方式。基本系统采用顺序工作方式,编码过程中只采用哈夫曼编码,解码只能存储两套哈夫曼表。,六、动态图像压缩技术,MPEG视频 面向位速率为1.5MB/s的视频信号的压缩; MPEG音频 面向通道速率为64KB/s、128KB/s和192KB/s的数字音频信号的压缩; MPEG系统 解决对音频、视频多样压缩数据流的复合和同步的问题。,返回,一、音频编码标准,1、CCITT G系列声音压缩标准 (1)电话质量的音频压缩编码

14、技术标准 信号频率规定在300Hz3.4kHz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz,进行8bit量化时,所得数据速率为64kb/s,即一个数字电话。1972年CCITT为电话质量和语音压缩制定了PCM标准G.711,其速率为64Kbs,使用非线性量化技术,主要用于公共电话网中。,(2)调幅广播质量的音频压缩编码技术标准 频率在50Hz一7kHz范围。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbits,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbits可以被压缩成64

15、kbits,最后进行数据插入(最高插入速率达16kbits),因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。,(3)高保真度立体声音频压缩编码技术标准 频率范围50Hz20kHz,采用441kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbits。1991年国际标准化组织ISO和CCITT开始联合制定MPEG标准,其中ISOCDlll72-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz,44.1kHz,32kHz的采样,经

16、滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层次是在上述处理后再引入辅助子带,非均匀量化和熵编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32448kbits,适合于CDDA光盘应用。,2、MP3压缩技术 在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。即通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平(Noise Level),然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEG的文件。而音质听起来与CD相差不大。,MPEG的层次与压缩比率,3、MP4压缩技术 MP4使用的是MPEG-2 AAC技术也就是俗称的a2b或AAC。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点就是,音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号