多媒体技术与应用视频幻灯片ppt(2)

资源描述

《多媒体技术与应用视频幻灯片ppt(2)》由会员分享，可在线阅读，更多相关《多媒体技术与应用视频幻灯片ppt(2)（72页珍藏版）》请在金锄头文库上搜索。

1、第二章多媒体数据压缩技术,数字音频编码数字图像编码数字视频编码常用的数据压缩技术多媒体数据转换,2.1 数字音频编码,音频的基本特性,声音是由振动的声波所组成，在任一时刻t，声波可分解为一系列正弦波线性叠加： f(t)= Ansin(nt+n) 其中, 称为基频或基音，它决定声音的高低；n称为的n次谐波分量或称为泛音，与声音的音色有关; An是振幅,表示声音的强弱；n是n次谐波的初相位。,音频数字化,波形音频是以数字方式表示音波。它是用声卡(包含ADC和DAC)来录制与执行播出声音的。计算机对声音表示主要通过采样产生一系列声音数据。事实上, 声波按频率可分为4类, 其中多媒体系统仅

2、处理人类的听力所接受的频率范围的声音，我们称之为音频, 这个频率范围的音波称之为声音信号。,声音的频率分类,通过规则时间间隔测出音波振动幅度从而产生一系列声音数据。这种测出数据方法称之为采样,一秒内采样次数叫采样率。采样的离散音频数据要转换成计算机能够表示的数据范围,这个过程称之为量化。量化后数字音频存储量计算公式音频数据存储量(字节)=采样率(Hz)量化位数(位)声道数音频长度(秒)/8,例2.1 激光数字唱盘CD-DA的标准采样频率为44.1Hz,量化位数为16位，立体声，这即CD音质。考虑一下CD-DA播放一分钟音乐所需要的存储量是多少？,MIDI 音频,1980年制定一项工业标

3、准,目的是让音乐及合成音可以经由一串消息在不同的设备上交流传输。 MIDI提供了计算机外部的电子乐器与计算机内部之间的连接器接口。这种连接接口定义物理连接与电子乐器沟通的协议。 MIDI也定义音频的形态与存储的方法。MIDI音频是以消息的方式而非波形的方式组成。 MIDI有三种连接器(In、Out、Thru)。 In为输入, Out为输出,而Thru是用来扩充MIDI与其它设备连接用的。,音序器可以将音乐等声音以一种序列来储存。所谓序列便是一连串的音符加上系统事件的命令。 MIDI适配器是用来改变频道、路径与按键的。当电子琴的键盘与一般的MIDI规格不一致时可以经由适配器来修正使两者一致。,M

4、IDI音频文件,MIDI音频文件是一串时序命令,它记录音乐的行为。命令消息分为频道消息(频道声音消息、频道模式消息)和系统消息(系统实时消息、系统通用消息与系统专用消息)。它是以某种乐器的发声为其数据记录的基础。它的文件占用很少存储器空间,且可以做细部的修改，如修改节拍等。其声音效果不会因改变节拍而变调。 MIDI不适合编制口语旁白的音频。,波形音频可从麦克风、录音带、CD、电视及其它来源获取。它把声音转换成储存体中数字信息。波形音频较为稳定,容易保持一致性,音频品质也较易获得保证。缺点是记录非常详尽,数据量极大,文件较MIDI音频大出200倍以上。要修改数字音频细节非常困难,大大地增

5、加了CPU的负担。它可以适合任何一种音响,包括人的口语在内,故大多数节目仍采用这种音频。,3D音频,三维环绕立体声能产生更加逼真的音频效果，是用户在用计算机时能感觉声音来自不同的方向。人耳的基本声音定位原理是两侧声音强度差别和两侧声音时间延迟差别。耳廓的作用是滤波器，根据声音的不同角度，加强、减弱音波能量，过滤后传给大脑，让人准确的定位声源。,3D音频,3D音效的两个因素是定位和交互。定位即让人们准确的判断出声音的来源，可以通过事先录制，在进行特定的解码来实现。交互就是实时的定位，可以根据用户的控制来决定声音的位置。即时交互的声音对设备的要求比预先录制音轨的放音设备更高一些。,3D

6、音频,3D音效可分为以下几类：（1）扩展式立体声。（2）环绕立体声。（3）交互式3D音效。 3D音效的控制是通过软件来实现的，称为应用程序接口（API)。,3D音频,支持3D音频API种类: DirectX DirectSound 3D; Aureal 3D; EAX; Sensaura; Qsound; 杜比AC-3; 数字化影院系统DTS,2.2 数字图像编码,2.2.1 色彩的基本概念,色彩的基本概念：色调，饱和度，亮度。色调是指某种颜色的性质和特点，是由物体表面反射的光线中什么波长占优势决定的。色调和光波的波长相关，而亮度和饱和度与光波的幅度相关。P18图。主要采用数字化方式对

7、声音、文字等处理。,2.2.1 色彩的基本概念,例如：在彩色电视信号表示时，设代表光强、色彩和色饱和度的YIQ彩色空间中各分量的带宽分别为4.2MHZ、1.5MHZ、0.5MHZ。再设各分量均被数字化为8b。从而一秒钟电视信号的数据量：（4.2+1.5+0.5）*2*8=99.2Mb（CD容量是650MB) 数字化处理面临的主要问题是数据量巨大，尤其是对动态图像和视频图像。,2.2.2彩色空间及其转换,彩色空间即彩色的表示模型。可用8位、9位、16位、24位、32位表示。常见模型： RGB彩色空间 HSI彩色空间 YUV彩色空间 YIQ彩色空间,RGB彩色空间,R、G、B是彩色最基本表示模

8、型,也是计算机系统中所使用的彩色模型。 RGB5:5:5方式用2个字节表示一个象素，具体位分配。 RGB5:5:5方式 RGB8:8:8方式 R、G、B三个分量各占一个字节。,HSI彩色空间,这种模型中, 用H(Hue,色调)、S(Saturation,饱和度)、I(Intensity,光强度)3个分量来表示一种颜色, 这种表示更适合人的视觉特性。,YUV彩色空间,Y为亮度信号,U、V是色差信号(B-Y,R-Y)。 PAL制式彩色空间即为YUV。优点是亮度和色差信号分离,容易使彩色电视系统与黑白电视信号兼容。国际无线电咨询委员会根据实验认为采用双倍度采样4:2:2方案效果较好, 提出CCI

9、R601标准。变换公式（YUVRGB） Y = 0.299*R + 0.587*G+ 0.114*B; U =-0.169*R - 0.332*G+ 0.500*B; V = 0.500*R + 0.419*G - 0.081*B,YIQ彩色空间,广播电视系统另一种常用的亮度与色差分离的模型。NTSC制式彩色空间即为YIQ。这里Y是亮度, I和Q共同描述图象的色调和饱和度。变换公式(YIQRGB) Y =0.299*R+ 0.587*G+ 0.114*B; I =0.211*R - 0.523*G+ 0.312*B; Q =0.596*R - 0.275*G - 0.322*B,2.2.2

10、数字图象文件格式,TIF PCX GIF、TGA、BMP、DVI、JPEG等,TIF文件格式,由美国Aldus Developers Desk和Microsoft制定结构文件头(8B) 参数指针表参数数据表图象数据,TIF文件格式,文件头含字节顺序(2B,表示存贮格式: II-Intel格式; MMMotorola格式); 标记号(2B, 版本信息); 指向第一个参数指针表的编码(4B)。参数指针表由每个长为12B参数块构成, 描述压缩种类、长宽、彩色数、扫描密度等参数。较长参数(如调色板)只给出指针, 参数放在参数数据表中。其结构定义如下：,typedef struct i

11、nt tag-type; int number-size; long length; long offset; TIF-FIELD; 图像参数表图象数据按参数表中描述的形式按行排列,PCX文件格式,由Z Soft公司最初制定结构文件头(128字节) 数据部分(采用行程长度编码) 文件头结构定义,typedef struct char manufacture; /*always 0xa0*/ char version； char encoding; /*always 1*/ char bits-per-pixel; /*color bits */ int Xmin, Ymin; /* i

12、mage origin */ int Xmax, Ymax; /* image dimension */ int hres; /* resolution values */ int vres; char palette48; /* color palette */ char reserved; char color-planes; /* color planes */ int bytes-per-line; /* line buffer size */ int palette-type; /* grey or color palette */ char filler58; PCXHEAD; 其

13、中Version若为5,文件内有个256色调色板,数据768字节,在文件最后。,文件体对象素数据采用行程长度编码, 由包含Keybyte和Databyte的包组成。分2种情况: (1) 若Keybyte最高位为11, 则低6位（index)为重复次数。但最多重复63次, 若再长重建一个包. PCX数据包的结构 (2) 若Keybyte最高位不是11，那么该Databyte按原样写入图象文件。对一个字符的表示用长度为1的包。,11,1,Databyte,2.3 数字视频编码,2.3.1数字视频的结构,数字视频是连续的数字图像序列。它与模拟视频相比：很高的存储质量和交互性，易于实现视频数据加密等

14、优点。但是相邻图像之间有相关性。基本单位是帧。帧就是一幅静态的图像，是构成视频的最小的单位。若干同一场景的一系列帧构成镜头。若干镜头构成情节（场景）若干情节构成故事节目（幕）,2.3.2国际视频标准,NTSC 美国研制,是目前广泛使用的电视制式。它以525条横扫描线来组成一个屏幕帧,每秒30帧,其图象改变采用偶数线与奇数线相互交错更新的方式,造成视觉动态图象。 PAL 中国、英国等国采用制式,W.Bruch1963年发明的,其基本原理类似于NTSC制式。以625条扫描线,每秒25帧,也是以奇偶数扫描线交错方式造成动态图象。 SECAM 法国、俄罗斯等国采用制式。同样采用625条线和2

15、5帧, 但与NTSC和PAL相比, 其基础技术是采用频率调制, 传播方式也不同于以上两种。,2.3.3数字视频CCIR601编码标准,数字视频CCIR601是国际无线电咨询委员会制定的广播级质量的数字电视标准。主要对采样频率、采样结构、色彩空间转换等给出了严格的标准。采样频率：为了保证信号同步，采样频率必须是电视信号行频的倍数。CCIR为NTSC、PAL和SECAM制式制定的共同的电视图像采样标准为fs=13.5MHZ。分辨率,2.4 常用数据压缩技术,2.4.1 数据压缩的基本原理,传统上用模拟方式表示声音和图象信息易出故障，常产生噪音和信号丢失，且拷贝过程中噪音和误差逐步积累；模拟

16、信号不适合数字计算机加工处理。数字化处理：巨大的数据量,采样定理: 仅当采样频率2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号。采用8bit数字化,从而1秒钟电视信号的数据量约为99.2Mbits。即约为100Mbps。650MB的CD-ROM仅能存约1分钟的原始电视数据。若HDTV(1.2Gbps), 一张CD-ROM还存不下6秒钟的HDTV图象。,人说话的音频一般在20Hz到4KHz, 即人类语音的带宽为4KHz。依据采样定理, 设数字化精度为8b, 则1秒钟信号量为64Kbits。因此, 人讲1分钟话的数据量为480KB。数字化处理的关键问题数据压缩（去掉信号数据的冗余性）,压缩的基础数据冗余,空间冗余时间冗余信息熵冗余结构冗余知识冗余视觉冗余其它冗余,空间冗余,这是图象数据中经常存在的一种冗余。在同一幅图象中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成象结构在数字化图象中就表现为数据冗余。,时间冗余,

展开阅读全文