《第五部分MPEG压缩技术》由会员分享,可在线阅读,更多相关《第五部分MPEG压缩技术(47页珍藏版)》请在金锄头文库上搜索。
1、第五章第五章 MPEG压缩技术压缩技术 MPEG(Moving Picture Expert Group)MPEG(Moving Picture Expert Group)是在是在19881988年由国际标准年由国际标准化组织化组织(International Organization for Standardization(International Organization for Standardization,ISO)ISO)和国际电工委员会和国际电工委员会(International (International ElectrotechnicalElectrotechnical Co
2、mmissionCommission,IEC)IEC)联合成立的专家组,负责开发电视图像数据和联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为标准称为MPEGMPEG标准,到目前为止,已经开发和正在开发的标准,到目前为止,已经开发和正在开发的MPEGMPEG标标准有准有: :MPEG-1MPEG-1:数字数字电视标准,准,19921992年正式年正式发布。布。MPEG-2MPEG-2:数字数字电视标准。准。MPEG-3MPEG-3:已于已于19921992年年7 7月合并到高清晰度月
3、合并到高清晰度电视(High-(High-Definition TVDefinition TV,HDTV)HDTV)工作工作组。MPEG-4MPEG-4:多媒体多媒体应用用标准准(1999(1999年年发布布) )。MPEG-7MPEG-7:多媒体内容描述接口标准多媒体内容描述接口标准( (正在研究正在研究) )。 主要应用范围主要应用范围 光盘存储光盘存储 数字视频的传播数字视频的传播 交换式数字视频交换式数字视频 HDTV 网络多媒体网络多媒体MPEG-1MPEG-1和和-2-2典型的典型的编码参数参数MPEG-1MPEG-1MPEG-2 (MPEG-2 (基本型基本型) )标准化准化时间
4、19921992年年19941994年年(DIS)(DIS)主要主要应用用CD-ROMCD-ROM上的数字上的数字电视,VCDVCD数字数字TVTV,DVDDVD空空间分辨分辨率率CIFCIF格式格式(1/4 TV)(1/4 TV),288 360288 360像素像素 TVTV,576 720576 720像像素素时间分辨分辨率率25 - 30 25 - 30 帧/ /秒秒 50-60 50-60 场/ /秒秒 位速率位速率1.5 1.5 Mbit/sMbit/s15 15 Mbit/sMbit/s质量量相当于相当于VHS VHS 相当于相当于NTSC/PALNTSC/PAL电视压缩率率20
5、 30 20 30 30 40 30 40 5.1 MPEG-1数字电视标准数字电视标准 MPEG-1MPEG-1处理的是理的是标准准图像交像交换格式格式(Standard Interchange (Standard Interchange formatformat,SIF)SIF)或者称或者称为源源输入格式入格式(Source Input Format(Source Input Format,SIF)SIF)的的电视,即,即NTSCNTSC制制为352352像素像素 240240行行/ /帧 3030帧/ /秒,秒,PALPAL制制为352352像像素素 288288行行/ /帧 2525帧
6、/ /秒,秒,压缩的的输出速率定出速率定义在在1.5 1.5 Mbit/sMbit/s以下。以下。这个个标准主要是准主要是针对当当时具有具有这种数据种数据传输率的率的CD-ROMCD-ROM和网和网络而而开开发的,用于在的,用于在CD-ROMCD-ROM上存上存储数字影数字影视和在网和在网络上上传输数字影数字影视。 MPEG-1MPEG-1的的标准号准号为ISO/IEC 11172ISO/IEC 11172,标准名称准名称为“信息技信息技术用于数据速率高达大用于数据速率高达大约1.5 1.5 Mbit/sMbit/s的数字存的数字存储媒体的媒体的电视图像像和伴音和伴音编码”Informatio
7、n technology Information technology Coding of moving Coding of moving pictures and associated audio for digital storage media pictures and associated audio for digital storage media at up to about 1.5 at up to about 1.5 Mbit/sMbit/s) )。它已于它已于19911991年底被年底被ISO/IECISO/IEC采采纳,由五个部分由五个部分组成:成: MPEG-1MPEG
8、-1系系统,写成,写成MPEG-1 SystemsMPEG-1 Systems,规定定电视图像数据、声像数据、声音数据及其他相关数据的同步,音数据及其他相关数据的同步,标准名是准名是ISO/IEC 11172-1ISO/IEC 11172-1:1993 Information technology 1993 Information technology Coding of moving pictures Coding of moving pictures and associated audio for digital storage media at up to and associated
9、 audio for digital storage media at up to about 1.5about 1.5 Mbit Mbit/s /s Part 1Part 1:SystemsSystems。 MPEG-1 MPEG-1电视图像,写成像,写成MPEG-1 Video, MPEG-1 Video, 规定定电视数据的数据的编码和解和解码,标准名是准名是ISO/IEC 11172-2ISO/IEC 11172-2:1993 Information 1993 Information technology technology Coding of moving pictures and
10、associated Coding of moving pictures and associated audio for digital storage media at up to about 1.5audio for digital storage media at up to about 1.5 MbitMbit/s /s Part 2Part 2:VideoVideo。 MPEG-1声音,写成声音,写成MPEG-1 Audio, 规定声音数据的编码和解规定声音数据的编码和解码,标准名是码,标准名是ISO/IEC 11172-3:1993 Information technology
11、Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 3:Audio。 MPEG-1MPEG-1一致性一致性测试,写成,写成MPEG-1 Conformance testingMPEG-1 Conformance testing,标准准名是名是ISO/IEC 11172-4ISO/IEC 11172-4:1995 Information technology 1995 Information technology Coding of movi
12、ng pictures and associated audio for Coding of moving pictures and associated audio for digital storage media at up to about 1.5digital storage media at up to about 1.5 Mbit Mbit/s /s Part 4 Part 4:Conformance testingConformance testing。这个个标准准详细说明如何明如何测试比特数据流比特数据流( (bitstreamsbitstreams) )和解和解码器是否器是
13、否满足足MPEG-1MPEG-1前前3 3个部分个部分( (Part1Part1,2 2和和3)3)中中所所规定的要求。定的要求。这些些测试可由厂商和用可由厂商和用户实施。施。 MPEG-1软件模拟,写成软件模拟,写成MPEG-1 Software simulation,标准标准名是名是ISO/IEC TR 11172-5 Information technology Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s Part 5:Software si
14、mulation。实际上,这部实际上,这部分的内容不是一个标准,而是一个技术报告,给出了用软件执行分的内容不是一个标准,而是一个技术报告,给出了用软件执行MPEG-1标准前标准前3个部分的结果。个部分的结果。 MPEG-1译码器的方框图5.2 MPEG-2数字电视标准数字电视标准 MPEG-2标准从1990年开始研究,1994发布DIS。它是一个直接与数字电视广播有关的高质量图像和声音编码标准。MPEG-2可以说是MPEG-1的扩充,因为它们的基本编码算法都相同。但MPEG-2增加了许多MPEG-1所没有的功能,例如增加了隔行扫描电视的编码,提供了位速率的可变性能(scalability)功能
15、。MPEG-2要达到的最基本目标是:位速率为49 Mbit/s,最高达15 Mbit/s。 MPEG-2的标准号为ISO/IEC 13818,标准名称为“信息技术电视图像和伴音信息的通用编码(Information technology Generic coding of moving pictures and associated audio information )”。MPEG-2包含9个部分: MPEG-2系统,写成MPEG-2 Systems,规定电视图像数据、声音数据及其他相关数据的同步,标准名是ISO/IEC 13818-1:1996 Information techno
16、logy Generic coding of moving pictures and associated audio information :Systems。 这个标准主要是用来定义电视图像数据、声音数据和其他数据的组合,把这些数据组合成一个或者多个适合于存储或者传输的基本数据流。数据流有两种形式,一种称为程序数据流(Program Stream,PS),另一种称为传输数据流(Transport Stream,TS)。程序数据流是组合一个或者多个规格化的即包化基本数据流(Packetised Elementary Streams,PES)而生成的一种数据流,用在出现错误相对比较少的环境下,
17、适合使用软件处理的应用;传输数据流也是组合一个或者多个PES而生成的一种数据流,它用在出现错误相对比较多的环境下,例如在有损失或者有噪声的传输系统中。 MPEG-2的系统模型 MPEG-2MPEG-2电视图像,写成像,写成MPEG-2 VideoMPEG-2 Video,规定定电视数据的数据的编码和和解解码,标准名是准名是ISO/IEC 13818-2ISO/IEC 13818-2:1996 Information technology 1996 Information technology Generic coding of moving pictures and associated au
18、dio Generic coding of moving pictures and associated audio information information :VideoVideo。为了适了适应各种各种应用,用,这个个标准定准定义了了电视图像的各种像的各种规格,称格,称为配配置置( (profile) profile) 。表中的。表中的“X”X”符号表示符号表示MPEG-2MPEG-2支持的配置。支持的配置。有些人有些人认为使用使用4:2:04:2:0子采子采样格式的格式的图像像质量量还不不够好,因此在好,因此在19961996年的年的标准中增加了准中增加了4:2:24:2:2子采子采
19、样格式的格式的图像。多像。多视角配置角配置( (MultiviewMultiview Profile Profile,MVP)MVP)是附加的配置。是附加的配置。 MPEG-2MPEG-2声音,写成声音,写成MPEG-2 AudioMPEG-2 Audio,规定声音数据的定声音数据的编码和解和解码,是是MPEG-1 AudioMPEG-1 Audio的的扩充,支持多个声道,充,支持多个声道,标准名是准名是ISO/IEC 13818-ISO/IEC 13818-3 3:1998 Information technology 1998 Information technology Generic
20、coding of moving Generic coding of moving pictures and associated audio information pictures and associated audio information Part 3 Part 3:AudioAudio。配置 等级Simple(简化型) Main(基本型) SNR scalable(信噪比可变型) Spatial scalable(空间分辨率可变型) High(高级型) Multiview(多视角型)4:2:2High level (高级)X X High-1440 level(高级1440)X
21、X X Main level (基本级)X X X X XXLow level (低级)X X MPEG-2MPEG-2电视图像配置像配置 MPEG-2MPEG-2一致性一致性测试,写成,写成MPEG-2 Conformance testingMPEG-2 Conformance testing,标准准名是名是ISO/IEC DIS 13818-4 Information technology ISO/IEC DIS 13818-4 Information technology Generic Generic coding of moving pictures and associated a
22、udio information coding of moving pictures and associated audio information Part 4 Part 4:Conformance testingConformance testing。 MPEG-2 MPEG-2软件模件模拟,写成,写成MPEG-2 Software simulationMPEG-2 Software simulation,标准名准名是是ISO/IEC TR 13818-5ISO/IEC TR 13818-5:1997 Information technology 1997 Information tec
23、hnology Generic coding of moving pictures and associated audio Generic coding of moving pictures and associated audio information information Part 5 Part 5:Software simulationSoftware simulation。 MPEG-2 MPEG-2数字存数字存储媒体命令和控制媒体命令和控制扩展展协议,写成,写成MPEG-2 MPEG-2 Extensions for DSM-CCExtensions for DSM-CC,标准
24、名是准名是ISO/IEC DIS 13818-6 ISO/IEC DIS 13818-6 Information technology Information technology Generic coding of moving Generic coding of moving pictures and associated audio information pictures and associated audio information Part 6 Part 6:Extensions for DSM-CCExtensions for DSM-CC。MPEG-2MPEG-2先先进声音声
25、音编码,写成,写成MPEG-2 AACMPEG-2 AAC,是多声道声音是多声道声音编码算法算法标准。准。这个个标准除后向兼容准除后向兼容MPEG-1 AudioMPEG-1 Audio标准之外,准之外,还有非后向兼有非后向兼容的声音容的声音标准。准。标准名是准名是ISO/IEC 13818-7ISO/IEC 13818-7:1997 Information 1997 Information technology technology Generic coding of moving pictures and Generic coding of moving pictures and asso
26、ciated audio information associated audio information Part 7 Part 7:Advanced Audio Advanced Audio Coding (AAC)Coding (AAC)。 MPEG-2系统解码器实时接口扩展标准,标准名是系统解码器实时接口扩展标准,标准名是ISO/IEC 13818-9:1996 Information technology Generic coding of moving pictures and associated audio information Part 9:Extension for re
27、al time interface for systems decoders。 MPEG-2 DSM-CCMPEG-2 DSM-CC一致性一致性扩展展测试,标准名是准名是ISO/IEC DIS 13818-ISO/IEC DIS 13818-10 Information technology 10 Information technology Generic coding of moving Generic coding of moving pictures and associated audio information pictures and associated audio infor
28、mation Part 10 Part 10:Conformance extensions for Digital Storage Media Command Conformance extensions for Digital Storage Media Command and Control (DSM-CC)and Control (DSM-CC)。5.3 MPEG-4 多媒体应用标准多媒体应用标准 MPEG-4从1994年开始工作,它是为视听(audio-visual)数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可
29、靠地工作,并且具有很强的交互功能。 为了达到这个目标,MPEG-4引入了对象基表达(object-based representation)的概念,用来表达视听对象(a audio/v visual o objects,AVO);MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码(S Synthetic/N Natural H Hybrid C Coding,SNHC)算法;在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。MPEG-4系统构造如图5-01所示,接收端的构造部件如图5-02所示。图5-01 MPEG-4系统示
30、意图 图5-02 MPEG-4接收端的主要部件 MPEG-4中制定了一个称为传输多媒体集成框架(Delivery Multimedia Integration Framework,DMIF)的会话协议,它用来管理多媒体数据流。该协议在原则上与文件传输协议FTP(File Transfer Protocol)类似,其差别是:FTP返回的是数据,而DMIF返回的是指向到何处获取数据流的指针。DMIF覆盖了三种主要技术:广播技术,交互网络技术和光盘技术,如图8-03所示。 图8-03 DMIF覆盖的三种主要技术 MPEG-4 MPEG-4将将应用在移用在移动通信和公用通信和公用电话交交换网网( (p
31、ublic switched public switched telephone networktelephone network,PSTN)PSTN)上,并支持可上,并支持可视电话( (videophone)videophone)、电视邮件件( (video mail)video mail)、电子子报纸( (electronic newspapers)electronic newspapers)和其他低和其他低数据数据传输速率速率场合下的合下的应用。用。 MPEG-4 MPEG-4的的标准名是准名是Very-lowVery-low bitrate bitrate audio-visual c
32、oding audio-visual coding ( (甚低速率甚低速率视听听编码) )。截止到。截止到19981998年年9 9月,已作月,已作为国国际标准草案准草案( (Draft International StandardDraft International Standard,DIS)DIS)的的MPEG-4MPEG-4文件有文件有6 6个部分,个部分,它它们是:是: MPEG-4MPEG-4系系统标准,准,标准名是准名是ISO/IEC DIS 14496-1 Very-lowISO/IEC DIS 14496-1 Very-low bitratebitrate audio-vis
33、ual coding audio-visual coding Part 1: Systems Part 1: Systems。 MPEG-4 MPEG-4电视图像像标准,准,标准名是准名是ISO/IEC DIS 14496-2 Very ISO/IEC DIS 14496-2 Very lowlow bitrate bitrate audio-visual coding audio-visual coding Part 2: Video Part 2: Video。 MPEG-4声音标准,标准名是声音标准,标准名是ISO/IEC DIS 14496-3 Very low bitrate aud
34、io-visual coding Part 3: Audio。 MPEG-4MPEG-4一致性一致性测试标准,准,标准名是准名是ISO/IEC DIS 14496-4 Very-ISO/IEC DIS 14496-4 Very-lowlow bitrate bitrate audio-visual coding audio-visual coding Part 4: Conformance Part 4: Conformance TestingTesting。 MPEG-4 MPEG-4参考参考软件,件,标准名是准名是ISO/IEC DIS 14496-5 Very-lowISO/IEC DI
35、S 14496-5 Very-low bitratebitrate audio-visual coding audio-visual coding Part 5: Reference software Part 5: Reference software MPEG-4 MPEG-4传输多媒体集成框架,多媒体集成框架,标准名是准名是ISO/IEC DIS 14496-6 ISO/IEC DIS 14496-6 Very-lowVery-low bitrate bitrate audio-visual coding audio-visual coding Part 6: Delivery Part
36、 6: Delivery Multimedia Integration Framework (DMIF)Multimedia Integration Framework (DMIF)。5.4 MPEG-7多媒体应用标准多媒体应用标准 MPEG-7的工作于1996年启动,名称叫做多媒体内容描述接口(Multimedia Content Description Interface) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下,数据类
37、型还可包括面部特性和个人特性的表达。 与其他的MPEG标准一样,MPEG-7是为满足特定需求而制定的视听信息标准。MPEG-7标准也是建筑在其他的标准之上的,例如,PCM, MPEG-1, MPEG-2和MPEG-4等等。在MPEG-7中,例如MPEG-4中使用的形状描述符、MPEG-1和MPEG-2中使用的移动矢量(motion vector)等都可能在MPEG-7中用到。 下图表示了MPEG-7的处理链(processing chain),这是高度抽象的方框图。在这个处理链中包含有三个方框:特征抽取(feature extraction)、标准描述(standard description
38、)和检索工具(search engine)。特征的自动分析和抽取对MPEG-7是至关重要的,抽象程度越高,自动抽取也越困难,而且不是都能够自动抽取的,因此开发自动的和交互式半自动抽取的算法和工具都是很有用的。尽管如此,特征抽取和检索工具都不包含在MPEG-7标准中,而是留给大家去竞争,以便得到最好的算法和工具。 MPEG-7的应用领域包括:数字图书馆(Digital library),例如图像目录、音乐词典等;多媒体目录服务(multimedia directory services),例如黄页(yellow pages);广播媒体的选择,例如无线电频道,TV频道等;多媒体编辑,例如个人电子新
39、闻服务,多媒体创作等等。潜在应用的应用领域包括:教育、娱乐、新闻、旅游、医疗、购物等等 5.5 MPEG视频视频 MPEG-1和和MPEG-2 Video标准有准有许多共同之多共同之处,基本概念,基本概念类似,数据似,数据压缩编码方法基本相同,都采用以方法基本相同,都采用以图像像块作作为基本基本单元元进行行变换、量化和运、量化和运动补偿等技等技术来来获得高得高压缩比。比。MPEG-4 Video部分采用内容基部分采用内容基编码技技术,它除与,它除与MPEG-1和和-2 Video向后向后兼容外,兼容外,还引入了引入了电视图像像对象象(VO)的概念,在某些的概念,在某些应用用场合下,合下,对场景
40、中的景中的图像分像分别进行行编码可以可以获得很高的得很高的压缩比而服比而服务质量量也能也能满足要求。下面将足要求。下面将简要介要介绍这些些标准中准中压缩电视图像数据的像数据的基本方法。基本方法。5.5.1 5.5.1 数据压缩算法数据压缩算法1 1 简介介 电视图像数据像数据压缩利用的各种特性和采用的方法利用的各种特性和采用的方法归纳在表在表5-15-1中。从表中可以看到,中。从表中可以看到,电视图像本身在像本身在时间上和空上和空间上都含有上都含有许多冗余信息,多冗余信息,图像自身的构造也有冗余性。此外,正如前面所介像自身的构造也有冗余性。此外,正如前面所介绍的,利用人的的,利用人的视觉特性也
41、可特性也可对图像像进行行压缩,这叫做叫做视觉冗余。冗余。表表5-1 5-1 电视图像像压缩利用的各种冗余信息利用的各种冗余信息种种类内容内容目前主要方法目前主要方法统计空空间冗余冗余像素像素间的相关性的相关性变换编码,预测编码特性特性时间冗余冗余时间方向上的相关性方向上的相关性 帧间预测,运,运动补偿图像构造冗余像构造冗余图像本身的构造像本身的构造轮廓廓编码,区域,区域分割分割知知识冗余冗余收收发两端两端对人物的共人物的共有有认识基于知基于知识的的编码视觉冗余冗余人的人的视觉特性特性非非线性量化,位性量化,位分配分配其他其他不确定性因素不确定性因素 MPEG-VideoMPEG-Video图像
42、像压缩技技术基本方法和方法可以基本方法和方法可以归纳成两个要点:成两个要点: 在空在空间方向上,方向上,图像数据像数据压缩采用采用JPEG(Joint Photographic JPEG(Joint Photographic Experts Group)Experts Group)压缩算法来去掉冗余信息。算法来去掉冗余信息。 在在时间方向上,方向上,图像数据像数据压缩采用采用运运动补偿(motion compensation)(motion compensation)算法来去掉冗余算法来去掉冗余信息。信息。 为了在保了在保证图像像质量基本不降低而又能量基本不降低而又能够获得高的得高的压缩比,比
43、,MPEGMPEG专家家组定定义了三种了三种图像:像:帧内内图像像I(intra)I(intra),预测图像像P(predicted )P(predicted )和双向和双向预测图像像B(bidirectionallyB(bidirectionally interpolated interpolated ) ),典型的排列如典型的排列如图5-045-04所示。所示。这三种三种图像将采用三种不同的算法像将采用三种不同的算法进行行压缩。图5-04 MPEG专家组定义的三种图像 2 2 帧内内图像像I I的的压缩编码算法算法 帧内内图像像I I不参照任何不参照任何过去的或者将来的其他去的或者将来的其
44、他图像像帧,压缩编码采用采用类似似JPEGJPEG压缩算法,它的框算法,它的框图如如图5-055-05所示。所示。如果如果电视图像是用像是用RGBRGB空空间表示的,表示的,则首先把它首先把它转换成成YCrCbYCrCb空空间表示的表示的图像。每个像。每个图像平面分成像平面分成8888的的图块,对每个每个图块进行离散余弦行离散余弦变换DCT(discrete Cosine DCT(discrete Cosine Transform)Transform)。DCTDCT变换后后经过量化的交流分量系数按照量化的交流分量系数按照Zig-zagZig-zag的形状排序,然后再使用无的形状排序,然后再使用
45、无损压缩技技术进行行编码。DCTDCT变换后后经过量化的直流分量系数用差分脉冲量化的直流分量系数用差分脉冲编码DPCM(Differential Pulse Code Modulation)DPCM(Differential Pulse Code Modulation),交流分量交流分量系数用行程系数用行程长度度编码RLE(run-length encoding)RLE(run-length encoding),然后再然后再用霍夫曼用霍夫曼(Huffman)(Huffman)编码或者用算或者用算术编码。它的。它的编码框框图如如图5-055-05所示。所示。图5-05 帧内图像I的压缩编码算法框
46、图 3 3 预测图像像P P的的压缩编码算法算法 预测图像的像的编码也是以也是以图像宏像宏块( (macroblockmacroblock) )为基本基本编码单元,一个宏元,一个宏块定定义为IJIJ像素的像素的图像像块,一般取,一般取16161616。预测图像像P P使用两种使用两种类型的参数来表示型的参数来表示:一种参数是当前要:一种参数是当前要编码的的图像宏像宏块与参考与参考图像的宏像的宏块之之间的差的差值,另一种参数是宏,另一种参数是宏块的运的运动矢量。运矢量。运动矢量的概念可用矢量的概念可用图5-065-06表示。表示。图图5-06 5-06 运动矢量的概念运动矢量的概念 求解差求解差
47、值的方法如的方法如图5-075-07所示。假所示。假设编码图像宏像宏块M MPIPI是参考是参考图像宏像宏块M MRJRJ的最佳匹配的最佳匹配块,它,它们的差的差值就是就是这两个宏两个宏块中相中相应像素像素值之差。之差。对所求得的差所求得的差值进行彩色空行彩色空间转换,并作,并作4:1:14:1:1的子采的子采样得得到到Y Y,CrCr和和CbCb分量分量值,然后仿照,然后仿照JPEGJPEG压缩算法算法对差差值进行行编码,计算出的运算出的运动矢量也要矢量也要进行霍夫曼行霍夫曼编码。图图5-07 预测图像预测图像P的压缩编码算法框图的压缩编码算法框图 求解运动矢量的方法定义在图5-08中。在求
48、两个宏块差值之前,需要找出编码图像中的预测图像编码宏块MPI相对于参考图像中的参考宏块MRJ所移动的距离和方向,这就是运动矢量(motion vector)。 图5-08 运动矢量的算法框图 horizontal要使预测图像更精确,就要求找到与参考宏块MRJ最佳匹配的预测图像编码宏块MPI。所谓最佳匹配是指这两个宏块之间的差值最小。方法一、以绝对值AE(absolute difference)最小作为匹配判据, , 方法二、以均方误差MSE(m mean-s square e error)最小作为匹配判据,方法三、以平均绝对帧差MAD(m mean of the a absolute f fr
49、ame d difference)最小作为匹配判据, 其中,其中,d dx x和和d dy y分分别是参考宏是参考宏块M MRJRJ的运的运动矢量矢量d(d(d dx x, , d dy y) )在在X X和和Y Y方方向上的矢量。向上的矢量。 从以上分析可知,从以上分析可知,对预测图像的像的编码实际上就是上就是寻找最佳匹找最佳匹配配图像宏像宏块,找到最佳宏,找到最佳宏块之后就找到了最佳运之后就找到了最佳运动矢量矢量d(d(d dx x, ,d dy y) )。 为减少搜索次数,减少搜索次数,现在已开在已开发出出许多多简化算法用来化算法用来寻找最佳宏找最佳宏块,下面介,下面介绍其中的三种。其中
50、的三种。1. 二二维对数搜索法数搜索法(2D-logarithmic search) 这种方法采用的匹配判据是种方法采用的匹配判据是MSE为最小。它的搜索策略是当沿最小。它的搜索策略是当沿着最小失真方向搜索。二着最小失真方向搜索。二维对数搜索方法如数搜索方法如图5-09所示。在搜索所示。在搜索时,每移每移动一次就一次就检查5个搜索点。如果最小失真在中央或在个搜索点。如果最小失真在中央或在边界,就界,就减少搜索点之减少搜索点之间的距离。在的距离。在这个例子中,步个例子中,步骤1,2,5得到的得到的近似移近似移动矢量矢量d为(i,j-2)、(i,j-4)、(i+2,j-4)、(i+2,j-5)和和
51、(i+2,j-6),最后得到的移最后得到的移动矢量矢量为d(i+2,j-6)。图5-09 二维对数搜索法2. 三步搜索法三步搜索法(three-step search) 这种搜索法与二维对数搜索法很接近。不过在开始搜索时,搜这种搜索法与二维对数搜索法很接近。不过在开始搜索时,搜索点离索点离(i,j)这个中心点很远,第一步就测试这个中心点很远,第一步就测试8个搜索点,如图个搜索点,如图5-10所示。在这个例子中,点所示。在这个例子中,点(i+3,j-3)作为第一个近似的移动矢量作为第一个近似的移动矢量d1;第二步,搜索点偏离第二步,搜索点偏离(i+3,j-3)较近,找到的点假定为较近,找到的点假
52、定为(i+3,j-5);第三步给出了最后的移动矢量为第三步给出了最后的移动矢量为d(i+2,j-6)。本例采用本例采用MAD作为匹作为匹配判据。配判据。图图5-10 三步搜索法三步搜索法 3. 对偶搜索法偶搜索法(conjugate search) 该法使用法使用MAD作作为匹配判据,示于匹配判据,示于图5-11。在第一次搜索。在第一次搜索时,通通过计算点算点(i-1,j)、(i,j)和和(i+1,j)处的的MAD值来决定来决定i方向上的最方向上的最小失真。如果小失真。如果计算算结果表明点果表明点(i+1,j)处的的MAD为最小,就最小,就计算点算点(i+2,j)处的的MAD,并从并从(i,j
53、),(i+1,j)和和(i+2,j)的的MAD中找出最中找出最小小值。按。按这种方法一直种方法一直进行下去,直到在行下去,直到在i方向上找到最小方向上找到最小MAD值及其及其对应的点。的点。 在在这个例子中,假定在个例子中,假定在i方向上找到的点方向上找到的点为(i+2,j)。在在i方向上找方向上找到最小到最小MAD值对应的点之后,就沿的点之后,就沿j方向去找最小方向去找最小MAD值对应的点,的点,方法与方法与i方向的搜索方法相同。最后得到的移方向的搜索方法相同。最后得到的移动矢量矢量为d(i+2,j-6)。图5-11 对偶搜索法 在整个MPEG图像压缩过程中,寻找最佳匹配宏块要占据相当多的计
54、算时间,匹配得越好,重构的图像质量越高。4 双向双向预测图像像B的的压缩编码算法算法 双向预测图像双向预测图像B的压缩编码框图如图的压缩编码框图如图5-12所示。具体计算所示。具体计算方法与预测图像方法与预测图像P的算法类似。的算法类似。 图图5-12 双向预测图像双向预测图像B的压缩编码算法框图的压缩编码算法框图 5 电视图像的像的结构构 MPEG编码器算法允器算法允许选择I图像的像的频率和位置。率和位置。I图像的像的频率是指每秒率是指每秒钟出出现I图像的次数,位置是指像的次数,位置是指时间方方向上向上帧所在的位置。一般情况下,所在的位置。一般情况下,I图像的像的频率率为2。MPEG编码器也
55、允器也允许在一在一对I图像或者像或者P图像之像之间选择B图像的数目。像的数目。I图像、像、P图像和像和B图像数目的像数目的选择依据主要是依据主要是根据根据节目的内容。例如,目的内容。例如,对于快速运于快速运动的的图像,像,I图像的像的频率可以率可以选择高一些,高一些,B图像的数目可以像的数目可以选择少一点;少一点;对于慢速运于慢速运动的的图像像I图像的像的频率可以低一点,而率可以低一点,而B图像的数像的数目可以目可以选择多一点。此外,在多一点。此外,在实际应用中用中还要考要考虑媒体的媒体的速率。速率。 一个典型的一个典型的I、P、B图像安排如图图像安排如图513所示。编码参所示。编码参数为:帧
56、内图像数为:帧内图像I的距离为的距离为N=15,预测图像预测图像(P)的距离为的距离为M=3。 图图513 MPEG电视帧编排电视帧编排 I、P和B图像压缩后的大小如表10-02所示,单位为比特。从表中可以看到,I帧图像的数据量最大,而B帧图像的数据量最小。 MPEG三种图像的压缩后的典型值三种图像的压缩后的典型值(比特比特) 图像类型IPB平均数据/帧MPEG-1 CIF 格式(1.15 Mb/s)150 00050 00020 00038 000MPEG-2 601 格式(4.00 Mb/s)400 000200 00080 000130 0005.4 MPEG-4电视图像编码电视图像编码
57、 MPEG Video MPEG Video专家家组建立了一个用来开建立了一个用来开发图像和像和电视图像像编码技技术的模型,叫做的模型,叫做“试验模型模型( (Test Model)”Test Model)”或者叫做或者叫做“验证模型模型( (VMVMVerification Model)”Verification Model)”。这个模型描述了一个核心的个模型描述了一个核心的编码算法平台,包括算法平台,包括编码器、解器、解码器以及位流器以及位流( (bitstreambitstream) )的的语法和法和语义。本。本节就就电视图像的像的编码和解和解码的基本方法作一个的基本方法作一个简单介介绍
58、,其他内容其他内容请看本章所附的参考文献和站点。看本章所附的参考文献和站点。1 1、 电视图像像对象区的概念象区的概念 MPEG-4 Video MPEG-4 Video编码算法支持由编码算法支持由MPEG-1MPEG-1和和MPEG-2MPEG-2提供的所有功提供的所有功能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。隔行扫描图像源的支持。MPEG-4 VideoMPEG-4 Video算法的核心是支持内容基算法的核心是支持内容基( (content-based)content-based)的编码和解码功能
59、,也就是对场景中使用分割算的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。法抽取的单独的物理对象进行编码和解码。MPEG-4 VideoMPEG-4 Video还提供还提供管理这些电视内容的最基本方法。管理这些电视内容的最基本方法。 为了实现预想的内容基交互等功能,为了实现预想的内容基交互等功能,MPEG-4 Video验证模型验证模型引进了一个叫做引进了一个叫做“电视图像对象区电视图像对象区(Video Object Plane,VOP)”的的概念。如图概念。如图10-11所示,上图表示支持所示,上图表示支持MPEG-1和和MPEG-2的普通的的普通的MPEG
60、-4编码器,下图表示编码器,下图表示MPEG-4的甚低速率电视图像的甚低速率电视图像(Very Low Bitrate Video,VLVB)的核心编码器。的核心编码器。MPEG-4 Video验证模型不像验证模型不像MPEG-1/-2 Video那样把电视图像都认为是一个矩形区,而是假设那样把电视图像都认为是一个矩形区,而是假设每帧图像被分割成许多任意形状的图像区,每个区都有可能覆盖描每帧图像被分割成许多任意形状的图像区,每个区都有可能覆盖描述场景中感兴趣的物理对象或者内容,这种区被定义为图像对象区述场景中感兴趣的物理对象或者内容,这种区被定义为图像对象区VOP。 图513 普通MPEG-4
61、编码器和MPEG-4 VLBV核心编码器 编码器器输入的是任意形状的入的是任意形状的图像区,像区,图像区的形状和位置也可像区的形状和位置也可随随帧的的变化而改化而改变。属于相同物理。属于相同物理对象的象的连续的的电视图像像对象区象区(VOP)(VOP)组成成电视图像像对象象(Video Objects(Video Objects,VO)VO)。例如,一个没有背例如,一个没有背景景图像的正在演像的正在演讲的人,如的人,如图10-1110-11所示。所示。MPEG-4MPEG-4可可单独独对属于相属于相同同电视图像像对象象(VO)(VO)的的电视图像区像区(VOP)(VOP)的形状、移的形状、移动
62、(motion)(motion)和和纹理理(texture)(texture)信息信息进编码和和传送,或者把它送,或者把它们编码成一个成一个单独的独的电视图像像对象象层(Video Object Layer(Video Object Layer,VOL)VOL)。此外,需要此外,需要标识每个每个电视图像像对象象层(VOL)(VOL)的信息也包含在的信息也包含在编码后的位流后的位流( (bitstreambitstream) )中,中,这些信息包括各种些信息包括各种电视图像像对象象层(VOL)(VOL)的的电视图像在接收端像在接收端应该如何如何进行行组合,以便重构完整的原始合,以便重构完整的原始
63、图像序列。像序列。这样就可以就可以对每个每个电视图像像对象区象区(VOP)(VOP)进行行单独解独解码,提供了管理,提供了管理电视图像序列的像序列的灵活性。灵活性。2 2 电视图像像编码方案方案 MPEG-4 VideoMPEG-4 Video验证模型模型对每个每个电视图像像对象象(VO)(VO)的形状、移的形状、移动和和纹理信息理信息进行行编码形成形成单独的独的VOLVOL层,以便能,以便能够单独独对电视图像像对象象(VO)(VO)进行解行解码。如果。如果输入入图像序列只包含像序列只包含标准的矩形准的矩形图像,像,就不需要形状就不需要形状编码,在,在这种情况下,种情况下,MPEG-4 Vid
64、eoMPEG-4 Video使用的使用的编码算算法法结构也就与构也就与MPEG-1MPEG-1和和MPEG-2MPEG-2使用的算法使用的算法结构相同。构相同。 MPEG-4 VideoMPEG-4 Video验证模型模型对每个每个电视图像像对象区象区(VOP)(VOP)进行行编码使用的使用的压缩算法是在算法是在MPEG-1MPEG-1和和MPEG-2 VideoMPEG-2 Video标准的基准的基础上开上开发的,它也是以的,它也是以图像像块为基基础的混合的混合DPCMDPCM和和变换编码技技术(hybrid (hybrid DPCM/Transform coding)DPCM/Transf
65、orm coding)。MPEG-4MPEG-4编码算法也定算法也定义了了帧内内电视图像像对象区象区(Intra-Frame VOP(Intra-Frame VOP,I-VOP)I-VOP)编码方式和方式和帧间电视图像像对象象区区预测(Inter-frame VOP prediction(Inter-frame VOP prediction,简写写为P-VOP)P-VOP)编码方式,方式,它也支持双向它也支持双向预测电视图像像对象区象区(B-directionally predicted (B-directionally predicted VOPVOP,B-VOP)B-VOP)方式。在方式。
66、在对电视图像像对象区象区(VOP)(VOP)的形状的形状编码之后,之后,颜色色图像序列分割成宏像序列分割成宏块进行行编码,如,如图5-145-14所示。所示。图中的中的Y1Y1、Y2Y2、Y3Y3和和Y4Y4表示亮度宏表示亮度宏块,U U、V V分分别表示表示红色差和色差和蓝色差宏色差宏块。图5-13 电视图像序列中的I-VOP和P-VOP编码方式和宏块结构 图5-14 描绘了MPEG-4 Video的编码算法,用来对矩形和任意形状的输入图像序列进行编码。这个基本编码算法结构图包含了移动矢量(motion vector)的编码,以及以离散余弦变换为基础的纹理编码。 图5-14 MPEG-4 V
67、ideo编码器的算法方框图MPEG-4采用内容基编码方法的一个重要优点是,使用合适的和专门的对象基移动预测工具(object-based motion prediction tools)可以明显提高场景中某些电视图像对象的压缩效率。图5-15 表示MPEG-4对电视图像序列进行编码的一个实际例子。左上角的图是背景全景图。右上角的图是一个没有背景的子图像全景图,可以把网球运动员当作是一个电视图像对象(VO),经常把这种可以独立移动的小图像称为子图像(sprite)。下面的图是接收端合成的全景图。在编码之前这个子图像全景图从背景全背景图序列中抽出来,然后分别对它们进行编码、传送和解码,最后再合成。
68、图5-15 MPEG-4电视序列编码举例 3 3 电视图像分辨率可像分辨率可变编码“电视图像分辨率”是指电视图像空间分辨率(spatial resolution)和时间分辨率(temporal resolution)。空间分辨率是指一帧图像包含的行数与每行显示的像素数之乘积,而时间分辨率是指每秒种显示或者传输的图像帧数。设置电视图像分辨率可变编码功能的一个重要目的是为了能够灵活支持性能不同(例如不同带宽)的各种电视接收或显示设备,或者支持要求浏览电视数据库等方面的应用。另一个目的是提供分层次的电视图像数据位流,这样可按应用所要求的先后次序进行传输。MPEG-2也有电视图像分辨率可变编码功能,但
69、它是以图像的帧为基础进行编码。而MPEG-4电视图像分辨率可变编码是以任意形状的电视图像对象区(VOP)为基础进行编码。对那些没有能力或者不愿意接收高分辨率图像的接收器,它可以接收分辨率比较低的电视图像,降低空间分辨率或者时间分辨率意味降低图像的质量。空间分辨率可变性(Spatial Scalability)和时间分辨率可变性(Temporal Scalability)的实现方法类似。图5-15 描述了多种分辨率电视图像编码(multiscale video coding)方案。该方案提供三个层次的编码/解码,每一层都支持在不同空间分辨率下进行编码/解码。从图中可以看到,多种空间分辨率的实现是通过降低输入电视信号的采样率来获得的。图5-15 VOP空间分辨率可变编码方法