数字图像处理技术PPT课件

上传人:cn****1 文档编号:568233103 上传时间:2024-07-23 格式:PPT 页数:207 大小:3.63MB
返回 下载 相关 举报
数字图像处理技术PPT课件_第1页
第1页 / 共207页
数字图像处理技术PPT课件_第2页
第2页 / 共207页
数字图像处理技术PPT课件_第3页
第3页 / 共207页
数字图像处理技术PPT课件_第4页
第4页 / 共207页
数字图像处理技术PPT课件_第5页
第5页 / 共207页
点击查看更多>>
资源描述

《数字图像处理技术PPT课件》由会员分享,可在线阅读,更多相关《数字图像处理技术PPT课件(207页珍藏版)》请在金锄头文库上搜索。

1、上一页上一页下一页下一页返回首页返回首页第三章 数字图像处理技术3.1 信号处理的基本术语3.2 图像数据压缩基础3.3 图像数据压缩算法3.4 常用的图形、图像文件3.5 常用静态图像压缩标准3.6 动态图像压缩标准3.7 H.26x标准上一页上一页下一页下一页返回首页返回首页图像包括静态图像和动态图像,动态图像包括动画和视频信息,是连续渐变的静态图像或图形的序列,沿时间轴顺次更换显示,从而构成运动视感的媒体。本教材指的视频特指不包含声音媒体的动态图像。上一页上一页下一页下一页返回首页返回首页视觉重要?视觉重要?古语百闻不如一见一目了然眼见为实,耳听为虚。人类信息的主要传递手段视觉,听觉,味

2、觉,触觉等视觉占60以上人机交互字符、图形计算机接收信息手段单一(键盘,鼠标)。上一页上一页下一页下一页返回首页返回首页图像(Image)可以看作是对物体或场景的一种表现形式抽象定义:二维函数f (x, y)(x, y):点的空间坐标(实数)f:点(x, y)的幅度(亮度、强度或灰度)英文单词Image:一般指用镜头等科技手段得到的视觉形象Picture:强调手工描绘的人物或景物画Drawings:人工绘制的工程图Lenna3.1信号处理的基本术语上一页上一页下一页下一页返回首页返回首页数字图像数字化:对x,y 和f 进行离散化数字图像(DigitalImage)离散化了的图像数字(离散)化过

3、程采样:坐标离散化量化:函数值的离散化分类(根据f 的性质)灰度图像(特殊:二值图像)彩色图像3.1信号处理的基本术语上一页上一页下一页下一页返回首页返回首页3.1信号处理的基本术语在20世纪之前,对信息的处理方式主要限于模拟方式,其特点是这种信号在时间和幅度上都是连续的。上一页上一页下一页下一页返回首页返回首页时间和幅度上都时间和幅度上都是连续的信号称是连续的信号称为为模拟信号模拟信号n幅度是离散的信号称数字信号。3.1.1采样和量化上一页上一页下一页下一页返回首页返回首页3.1信号处理的基本术语信号的数字化处理包括两个步骤:采样和量化。数字化之后的信号,将全部变为0和1的序列,这就使得信息

4、的采集、存储、传输、复制和加工更方便。上一页上一页下一页下一页返回首页返回首页3.1.1采样和量化多媒体计算机处理图像和视频,首先多媒体计算机处理图像和视频,首先必须把连续的图像函数必须把连续的图像函数f (x,y) 进行空间和进行空间和幅值的离散化处理,空间连续坐标幅值的离散化处理,空间连续坐标(x,y)的的离散化,叫做采样;离散化,叫做采样;f(x,y)颜色的离散化,颜色的离散化,称之为量化。两种离散化结合在一起,叫称之为量化。两种离散化结合在一起,叫做数字化,离散化的结果称为数字图像。做数字化,离散化的结果称为数字图像。上一页上一页下一页下一页返回首页返回首页YXf(x,y)XY的离散化

5、称为采样f(x,y)的离散化称为量化上一页上一页下一页下一页返回首页返回首页3.1.1采样和量化采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔在模拟信号上逐点采取其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的。量化是对幅值较小离散化,即将振动幅值用二进制化电平来表示,量化电平按级数变化,实际的幅度值是连续的物理量。上一页上一页下一页下一页返回首页返回首页3.1.1采样和量化上一页上一页下一页下一页返回首页返回首页3.1.1采样和量化采样间隔过长,一般采样频率越高,采样点就密集,所得的离散信号就越逼近于原信号,但过高的采样频率并不可取,对固定长度T的信号,采样越密集,会增加不必要的设

6、计工作量和存储空间。上一页上一页下一页下一页返回首页返回首页根据奈奎斯特理论(Nyqust theory):如果采样频率不低于信号最高频率的两倍,就能把以数字表达的声音还原成原来的声音。对于话音信号,最高频率为3400Hz,采样频率为8000Hz,能以数字声音还原原来的声音对于一般音频信号,最高频率为20kHz,采样频率为40kHz以上时,就能无失真地还原出原来的声音。采样频率越高,得到的数据占用的存储空间越大。3.1.2采样长度的选择与频率分辨率上一页上一页下一页下一页返回首页返回首页用以表示量化级别的二进制数据的位数,称为采样精度(Sampling precision),也叫样本位数或位深

7、度,用每个样本的位数(bit或b)表示。 位数越少,声音质量越低,需要存储空间越少。采样频率和采样精度是数字声音质量的两项重要指标。3.1.2采样长度的选择与频率分辨率上一页上一页下一页下一页返回首页返回首页数据量Byte=采样频率Hz(采样位数/8)声道数时间s数字音频文件大小的计算公式数字音频文件大小的计算公式3.1.2采样长度的选择与频率分辨率上一页上一页下一页下一页返回首页返回首页如果采样频率为44.1kHz,分辨率为16位,立体声,录音时间为10s,符合CD音质的声音文件的大小是多少?根据计算公式:数据量Byte=44100Hz(16/8)210s=1764KByte举举 例例3.1

8、.2采样长度的选择与频率分辨率上一页上一页下一页下一页返回首页返回首页质量质量采样频采样频率率(kHzkHz)样本精样本精度度(b/sb/s)声道声道数据率数据率(kb/skb/s)频率范围频率范围(HzHz)电话电话8 88 8单声道单声道64.064.020020034003400AMAM11.02511.0258 8单声道单声道88.288.2505070007000FMFM22.05022.0501616立体声立体声705.6705.6202015 00015 000CDCD44.144.11616立体声立体声1411.21411.2202020 00020 000DATDAT4848

9、1616立体声立体声1536.01536.0202020 00020 000数据率(数据率(b/sb/s)= =采样频率(采样频率(HzHz)* *样本精度(样本精度(bitbit)* *声道数声道数不同质量的声音的性能指标不同质量的声音的性能指标3.1.2采样长度的选择与频率分辨率上一页上一页下一页下一页返回首页返回首页采样长度就是采样时间的长短,首先要保证能反映信号的全貌,对瞬态信号应包含整个瞬态过程,对周期信号,理论上采集一个周期信号就可以了。信号采样要有足够的长度,不但是为了保证信号的完整,而且是为了保证有较好的频率分辨率。设分析频率为fc,谱线数为n,则频率分辨率为3.1.2采样长度

10、的选择与频率分辨率上一页上一页下一页下一页返回首页返回首页3.1.2采样长度的选择与频率分辨率采样频率与长度成反比。采样长度越长,频率就越小,即分辨率越高。在信号分析中,采样点数N一般选为2m,使用较多的是512、1024、2048、4096。上一页上一页下一页下一页返回首页返回首页u任何函数,即使是非周期的,只要其曲线所包含的面积是有限的,均可以表示成一个加权函数和正弦/余弦函数乘积的积分。uFastFT(FFT)(1950s)u二维离散傅里叶变换3.1.3 DFT和IDFT的定义上一页上一页下一页下一页返回首页返回首页色彩的空间表达在一个典型的多媒体计算机系统中,在一个典型的多媒体计算机系

11、统中,常常涉及到用几种不同的色彩空间表示常常涉及到用几种不同的色彩空间表示图形和图像的颜色,以对应于不同的场图形和图像的颜色,以对应于不同的场合和应用。合和应用。因此,数字图像的生成、存贮、处理因此,数字图像的生成、存贮、处理及显示时对应不同的色彩空间需要作不及显示时对应不同的色彩空间需要作不同的处理和转换。同的处理和转换。 上一页上一页下一页下一页返回首页返回首页色彩的空间表达黑白色彩模型黑白色彩模型灰度色彩模型灰度色彩模型RGB色彩模型色彩模型HSB色彩模型色彩模型CMYK色彩模型色彩模型YUV色彩模型色彩模型Lab色彩模型色彩模型上一页上一页下一页下一页返回首页返回首页黑白模型黑白模型:

12、图像只包含黑白两种颜色信息,一个像素点只需要一个二进制位来记录,占用存储空间较少。上一页上一页下一页下一页返回首页返回首页灰度模型灰度模型:图像除了包含黑白两种颜色外,还包含黑与白之间不同深度的灰色,这样一个像素就要用多个二进制位来记录,如用8个二进制位记录一个像素的颜色信息,则可产生256种不同的灰度;上一页上一页下一页下一页返回首页返回首页灰度模型上一页上一页下一页下一页返回首页返回首页RGB颜色模型计算机色彩显示器显示色彩的原理与彩色电视计算机色彩显示器显示色彩的原理与彩色电视机一样,都是采用机一样,都是采用R R、G G、B B相加混色的原理,相加混色的原理,通过发射出三种不同强度的电

13、子束,使屏幕内通过发射出三种不同强度的电子束,使屏幕内侧覆盖的红、绿、蓝磷光材料发光而产生色彩侧覆盖的红、绿、蓝磷光材料发光而产生色彩的。这种色彩的表示方法称为的。这种色彩的表示方法称为RGBRGB色彩空间表色彩空间表示。在多媒体计算机技术中,用的最多的是示。在多媒体计算机技术中,用的最多的是RGBRGB色彩空间表示。色彩空间表示。 上一页上一页下一页下一页返回首页返回首页RGB颜色模型R:200G:50B:120黄(255,255,0)黑(0,0,0)绿(0,255,0)青(0,255,255)蓝(0,0,255)品红(255,0,255)白(255,255,255)红(255,0,0)上一

14、页上一页下一页下一页返回首页返回首页色彩的混合与互补 自然界的所有颜色都可以通过这三基色按不同比例混合而成。上一页上一页下一页下一页返回首页返回首页 色彩可用亮度、色调和饱和度来描述,色彩可用亮度、色调和饱和度来描述,色彩可用亮度、色调和饱和度来描述,色彩可用亮度、色调和饱和度来描述,常称为色彩三要素。人眼看到的任一彩色光常称为色彩三要素。人眼看到的任一彩色光常称为色彩三要素。人眼看到的任一彩色光常称为色彩三要素。人眼看到的任一彩色光都是这三个特征的综合效果。那么亮度、色都是这三个特征的综合效果。那么亮度、色都是这三个特征的综合效果。那么亮度、色都是这三个特征的综合效果。那么亮度、色调和饱和度

15、分别指的是什么呢?调和饱和度分别指的是什么呢?调和饱和度分别指的是什么呢?调和饱和度分别指的是什么呢? 亮度是光作用于人眼时所引起的明亮程亮度是光作用于人眼时所引起的明亮程亮度是光作用于人眼时所引起的明亮程亮度是光作用于人眼时所引起的明亮程度的感觉,它与被观察物体的发光强度有关。度的感觉,它与被观察物体的发光强度有关。度的感觉,它与被观察物体的发光强度有关。度的感觉,它与被观察物体的发光强度有关。3.2图像数据压缩基础上一页上一页下一页下一页返回首页返回首页亮度(brightness)同一物体因受光不同会产生明度上的变化上一页上一页下一页下一页返回首页返回首页色彩基本常识色彩基本常识 饱和度指

16、的是颜色的纯度,即掺入白饱和度指的是颜色的纯度,即掺入白光的程度,或者说是指颜色的深浅程度。光的程度,或者说是指颜色的深浅程度。对于同一色调的彩色光,饱和度越深颜色对于同一色调的彩色光,饱和度越深颜色越鲜明或说越纯。通常把色调和饱和度通越鲜明或说越纯。通常把色调和饱和度通称为色度。称为色度。 3.2图像数据压缩基础上一页上一页下一页下一页返回首页返回首页饱和度(saturation)对于同一色调的彩色光,饱和度越深,颜色越鲜明或说越纯,相反则越淡饱和度越高,色彩越艳丽、越鲜明突出,饱和度越高,色彩越艳丽、越鲜明突出,越能发挥其色彩的固有特性。但饱和度高越能发挥其色彩的固有特性。但饱和度高的色彩

17、容易让人感到单调刺眼。饱和度低,的色彩容易让人感到单调刺眼。饱和度低,色感比较柔和协调,可混色太杂则容易让色感比较柔和协调,可混色太杂则容易让人感觉浑浊,色调显得灰暗。人感觉浑浊,色调显得灰暗。 上一页上一页下一页下一页返回首页返回首页3.2图像数据压缩基础 色调是当人眼看到一种或多色调是当人眼看到一种或多种波长的光时所产生的彩色感觉,种波长的光时所产生的彩色感觉,它反映颜色的种类,是决定颜色它反映颜色的种类,是决定颜色的基本特性,如红色、棕色就是的基本特性,如红色、棕色就是指色调。指色调。上一页上一页下一页下一页返回首页返回首页RGB颜色模型RGBRGB色彩空间采用物理三基色表示,因而色彩空

18、间采用物理三基色表示,因而物理意义很清楚,适合彩色显象管工作。物理意义很清楚,适合彩色显象管工作。然而这一体制并不适应人的视觉特点。然而这一体制并不适应人的视觉特点。因而,产生了其它不同的色彩空间表示法。因而,产生了其它不同的色彩空间表示法。 上一页上一页下一页下一页返回首页返回首页RGB颜色模型RGBRGB色彩空间采用物理三基色表示,因而色彩空间采用物理三基色表示,因而物理意义很清楚,适合彩色显象管工作。物理意义很清楚,适合彩色显象管工作。每个像素点的图像深度的分配还与图像所每个像素点的图像深度的分配还与图像所用的色彩空间有关。以最常用的用的色彩空间有关。以最常用的RGBRGB色彩色彩空间为

19、例,图像深度与色彩的映射关系主空间为例,图像深度与色彩的映射关系主要有真彩色、伪彩色、调配色。要有真彩色、伪彩色、调配色。上一页上一页下一页下一页返回首页返回首页RGB颜色模型真彩色:真彩色是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定基色的强度,这样产生的色彩称为真彩色。上一页上一页下一页下一页返回首页返回首页伪彩色:每个像素值实际上是一个索引值或代码,该代码值作色色彩查拉表(ColorLook-UpTable)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。用这种发生产生的色彩本身是真的,不过它不一定反映原图的色彩。上一页上一页下一页下一页返回首

20、页返回首页伪彩色一般用于65K以下是显示方式中,标准的调色板是在256K色谱中按色调均匀地选取16种或256种色彩。一般应用中,有的图像往往偏向于某一种或几种色调,此时如果采用标准调色板,则色彩失真较多。因此同一幅图像采用不同的调色板显示,可能出现不同的色彩效果。上一页上一页下一页下一页返回首页返回首页索引颜色图像是单通道图像(8位像素),使用256种颜色。当转换为索引颜色时,Photoshop会构建一个颜色查照表,如图所示,它存放并索引图像中的颜色。如果原图像中的一种颜色没有出现在查照表中,程序会选取已有颜色中最相近的颜色或使用已有颜色模拟该种颜色。因此索引颜色可以大大减小文件大小,同时保持

21、视觉上的品质不变。这个性质对多媒体动画或网页制作很有用。但在这种模式中只提供有限的编辑。如果要进一步编辑,应临时转换为RGB模式。索引颜色模式的图像上一页上一页下一页下一页返回首页返回首页调配色:获取每个像素点的R、G、B分量分别作为单独的索引值进行变换,经相应的色彩变换表找出各自的基色深度,用变换后的R、G、B强度值产生的色彩。上一页上一页下一页下一页返回首页返回首页三个之间的异同点调配色与伪彩色相比调配色与真彩色相比上一页上一页下一页下一页返回首页返回首页上一页上一页下一页下一页返回首页返回首页显示深度与图像深度之间的关系显示深度大于图像深度显示深度等于图像深度显示深度小于图像深度上一页上

22、一页下一页下一页返回首页返回首页3.2.2彩色空间及其变换1、RGB颜色模式上一页上一页下一页下一页返回首页返回首页Lab颜色是由RGB三基色转换而来的,它是由RGB模式转换为HSB模式和CMYK模式的桥梁。该颜色模式由一个发光率(Luminance)和两个颜色(a,b)轴组成。它由颜色轴所构成的平面上的环形线来表示颜色的变化,其中径向表示色饱和度的变化,自内向外,饱和度逐渐增高;圆周方向表示色调的变化,每个圆周形成一个色环;而不同的发光率表示不同的亮度并对应不同环形颜色变化线。它是一种具有“独立于设备”的颜色模式,即不论使用任何一种监视器或者打印机,Lab的颜色不变。2、Lab模型模型上一页

23、上一页下一页下一页返回首页返回首页Lab颜色模式的图像上一页上一页下一页下一页返回首页返回首页2、Lab模型模型上一页上一页下一页下一页返回首页返回首页3、HSB颜色模型HSB色彩空间是从人的视觉系统出发,用色调、色饱和度和亮度来描述色彩。1)色调Hue:光线所呈现的颜色,如红、绿、黄2)饱和度Saturation:指色彩的浓淡程度3)亮度Brightness:指由于彩色刺激而使人眼感觉到的明暗程度上一页上一页下一页下一页返回首页返回首页3、HSB颜色模式它是由RGB三基色转换为Lab模式,再在Lab模式的基础上考虑了人对颜色的心理感受这一因素而转换成的。因此这种颜色模式比较符合人的视觉感受,

24、让人觉得更加直观一些。它可由底与底对接的两个圆锥体立体模型来表示,其中轴向表示亮度,自上而下由白变黑;径向表示色饱和度,自内向外逐渐变高;而圆周方向,则表示色调的变化,形成色环。上一页上一页下一页下一页返回首页返回首页HSB颜色模型颜色模型上一页上一页下一页下一页返回首页返回首页HSB颜色模型颜色模型上一页上一页下一页下一页返回首页返回首页HSB颜色模型颜色模型HSBHSB色彩空间和色彩空间和RGBRGB色彩空间只是同一物理色彩空间只是同一物理量的不同表示法,因而它们之间存在着转量的不同表示法,因而它们之间存在着转换关系,如公式所示:换关系,如公式所示:其中其中上一页上一页下一页下一页返回首页

25、返回首页HSB颜色模型颜色模型人的视觉系统经常采用人的视觉系统经常采用HSBHSB色彩空间,它比色彩空间,它比RGBRGB色彩空间更符合人的视觉特性。色彩空间更符合人的视觉特性。在图像处理和计算机视觉中大量算法都可在在图像处理和计算机视觉中大量算法都可在HSBHSB色彩空间中方便地使用,它们可以分开处理色彩空间中方便地使用,它们可以分开处理而且是相互独立的。因此,在而且是相互独立的。因此,在HSBHSB色彩空间可以色彩空间可以大大简化图像分析和处理的工作量。大大简化图像分析和处理的工作量。上一页上一页下一页下一页返回首页返回首页4、CMYK颜色模型颜色模型在理论上说,任何一种颜色都可以用青色(

26、Cyan)、品红(Magenta)和黄色(Yellow)三种基本颜料按一定比例混合得到,通常写成CMY,称为CMY模型由于彩色墨水和颜料的化学特性,用等量的三种基本颜色得到的黑色不是真正的黑色,因此在印刷术中常加一种真正的黑色(Blackink)上一页上一页下一页下一页返回首页返回首页CMYK颜色模型颜色模型彩色打印机、印刷彩色图片实际应用中,一幅图像在计算机中用RGB模型显示;用RGB或HSB模型编辑处理;打印输出时要转换成CMYK模型;上一页上一页下一页下一页返回首页返回首页YUV模型模型彩色电视信号传输时,将R,G,B改成亮度信号和色度信号。PAL制式将RGB三色信号改组成Y、U、V信号

27、,其中Y信号表示亮度,U、V信号是色差信号采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V分量,那么这样表示的图就是黑白灰度图。彩色电视采用YUV空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色信号。上一页上一页下一页下一页返回首页返回首页CMYK颜色模式的图像上一页上一页下一页下一页返回首页返回首页YUV模型模型YUV色彩空间与RGB色彩空间的转换关系如下:如果要由YUV空间转化成RGB空间,只要进行相反的逆运算即可。上一页上一页下一页下一页返回首页返回首页总结为了科学地定量描述和使用颜色,人们提出了各种

28、颜色模型。目前常用的颜色模型按用途可分为三类:一类面向诸如视频监视器、彩色摄像机之类的硬件设备;面向硬件设备的最常用彩色模型是RGB模型;一类面向以彩色处理为目的的应用,如动画中的彩色图形,面向彩色处理的最常用模型是HSB模型;此外,在印刷工业上和电视信号传输中,经常使用CMYK和YUV色彩系统;上一页上一页下一页下一页返回首页返回首页3.2图像数据压缩的可能性图像数据压缩的主要依据图像数据压缩的主要依据 有两个:一是图像数据中有许多重复的数据,使有两个:一是图像数据中有许多重复的数据,使用数学方法来表示这些重复数据就可以减少数据量;用数学方法来表示这些重复数据就可以减少数据量;另一个依据是人

29、眼睛对图像细节和颜色的辨认有一另一个依据是人眼睛对图像细节和颜色的辨认有一个极限,把超过极限的部分去掉,这也就达到了数个极限,把超过极限的部分去掉,这也就达到了数据压缩的目的。据压缩的目的。有损压缩技术和无损压缩技术有损压缩技术和无损压缩技术 基于数据冗余的压缩技术是无损压缩技术,而基基于数据冗余的压缩技术是无损压缩技术,而基于人眼视觉特性的压缩技术是有损压缩技术。实际于人眼视觉特性的压缩技术是有损压缩技术。实际上,图像压缩技术是各种有损和无损压缩技术的综上,图像压缩技术是各种有损和无损压缩技术的综合实现。合实现。上一页上一页下一页下一页返回首页返回首页3.2图像数据压缩的可能性1.统计冗余这

30、是序列图像(电视图像、运动图像)表示中经常包含的冗余。图像序列中两幅相邻的图像有较大的相关,这反映为时间冗余。上一页上一页下一页下一页返回首页返回首页 1)空间冗余)空间冗余 例例: 图像中的图像中的“A”是一个规则物是一个规则物体。光的亮度、饱和度及颜色都一样,体。光的亮度、饱和度及颜色都一样,因此,数据因此,数据A有很大的冗余。有很大的冗余。3.2图像数据压缩的可能性A上一页上一页下一页下一页返回首页返回首页2 2)时间冗余)时间冗余)时间冗余)时间冗余以下面的视频连续画面为例,它的每一帧画面是由若干个像素组成的,因为动态图像通常反映的是一个连续的过程,它的相邻的帧之间存在着很大的相关性,

31、从一幅画面到下一幅画面,背景与前景就可以没有太多的变化。也就是说,连续多帧画面在很大程度上是相似的,而这些相似的信息(或称作冗余信息)为数据的压缩提供了基础。3.2图像数据压缩的可能性上一页上一页下一页下一页返回首页返回首页3.2图像数据压缩的可能性上一页上一页下一页下一页返回首页返回首页3.2图像数据压缩的可能性2.信息熵冗余信息熵一般定义会一组数据所表示的信息量。例如26个英文字母出现频率不一样。汉字出现频率也很不一样。上一页上一页下一页下一页返回首页返回首页 l信息量:指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。 l信息熵:指一团数据所带的信息量,平均信息量就是信息熵(e

32、ntropy)。例如:从64个数中选出某一个数,可先问“是否大于32?”消除半数的可能,这样只要6次就可选出某数。这是因为每提问一次都会得到1比特的信息量。因此,在64个数中选定某一数所需的信息量是log264=6(bits)。设从N个数中选任意一个数X的概率为P(x),假定选定任意一个数的概率都相等,P(x)=1/N,因此定义信息量:I(x)=log2N=-log2(1/N)=-log2P(x)=IP(x)3.2图像数据压缩的可能性上一页上一页下一页下一页返回首页返回首页3.结构冗余v图象有非常强的纹理结构。v如草席图结构上存在冗余。3.2图像数据压缩的可能性上一页上一页下一页下一页返回首页

33、返回首页4.知识冗余q图像的理解与某些基础知识有关。q例:人脸的图像有同样的结构:嘴的上方有鼻子,鼻子上方有眼睛,鼻子在中线上有些图像的理解与某些知识有相当大的相关性。例如:狗的图像有固定的结构,比如,狗有四条腿,头部有眼、鼻、耳朵,有尾巴等。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。3.2图像数据压缩的可能性上一页上一页下一页下一页返回首页返回首页5.视觉冗余 视觉冗余是非均匀、非线性的。 人类视觉系统的一般分辨能力估计为26灰度等级,而一般图像的量化采用的是28的灰度等级。像这样的冗余,我们称之为视觉冗余。上一页上一页下一页下一页返回首页返回首页3.3图像数据数

34、据压缩算法数据压缩方法无损压缩:无损压缩:利用数据的统计冗余进行压缩,可完全恢复原始数利用数据的统计冗余进行压缩,可完全恢复原始数据而不引入任何失真,但压缩率受到统计冗余度理据而不引入任何失真,但压缩率受到统计冗余度理论限制,一般为论限制,一般为2:1到到5:1。多媒体应用中经常使用的无损压缩方法主要是基于多媒体应用中经常使用的无损压缩方法主要是基于统计的编码方案,如游程编码统计的编码方案,如游程编码(run length)、Huffman编码、算术编码和编码、算术编码和LZW编码等等。编码等等。常用工具:常用工具:WinRar、WinZip、ARC等等 上一页上一页下一页下一页返回首页返回首

35、页数据压缩方法有损压缩:有损压缩:利用了人类视觉和听觉器官对图像或声音中的某些频利用了人类视觉和听觉器官对图像或声音中的某些频率成分不敏感的特性,允许在压缩过程中损失一定的率成分不敏感的特性,允许在压缩过程中损失一定的信息;虽然不能完全恢复原始数据,但是所损失的部信息;虽然不能完全恢复原始数据,但是所损失的部分对理解原始图像或声音的影响较小,却换来了大得分对理解原始图像或声音的影响较小,却换来了大得多的压缩比。有损压缩广泛应用于语音、图像和视频多的压缩比。有损压缩广泛应用于语音、图像和视频数据的压缩。数据的压缩。常用的有损压缩方法有:常用的有损压缩方法有:PCM(脉冲编码调制脉冲编码调制)、预

36、、预测编码、变换编码测编码、变换编码(主要是离散余弦变换方法主要是离散余弦变换方法)、插值、插值和外推法和外推法(空域亚采样、时域亚采样、自适应空域亚采样、时域亚采样、自适应)等等。等等。常用工具:常用工具:JPEG、MPEG等等 3.3图像数据数据压缩算法上一页上一页下一页下一页返回首页返回首页衡量一种数据压缩技术的好坏有三个指标压缩比压缩比 对压缩前后的文件大小和数据量进行比较,作为压缩率的衡量指标。人们普遍希望压缩的倍数越高越好,压缩的速度越快越好,并且希望压缩所耗费的资源、时间对用户来讲是透明的。但同时人们又希望确保数据压缩的精度,即压缩完了以后,解压缩的数据和原来的数据最好没有什么差

37、别,没有什么数据损失。然而追求压缩比率和追求精度往往是矛盾的,因此就需要在这两者之间权衡取舍。 3.3图像数据数据压缩算法上一页上一页下一页下一页返回首页返回首页图像质量或音质图像质量或音质 虽然有损压缩可获得较大的压缩比,但压缩比过高,还原后的图像质量就可能降低。图像质量的评估法常采用客观评估和主观评估两种方法。客观评估则是通过一种具体的算法来统计多媒体数据压缩结果的损失。例如采用纯误差测度,即原始图像与恢复图像之间的简单数学统计差别。尽管这种方法将误差量化表达,但并不能反映观察者对误差的视觉感知。主观评估基于人的视觉感知,因为观察者作为最终视觉信宿,他们能对恢复图像的质量作出直观的判断。方

38、法之一是进行主观测试,让观察者通过观测一系列恢复图像,并与原图像进行比较,再根据损伤的可见程度进行评级,以判断哪种压缩方法的失真少3.3图像数据数据压缩算法上一页上一页下一页下一页返回首页返回首页算法的复杂性和运算速度算法的复杂性和运算速度 压缩和解压缩的速度是压缩系统的两项单独的性能度量。在有些应用中,压缩和解压缩都需要实时进行,如电视会议的图像传输。在有些应用中,压缩可以用非实时压缩,而只要解压缩是实时的,这种压缩称为非对称压缩,如多媒体CD-ROM的节目制作。压缩的速度不仅与采用的压缩方法有关,而且与快速算法的计算量有关,如果在算法上有较大的突破,无疑将对多媒体的开发与应用产生很大的影响

39、。3.3图像数据数据压缩算法上一页上一页下一页下一页返回首页返回首页信息熵编码也称为统计编码,是利用信息源出现的概率来进行编码,目前比较常见的信息熵编码包括行程长度编码、哈夫曼编码、算术统计编码等。3.3.1信息熵编码上一页上一页下一页下一页返回首页返回首页3.3.1信息熵编码1.行程长度编码 是一个针对包含有顺序排列的多次重复的数据的压缩方案。其原理就是把一系列的重复值用一个单独的值再加上一个计数值来取代,行程长度就是连续且重复的单元数目。如果想得到原始数据,只需展开这个编码就可以了。上一页上一页下一页下一页返回首页返回首页3.3.1信息熵编码例如,计算机制作图像中,常常具有许多颜色相同的图

40、块,而且在行上都具有相同的颜色,或者在一行上有许多连续的像素都具有相同的颜色值。这时,就不需要存储每一个像素的颜色值,而仅存储一个像素的颜色值以及具有相同颜色的像素数目就可以,或者存储一个像素的颜色值,以及具有相同颜色值的行数,这种压缩编码称为行程编码。具有相同颜色的连续的像素数目称为行程长度。上一页上一页下一页下一页返回首页返回首页如图所示,假定一幅灰度图像,第如图所示,假定一幅灰度图像,第n行的像素值为:行的像素值为: 用用RLE编码方法得到的代码为:编码方法得到的代码为:3150841160。代。代码斜黑体表示的数字是行程长度,黑体字后面的码斜黑体表示的数字是行程长度,黑体字后面的数字代

41、表像素的颜色值。例如黑体字数字代表像素的颜色值。例如黑体字50代表有连代表有连续续50个像素具有相同的颜色值,它的颜色值是个像素具有相同的颜色值,它的颜色值是8。3.3.1信息熵编码上一页上一页下一页下一页返回首页返回首页3.3.1信息熵编码2.哈夫曼编码哈夫曼编码 基本原理基本原理 依据信源字符出现的概率大小来构造代码,对依据信源字符出现的概率大小来构造代码,对出现概率较大的信源字符,给予较短码长,而对于出现概率较大的信源字符,给予较短码长,而对于出现概率较小的信源字符,给予较长的码长,最后出现概率较小的信源字符,给予较长的码长,最后使得编码的平均码字最短。使得编码的平均码字最短。 上一页上

42、一页下一页下一页返回首页返回首页3.3.1信息熵编码具体的编码步骤如下:(1)将信源符号出现的概率按由大到小的顺序排序。)将信源符号出现的概率按由大到小的顺序排序。 (2)将两处最小的概率进行组合相加,形成一个新的概率。)将两处最小的概率进行组合相加,形成一个新的概率。(3)将新出现的概率与未编码的字符一起重新排序。)将新出现的概率与未编码的字符一起重新排序。 (4)重复步骤()重复步骤(2)、()、(3),直到出现的概率和为),直到出现的概率和为1。 (5)分配代码。代码分配从最后一步开始反向进行,对最)分配代码。代码分配从最后一步开始反向进行,对最后两个概率一个赋予后两个概率一个赋予0代码

43、,一个赋予代码,一个赋予1代码。如此反向进行代码。如此反向进行到开始的概率排列。在此过程中,若概率不变则采用原代码。到开始的概率排列。在此过程中,若概率不变则采用原代码。 上一页上一页下一页下一页返回首页返回首页3.3.1信息熵编码例:设输入图像的灰度级a1,a2,a3,a4,a5,a6出现的概率分别是0.4、0.2、0.12、0.15、0.1、0.03。试进行哈夫曼编码,并计算编码效率、压缩比、冗余度。最终编码结果为:最终编码结果为:a1 =1, a2 =000 , a1 =1, a2 =000 , a3 =011, a4 =001, a3 =011, a4 =001, a5 =0100,

44、a6 =0101 a5 =0100, a6 =0101上一页上一页下一页下一页返回首页返回首页a1 0.20 01a2 0.19 00a3 0.18 111a4 0.17 110a5 0.15 101a6 0.10 1001a7 0.01 1000 10111000.3900.3510.2600.1100.6113.3.1信息熵编码上一页上一页下一页下一页返回首页返回首页3.3.1信息熵编码采用哈夫曼编码时有两个问题值得注意:采用哈夫曼编码时有两个问题值得注意:(1)它必须精确地计算出原始文件中每个值的出现频率,否则压缩的效果就会大打折扣,甚至根本就达不到压缩的效果。(2)对于位的增删比较敏感

45、,这是由于哈夫曼编码的所有位都是合在一起而不考虑字节分位的,因此增加一位或减少一位都会使译码变得结果面目全非。上一页上一页下一页下一页返回首页返回首页3.算术编码方法是将被编码的信息表示成实数0和1之间的一个间隔。信息越长编码表示它的间隙就越小,表示这一间隙所需二进制位就越多,大概率符号出现的概率越大对应于区间愈宽,可用长度较短的码字表示;小概率符号出现概率越小区间愈窄,需要较长码字表示。信息源中连续的符号根据某一模式生成概率的大小来减少间隔。可能出现的符号要比不太可能出现的符号减少范围少,因此只增加了较少的比特位。3.3.1信息熵编码上一页上一页下一页下一页返回首页返回首页算术编码对整条信息

46、(无论信息有多么长),其输出仅仅是一个数,而且是一个介于0和1之间的二进制小数。例如算术编码对某条信息的输出为1010001111,那么它表示小数0.1010001111,也即十进制数0.64。3.3.1信息熵编码上一页上一页下一页下一页返回首页返回首页例:假设信源符号为00,01,10,11,这些符号的概率分别为0.1,0.4,0.2,0.3,根据这些概率可把间隔0,1分成4个子间隔:0,0.1),0.1,0.5),0.5,0.7),0.7,1),其中x,y)表示半开放间隔,即包含x不包含y,如表所示。3.3.1信息熵编码符号00011011概率0.10.40.20.3初始编码间隔0,0.1

47、)0.1,0.5)0.5,0.7)0.7,1)上一页上一页下一页下一页返回首页返回首页编码时,设置两个专用寄存器(C,A)初始时:令C寄存器的值为子区域的起始位置A寄存器的值为子区域的宽度(该宽度恰好是已输入符号串的概率)3.3.1信息熵编码上一页上一页下一页下一页返回首页返回首页初始化时,令C=0,A=1,当新的符号到来时,C中的值变为C+AL,A中值变为A(H-L)L和H为分别为编码字符的初始编码区间的低端值和高端值。3.3.1信息熵编码上一页上一页下一页下一页返回首页返回首页3.3.1信息熵编码如果二进制输入的为10001100101101则(1)第一个符号10,其编码范围0.5,0.7

48、)。因此C=0+10.5=0.5,A=10.2=0.2(2)第二个符00,其编码范围0,0.1)。因此C=0.5+0.20=0.5,A=0.20.1=0.02初始化时,令C=0,A=1,当新的符号到来时,C中的值变为C+AL,A中值变为A(H-L)L和H为分别为编码字符的初始编码区间的低端值和高端值。上一页上一页下一页下一页返回首页返回首页3.3.1信息熵编码如果二进制输入的为10001100101101则(3)第三个符号11,其编码范围0.7,1)。因此C=0.5+0.020.7=0.514,A=0.020.3=0.006(4)第二个符00,其编码范围0,0.1)。因此C=0.514+0.0

49、060=0.514,A=0.0060.1=0.0006初始化时,令C=0,A=1,当新的符号到来时,C中的值变为C+AL,A中值变为A(H-L)L和H为分别为编码字符的初始编码区间的低端值和高端值。上一页上一页下一页下一页返回首页返回首页算术编码的特点:算术编码的特点: (1)不需要码表;(2)当信源概率比较接近时,建议使用算术编码。(3)JPEG成员对多幅图进行算术编码效率可以提高5%。JPEG扩展系统用算术编码代替Huffman。上一页上一页下一页下一页返回首页返回首页1.词典编码属于无损压缩技术,其根据是数据本身包含有重复代码序列这个特性。词典编码的种类较多,归纳起来有两类。第一类词典编

50、码的基本思想是查找正在压缩的字符序列是否在前面输入的数据中出现过,如果是,则用指向早期出现过的字符串的“指针”替代重复的字符串。这种编码思想如图。3.3.2词典编码上一页上一页下一页下一页返回首页返回首页这里所指的“词典”是指用以前处理过的数据来表示编码过程中遇到的重复部分。这类编码中的所有算法都是以AbrahamLempel和JakobZiv在1977年开发和发表的称为LZ77算法为基础的,1982年由Storer和Szymanski改进的称为LZSS算法。3.3.2词典编码上一页上一页下一页下一页返回首页返回首页第二类算法的思想是从输入的数据中创建一个“短语词典”(dictionaryof

51、thephrases)(这种短语可以是任意字符的组合)。编码数据过程中,遇到已经在词典中出现的“短语”时,编码器就输出这个词典中该短语的“索引号”,而不是短语本身,如图。3.3.2词典编码上一页上一页下一页下一页返回首页返回首页J.Ziv和A.Lempel在1978年首次发表了介绍这种编码方法的文章。在他们研究的基础上,TerryA.Weltch在1984年发表了改进这种编码算法的文章,因此把这种编码方法称为LZW(Lempel-ZivWalch)压缩编码。这种算法首先在高速硬盘控制器上得到了应用。在众多的压缩技术中,LZW算法时一种通用的、性能优良并得到广泛应用的压缩算法。LZW是一种完全可

52、逆的算法,与其他算法比较,往往具有更高的压缩效率,因此被广泛应用于多种流行的压缩软件中。3.3.2词典编码上一页上一页下一页下一页返回首页返回首页LZW算法的压缩过程3.3.2词典编码上一页上一页下一页下一页返回首页返回首页LZW编码LZW是一种比较复杂的压缩算法,压缩效率较高每一个第一次出现的字符串用一个数值来编码,再将这个数值还原为字符串。例如:用数值0x100代替字符串“abccddeee”,每当出现该字符串时,都用0x100代替,从而起到了压缩作用。数值与字符串的对应关系在压缩过程中动态生成并隐含在压缩数据中,在解压缩时逐步得到恢复。LZW是无损的。GIF和Tiff图像都采用了这种压缩

53、算法。要注意的是,LZW算法由Unisys公司在美国申请了专利,要使用它首先要获得该公司的认可上一页上一页下一页下一页返回首页返回首页LZW算法在LZW算法中使用的术语与LZ78使用的相同,仅增加了一个术语前缀根(Root),它是由单个字符串组成的缀-符串(String)。在编码原理上,LZW与LZ78相比有如下差别:LZW只输出代表词典中的缀-符串(String)的码字(codeword)。这就意味在开始时词典不能是空的,它必须包含可能在字符流出现中的所有单个字符,即前缀根(Root)。由于所有可能出现的单个字符都事先包含在词典中,每个编码步骤开始时都使用一字符前缀(one-characte

54、rprefix),因此在词典中搜索的第1个缀-符串有两个字符。上一页上一页下一页下一页返回首页返回首页现将LZW编码算法和译码算法介绍如下。1.编码算法LZW编码是围绕称为词典的转换表来完成的。这张转换表用来存放称为前缀(Prefix)的字符序列,并且为每个表项分配一个码字(Codeword),或者叫做序号,如表所示。上一页上一页下一页下一页返回首页返回首页这张转换表实际上是把8位ASCII字符集进行扩充,增加的符号用来表示在文本或图像中出现的可变长度ASCII字符串。扩充后的代码可用9位、10位、11位、12位甚至更多的位来表示。Welch的论文中用了12位,12位可以有4096个不同的12

55、位代码,这就是说,转换表有4096个表项,其中256个表项用来存放已定义的字符,剩下3840个表项用来存放前缀(Prefix)。表词典上一页上一页下一页下一页返回首页返回首页表词典上一页上一页下一页下一页返回首页返回首页LZW编码器(软件编码器或硬件编码器)就是通过管理这个词典完成输入与输出之间的转换。LZW编码器的输入是字符流(Charstream),字符流可以是用8位ASCII字符组成的字符串,而输出是用n位(例如12位)表示的码字流(Codestream),码字代表单个字符或多个字符组成的字符串。上一页上一页下一页下一页返回首页返回首页LZW编码器使用了一种很实用的分析(parsing)

56、算法,称为贪婪分析算法(greedyparsingalgorithm)。在贪婪分析算法中,每一次分析都要串行地检查来自字符流(Charstream)的字符串,从中分解出已经识别的最长的字符串,也就是已经在词典中出现的最长的前缀(Prefix)。用已知的前缀(Prefix)加上下一个输入字符C也就是当前字符(Currentcharacter)上一页上一页下一页下一页返回首页返回首页作为该前缀的扩展字符,形成新的扩展字符串缀-符串(String):Prefix.C。这个新的缀-符串(String)是否要加到词典中,还要看词典中是否存有和它相同的缀-符串String。如果有,那么这个缀-符串(Str

57、ing)就变成前缀(Prefix),继续输入新的字符,否则就把这个缀-符串(String)写到词典中生成一个新的前缀(Prefix),并给一个代码。上一页上一页下一页下一页返回首页返回首页LZW编码算法的具体执行步骤如下:步骤1:开始时的词典包含所有可能的根(Root),而当前前缀P是空的;步骤2:当前字符(C):=字符流中的下一个字符;步骤3:判断缀-符串P+C是否在词典中(1)如果“是”:P:=P+C/(用C扩展P);(2)如果“否”把代表当前前缀P的码字输出到码字流;把缀-符串P+C添加到词典;令P:=C/(现在的P仅包含一个字符C);步骤4:判断码字流中是否还有码字要译(1)如果“是”

58、,就返回到步骤2;(2)如果“否”把代表当前前缀P的码字输出到码字流;结束。上一页上一页下一页下一页返回首页返回首页LZW编码算法可用伪码表示。开始时假设编码词典包含若干个已经定义的单个码字。例如,256个字符的码字,用伪码可以表示成:Dictionaryjallnsingle-character,j1,2,njn+1PrefixreadfirstCharacterinCharstreamwhile(CnextCharacter)!=NULL)BeginIfPrefix.CisinDictionaryPrefixPrefix.CelseCodestreamcWforPrefixDictiona

59、ryjPrefix.Cjn+1PrefixCendCodestreamcWforPrefix上一页上一页下一页下一页返回首页返回首页3.3.3预测编码预测编码通常,图像中局部区域的像素是高度相关的,因此可以用先前像素的有关灰度知识来对当前像素的灰度进行估计,这就是预测。如果预测是正确的,则不必对每一个像素的灰度都进行压缩,而是把预测值与实际像素值之间的差值经过熵编码后发送到接收端,接收端通过预测值+差值信号来重建原像素。预测编码可分为线性预测编码和非线性预测编码。前者常被称为差分脉冲编码调制(DPCM),其基本原理是基于图像中相邻像素之间的相关性,每个像素可通过与之相关的几个像素来进行预测,如

60、图所示。上一页上一页下一页下一页返回首页返回首页图中x(n)为采样的声音或图像数据,为x(n)的预测值,是实际值和预测值的差值,是d(n)的量化值,是引入量化误差的x(n)。上一页上一页下一页下一页返回首页返回首页预测编码可以获得比较高的编码质量,并且实现起来比较简单,因此被广泛地应用于图像压缩编码系统。但是它的压缩比不高,而且精确的预测有赖于图像特性的大量的先验知识,并且必须进行大量的非线性运算,因此一般不单独使用,而是与其他方法结合起来使用。例如,在JPEG中使用了预测编码技术对DCT直流系数进行编码。上一页上一页下一页下一页返回首页返回首页变换编码的实质(时域空间到频域空间的转换)用一个

61、可逆的、线性的变换(如傅立叶变换),把图像映射到变换系数集合,原本比较分散的图像数据在新的坐标空间中得到集中,然后对该系数集合进行量化和编码。3.3.4变换编码变换编码上一页上一页下一页下一页返回首页返回首页变换编码例如,将原始图像进行离散余弦变换(DCT)后,有用的信息集中到左上方,进行量化就可以大大压缩数据量52 55 61 66 70 61 64 7363 59 66 90 109 85 69 7262 59 68 113 144 104 66 7363 58 71 122 154 106 70 6967 61 68 104 126 88 68 7079 65 60 70 77 68 5

62、8 7585 71 64 59 55 61 65 8387 79 69 68 65 76 78 94-415 -29 -6225 55 -20 -1 3 7 -21 -629 11 -7 -6 6-46 8 77 -25 -30 10 7 -5-50 13 35 -15 -9 6 0 3 11 -8 -13 -2 -1 1 -4 1-10 1 3 -3 -1 0 2 -1-4 -1 2 -1 2 -3 1 -2-1 -1 -1 -2 -1-1 0 -1上一页上一页下一页下一页返回首页返回首页变换编码的性能取决于子图像的大小、正交变换的类型、样本的选择和量化器的设计。上一页上一页下一页下一页返回

63、首页返回首页可以选择的变换K-L变换、离散傅立叶变换(DFT)、离散余弦变换(DCT)、Walsh-Hadamard变换(WHT)、小波变换上一页上一页下一页下一页返回首页返回首页模型编码则是利用计算机视觉和计算机图形学的知识对图像信号进行分析与合成。模型编码采用图像分析和描述的方法,将图像信号看成三维世界中的目标和景物投影到二维平面的产物,对图像的结构和特征进行分析,提取出图像的特征参数,如运动参数、形状参数等,并用某种模型加以描述,通过对模型参数的编码达到图像编码的目的。图像解码时,根据参数和模型先验知识用图像合成技术重建图像。由于编码的对象是特征参数,而不是原始图像,因此有可能实现比较大

64、的压缩比。模型编码引入的误差主要是人眼视觉不太敏感的几何失真,因此重建图像非常自然和逼真。3.3.5模型编码模型编码上一页上一页下一页下一页返回首页返回首页用两种或两种以上的方法对图像进行编码称为混合编码,是今年来广泛采用的一种方法。混合编码通常使用DCT等变换进行空间冗余度的压缩,用帧间预测或运动补偿预测进行时间冗余度的压缩,以达到对运动图像的更高的压缩率。后面要介绍的JPEG和MPEG都属于混合编码。3.3.6混合编码混合编码上一页上一页下一页下一页返回首页返回首页3.4 常用图形、图像文件的格式常用图形、图像文件的格式矢量图和位图矢量图和位图 计算机包含两种类型的图形格式:矢量图(计算机

65、包含两种类型的图形格式:矢量图(Vector Based Image)和位图()和位图(Bit Mapped Image)。)。矢量图矢量图( (图形图形图形图形) ):主要用于工程图、白描图、图例、卡通:主要用于工程图、白描图、图例、卡通:主要用于工程图、白描图、图例、卡通:主要用于工程图、白描图、图例、卡通漫画和三维建模等。由图形应用程序创建漫画和三维建模等。由图形应用程序创建漫画和三维建模等。由图形应用程序创建漫画和三维建模等。由图形应用程序创建, , 在数学上定在数学上定在数学上定在数学上定义为一系列由线连接的点,其内部表示为单个的线条、义为一系列由线连接的点,其内部表示为单个的线条、

66、义为一系列由线连接的点,其内部表示为单个的线条、义为一系列由线连接的点,其内部表示为单个的线条、文字、圆、矩形、多边形等图形元素。每个图元称为对文字、圆、矩形、多边形等图形元素。每个图元称为对文字、圆、矩形、多边形等图形元素。每个图元称为对文字、圆、矩形、多边形等图形元素。每个图元称为对象,可以用一个代数式来表达,并且是一个独立的实体,象,可以用一个代数式来表达,并且是一个独立的实体,象,可以用一个代数式来表达,并且是一个独立的实体,象,可以用一个代数式来表达,并且是一个独立的实体,具有颜色、形状、大小和屏幕位置等属性。具有颜色、形状、大小和屏幕位置等属性。具有颜色、形状、大小和屏幕位置等属性

67、。具有颜色、形状、大小和屏幕位置等属性。上一页上一页下一页下一页返回首页返回首页位图位图( (图像图像): 是直接量化的原始图像信号形式是直接量化的原始图像信号形式,图像的最小单位是像点图像的最小单位是像点, ,用用于表现自然影像。像素点由若干个二进制位进行描述,二进于表现自然影像。像素点由若干个二进制位进行描述,二进制位代表像素点颜色的数量,二进制位与图像之间存在严格制位代表像素点颜色的数量,二进制位与图像之间存在严格的的“ “位映射位映射” ”关系,具有位映射关系的图叫作关系,具有位映射关系的图叫作“ “位图位图” ”。上一页上一页下一页下一页返回首页返回首页位图与矢量图的不同点位图与矢量

68、图的不同点:1)位图的容量容量一般较大,与图的尺寸和颜色有关;矢量图一般较小,与图的复杂程度有关。2)位图的文件内容文件内容是点阵数据;矢量图的文件内容是图形指令。3)位图的显示速度显示速度与图的容量有关;矢量图的显示速度与图的复杂程度有关。4)从应用特点看,位图适于“获取”和“复制”,表现力丰富,但编辑较复杂;矢量图易于编辑,适于“绘制”和“创建”,但表现力受限。上一页上一页下一页下一页返回首页返回首页3.4.1BMP图像文件格式图像文件格式是微软公司为其Windows环境设置的标准图像格式。Windows系统软件中内含了一系列支持BMP图像处理的API函数。非压缩格式是BMP图像文件所采用

69、的一种通用格式。两种压缩方式:如果图像为16色模式,则采用RLE4压缩方式;若图像为256色模式,则采用RLE8压缩方式。可以存储单色、16色、256色以及真彩色4种图像数据。上一页上一页下一页下一页返回首页返回首页组成部分:位图文件头、位图信息、位图阵列位图阵列记录了图像的每一个像素值。在生成图像时,从图像的左下角开始逐行扫描图像,即从左到右、从下到上,将图像的像素值一一记录下来,这些记录像素值的字节组成了位图阵列。上一页上一页下一页下一页返回首页返回首页非压缩格式位图扫描行与位图阵列的关系位图像素值与位图阵列的关系上一页上一页下一页下一页返回首页返回首页压缩格式两种压缩方式:如果图像为16

70、色模式,则采用RLE4压缩方式;若图像为256色模式,则采用RLE8压缩方式。上一页上一页下一页下一页返回首页返回首页3.4.2GIF图像文件格式是最早由CompuServe公司于1987年制定的标准,主要用于网络图形数据的在线传输和存储。GIF提供了足够的信息并很好地组织了这些信息,使得许多不同的输入输出设备能够方便的交换图像。它最多支持8位(256种颜色),图像的大小最多是64K64K个像点。GIF的特点是LZW压缩、多图像和交错屏幕绘图。上一页上一页下一页下一页返回首页返回首页3.4.3PNG图像文件格式是20世纪90年代中期开发的图像文件格式,其目的是企图替代GIF和TIFF文件格式,

71、同时增加一些GIF文件格式所不具备的特性。PNG用来存储彩色图像时其颜色深度可达48位,存储灰度图像时可达16位,并且还可存储多达16位的Alpha通道数据。PNG文件格式具有以下特点:流式读写性能、加快图像显示的逐次逼近显示方式、使用从LZ77派生的无损压缩算法以及独立于计算机软硬件环境等。上一页上一页下一页下一页返回首页返回首页3.4.3PNG图像文件格式PNG定义了两种类型的数据块:一是关键数据块,这是标准的数据块;二是辅助数据块,这是可选的数据块。关键数据块定义了4个标准数据块,每个PNG文件都必须包含它们,PNG读写软件也必须支持这些数据块。上一页上一页下一页下一页返回首页返回首页3

72、.4.3PNG图像文件格式PNG和JPEG相比较的优点PNG缺点上一页上一页下一页下一页返回首页返回首页3.5静态图像压缩标准静态图像压缩标准3.51JPEG简介JPEG(JointPhotographicExpertsGroup)是联合图像专家小组的英文缩写,这个专家组开发的算法称为JPEG算法,并且成为国际上的彩色、灰度、静止图像的第一个国际标准,因此又称为JPEG标准。上一页上一页下一页下一页返回首页返回首页该标准规定了两种工作方式:顺序方式和渐进方式。顺序方式:在这种方式中,图像被分割成成行成列的小块,编码时从左向右、由上而下地逐行逐列对每个小块进行运算,直到所有小块都被编码为止。每个

73、小块编码都是一次完成。解码时按照顺序逐块解码,也是一次完成。上一页上一页下一页下一页返回首页返回首页渐进方式:整个图像首先以一种低于最终质量要求的质量标准进行编码,完成后再以较高一级的质量要求再进行一次编码,但仅传输为改善质量所需增加的那部分信息。这种过程可以重复若干次,直到达到所需的最终质量要求。上一页上一页下一页下一页返回首页返回首页该标准规定三种级别的编码算法:、扩展系统和无失真系统。基本系统:以离散余弦为核心,采用顺序方式,适用于一般精度的图像,有良好的压缩效果,压缩比可调。上一页上一页下一页下一页返回首页返回首页扩展系统:将基本系统在若干方面增强并减少一些限制条件后就称为扩展系统。可

74、对精度范围在212位的图像进行处理,可采用渐进方式,也可选用哈夫曼编码或算术编码对离散余弦变换产生的统计事件进行压缩编码上一页上一页下一页下一页返回首页返回首页无失真系统:采用二维DPCM技术,实现无失真压缩。当然,压缩比不可能很高。上一页上一页下一页下一页返回首页返回首页3.5静态图像压缩标准静态图像压缩标准JPEG是一个适用范围很广的静态图像数据压缩标准,不仅适用于静止图像的压缩,也常常被用于电视图像序列的帧内图像压缩编码。目前JPEG专家组开发了两种基本的压缩算法:上一页上一页下一页下一页返回首页返回首页JPEG压缩是有损压缩,它利用了人的视角系统的特性,使用量化和无损压缩编码相结合来去

75、掉视角的冗余信息和数据本身的冗余信息。JPEG算法压缩编码大致分成几个步骤:(1)使用正向离散余弦变换(Forward DiscreteCosineTransform,FDCT)把空间域表示的图变换成频率域表示的图。(2)利用人眼视觉特性对系数进行自适应量化;(3)对每个子块量化后的系数矩阵进行Z形扫描,将系数矩阵转化成符号序列;(4)使用哈夫曼可变字长编码器对量化系数进行编码。上一页上一页下一页下一页返回首页返回首页231-74-12-1-1-2-10-102-5101000-137000000-400-100000-1-1000000-11000000000000000000000Zig-

76、zag 扫描扫描之字形扫描之字形扫描上一页上一页下一页下一页返回首页返回首页上一页上一页下一页下一页返回首页返回首页1.基本系统(1)二维DCT变换首先把一幅图像划分成一系列的图像块,每个图像块包含88个像素。如果原始图像有640480个像素,则图片将包含80列60行的方块。如果图像只包含灰度,那么每个像素用一个8比特的数字表示。因此可以把每个图像块表示成一个8行8列的二维数组。数组的元素是0255的8比特整数。离散余弦变换就是作用在这个数组上。上一页上一页下一页下一页返回首页返回首页DCT变换是做什么的变换是做什么的简单的说,是用一个8行8列的二维数组产生另一个同样包含8行8列二维数组的函数

77、,也就是说,把一个数组通过一个变换,变成另一个数组。如图下图所示,对每个图像块做离散余弦变换。通过DCT变换可以把能量集中在矩阵左上角少数几个系数上。f(i,j)经DCT变换之后得到F(i,j),其中F(0,0)是直流系数,称为DC系数,其他为交流系数,称为AC系数。上一页上一页下一页下一页返回首页返回首页(2)系数量化)系数量化为了达到压缩数据的目的,DCT系数需做量化。量化是对经过FDCT变换后的频率系数进行量化,这是一个多到一映射的过程。量化的目的是减小非0系数的幅度以及增加0值系数的数目,在一定的主观保真的前提下,丢掉那些对视觉效果影响不大的信息,量化是图像质量下降的最主要原因。上一页

78、上一页下一页下一页返回首页返回首页上一页上一页下一页下一页返回首页返回首页以上是编码时对图像块的正向离散余弦变换和量化过程,解码的时候要进行逆量化和逆向离散余弦变换,图4-15说明了解码的过程,并且在逆向离散余弦变换之后对重构图像中的每个样本数据加了128,最后得到重构图像样本:上一页上一页下一页下一页返回首页返回首页(3)编码模型与统计事件编码模型与统计事件第一步:Z字形编排。对于量化后的二维数组,我们还要对其进行线性化,然后再进行压缩加以传输。一个合理的线性化方法可能是一次传输Q的一行。由于出现这么多的0,可以使用行程编码。这是可行的,但还有更好的方法。上一页上一页下一页下一页返回首页返回

79、首页(3)编码阶段)编码阶段直流系数的编码。88图像块经过DCT变换之后得到的DC直流系数有两个特点,一是系数的数值比较大,二是相邻88图像块的DC系数值变化不大。根据这个特点,JPEG算法使用了差分脉冲调制编码(DPCM)技术,对相邻图像块之间量化DC系数的差值进行编码。Delta=Dc(0,0)k-Dc(0,0)k1上一页上一页下一页下一页返回首页返回首页交流系数的编码。量化AC系数的特点是164矢量中包含有许多0系数,并且许多0是连续的,因此可以使用非常简单和直观的游程长度编码(RLE)对它们进行编码。JPEG使用了1个字节的高4位来表示连续0的个数,而使用它的低4位来表示编码下一个非0

80、系数所需要的位数,跟在它后面的是量化AC系数的数值。上一页上一页下一页下一页返回首页返回首页使用熵编码还可以对DPCM编码后的直流DC系数和RLE编码后的交流AC系数作进一步的压缩。在JPEG有损压缩算法中,使用哈夫曼编码器来减少熵。在扩展系统还使用算术编码(4)熵编码上一页上一页下一页下一页返回首页返回首页(5)数据结构)数据结构JPEG编码的最后一个步骤是编码器还需要向解码器添加各种信息,以便后者能正确恢复图像,如采用何种算法、哈夫曼编码、量化矩阵、图像开始与结束等。上一页上一页下一页下一页返回首页返回首页2渐进方式渐进方式基本实现方式有三种,它们又能组合构成多种方式。(1)谱选择法:基本

81、系统对DCT变换后的二维系数数据做z曲折扫描所得的一维系数序列,基本上是按从低频到高频成分的顺序排列的,低频在前,高频在后。将此系数序列分成几段,按级分别编码,低频在先,高频在后。上一页上一页下一页下一页返回首页返回首页2渐进方式渐进方式(2)逐次逼近:在第一级编码时,只送系数的近似值,后面各级由高位到低位每级补上一个被舍弃的位。(3)阶梯方式:上一页上一页下一页下一页返回首页返回首页3.JPEG 能达到的能达到的压缩效果效果压缩到0.15位/像素时,图像可识别;压缩到0.25位/像素时,图像可评价为有用;压缩到0.75位/像素时,图像被认为是极佳;压缩到1.5位/像素时,图像基本上与原图像无

82、法区别。上一页上一页下一页下一页返回首页返回首页3.5.2JPEG2000为了能用单一的压缩码流提供多种性能、满足范围更为广泛的应用,JPEG工作组于1996年开始探索一种新的静止图像压缩编码标准,并且称它为JPEG2000。JPEG2000是JPEG工作组制定的并于2000年底陆续公布的基于JPEG标准的最新的静止图像压缩编码的国际标准,它之所以比JPEG标准优越,主要是不再采用离散傅立叶变换DCT算法为主的编码方法,改用以DWT(DiscreteWaveletTransformation,离散小波变换算法)为主的多解析编码方法。上一页上一页下一页下一页返回首页返回首页它与JPEG的基本系统

83、相比有以下的优点:(1)高压缩比能保持较高的图像质量。在类似质量的前提下,JPEG2000的压缩比比JPEG高10%30%。(2)无损压缩:既支持有损压缩,也支持无损压缩方式(3)支持渐进式传输,即开始时显示一个模糊、不清晰且质量低的图像,随着数据进一步被接收,图像清晰度和质量逐步提高,最后显示出一个高清晰度且高质量的图像。JPEG2000在节约和充分利用有限带宽方面显得更加优越。(4)在压缩时,可指定图片感兴趣的区域,并指定压缩质量;在解压缩时,对这些区域指定解压缩顺序及解压缩质量。因为子波在时域及频域上具有局域性,有可能完全恢复或以高分辨率恢复图像的某个局部。上一页上一页下一页下一页返回首

84、页返回首页JPEG2000JPEG2000(1 1:137137) JPEG JPEG(1 1:137137)上一页上一页下一页下一页返回首页返回首页3.JPEG2000的应用数码相机、扫描仪等。新兴领域如网络、无线通信、医疗影像等。已经体现出其优越性。上一页上一页下一页下一页返回首页返回首页MPEG是活动图像专家组(MovingPictureExportsGroup)英文的缩写,于1988年成立,是为数字视/音频制定压缩标准的专家组,目前已拥有300多名成员,包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG组织最初得到的授权是制定用于“活动图像”编码的各种标准

85、,随后扩充为“及其伴随的音频”及其组合编码。后来针对不同的应用需求,解除了“用于数字存储媒体”的限制,成为现在制定“活动图像和音频编码”标准的组织。MPEG组织制定的各个标准都有不同的目标和应用,目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21标准。3.6动态图像压缩标准动态图像压缩标准上一页上一页下一页下一页返回首页返回首页MPEG应用的数字存储媒体包括:光盘、数字录音带(DAT)、磁盘、可写光盘,以及通信网络中。3.6.1MPEG标准概述标准概述上一页上一页下一页下一页返回首页返回首页MPEG视频压缩技术是针对运动图象的视频压缩技术是针对运动图象的数据压缩技

86、术。为了提高压缩比,数据压缩技术。为了提高压缩比,帧内帧内图象数据压缩图象数据压缩和和帧间图象数据压缩技术帧间图象数据压缩技术必须同时使用。必须同时使用。上一页上一页下一页下一页返回首页返回首页运动矢量:运动物体的位移矢量运动矢量:运动物体的位移矢量 dx,dydx,dy 若第若第K-1K-1帧的运动物体位置中心点为(帧的运动物体位置中心点为(x x1 1,y y1 1),在第),在第K K帧中移帧中移动到(动到(x x1 1+dx+dx,y y1 1+dy+dy)。)。 须将第须将第K K帧(帧(x x1 1+dx,y+dx,y1 1+dy+dy)点的点的运动物体与第运动物体与第(K-1)(

87、K-1)帧的帧的(x(x1 1,y,y1 1) )点相减。点相减。运动估计:求运动矢量的过程运动估计:求运动矢量的过程去接收机差值当前帧运动补偿过去帧运动估计去后级预测值运动矢量帧内帧间上一页上一页下一页下一页返回首页返回首页运动补偿:利用运动矢量从前一帧内读出预测象块,运动补偿:利用运动矢量从前一帧内读出预测象块, 形成当前帧运动物体的预测值。形成当前帧运动物体的预测值。预测编码:对预测获得的差值及运动矢量进行编码。预测编码:对预测获得的差值及运动矢量进行编码。块匹配:块匹配:对视频图象分成宏块(常用对视频图象分成宏块(常用1616的宏块),的宏块),以宏块为单位在前一帧搜索与当前宏块内容最

88、相近的宏块,以宏块为单位在前一帧搜索与当前宏块内容最相近的宏块,称称块匹配。块匹配。 块匹配的目的是求运动矢量。块匹配的目的是求运动矢量。上一页上一页下一页下一页返回首页返回首页运动补偿的必要运动补偿的必要返回上一页上一页下一页下一页返回首页返回首页运动估计图解运动估计图解 a b c当前帧后一帧运动矢量MV运动估值,找到匹配块运动估值,找到匹配块将匹配块与当前宏块的差值以及运动矢量进行编码将匹配块与当前宏块的差值以及运动矢量进行编码前一帧上一页上一页下一页下一页返回首页返回首页块匹配搜索块匹配搜索上一页上一页下一页下一页返回首页返回首页 双向预测双向预测B帧帧上一页上一页下一页下一页返回首页

89、返回首页1643.7.1H.261H.261是ITU-T于19841989年制定的视频编码标准。针对可视电话和视频会议等业务。目的:在窄带ISDN上实现速率P64kbps的双向声像业务,其中P=130。只支持两种图像格式:CIF(352288像素)和QCIF(176144像素)。技术特征帧包括I帧(Intra-frames)和P帧(Inter-frames);1616微块的运动补偿、88DCT、标量量化、Z-Z扫描、游程编码和变长编码的编码结构。上一页上一页下一页下一页返回首页返回首页3.6.2MPEG1标准标准MPEG-1标准于1993年8月公布,用于传输1.5Mbps数据传输率的数字存储媒

90、体运动图像及其伴音的编码。该标准包括五个部分:第一部分说明了如何根据第二部分(视频)以及第三部分(音频)的规定,对音频和视频进行复合编码。第四部分说明了检验解码器或编码器的输出比特流符合前三部分规定的过程。第五部分是一个用完整的C语言实现的编码和解码器。该标准从颁布的那一刻起,MPEG-1取得一连串的成功,如VCD和MP3的大量使用,Windows95以后的版本都带有一个MPEG-1软件解码器,可携式MPEG-1摄像机等等。上一页上一页下一页下一页返回首页返回首页3.6.2MPEG1标准标准设计MPEG算法面临的一个矛盾是:仅靠帧内编码无法达到在保证画面质量前提下的高压缩比,而满足随机访问条件

91、的最好算法是帧内编码。为满足这两个方面的要求,MPEG采取了预测和插值两种帧间编码技术。压缩算法的两个基本基础:基于16乘16块的运动补充缩减时间冗余,基于变换域的缩减空间冗余技术。上一页上一页下一页下一页返回首页返回首页3.6.2MPEG1标准标准1.缩减时间冗余度MPEG考虑了三种画面:内帧(I)、预测帧(B)、和内插帧(P)这样做的原因:一是考虑随机访问视频存储的重要性,二是运动补偿插值可显著降低位速率。内帧经过中度压缩可作为随机访问点:预测帧以参考帧为基础进行编码,它又是后面预测帧参考帧;内插帧压缩比最高,它需要前后两个参考帧,但它本身不能作为参考帧使用。在预测编码中,运动补偿方法可大

92、大提高编码效率。上一页上一页下一页下一页返回首页返回首页 MPEG的图像组的图像组I帧帧:帧帧内内编编码码,提提供供进进入入压压缩缩图图像像数数据据的的随随机机存取点,是图像组(存取点,是图像组(GOP)的第一帧。的第一帧。帧间编码:帧间编码: P帧和帧和B帧帧P帧帧, 用用前前面面最最靠靠近近的的I帧帧或或P帧帧进进行行预预测测,称称正正向预测。向预测。B帧帧,称称为为双双向向帧帧或或内内插插帧帧,它它既既用用前前面面P帧帧和和I帧帧又又用用它它后后面面的的P帧帧作作为为参参考考帧帧,进进行行双双向向预预测测,通通过内插得到重建帧。过内插得到重建帧。 大大的的图图像像组组包包含含1015帧帧

93、图图像像。小小图图像像组组只只有有23帧图像。帧图像。上一页上一页下一页下一页返回首页返回首页3.6.2MPEG1标准标准运动补偿是假设每一帧当前画面都可以以前一帧画面为原型经过变换得到,这一变换是局部的,即画面上各点的位移的方向和大小不必相同。宏块:MPEG算法选择1616宏块作为运动补偿单元,每个1616宏块可以是帧内型、前向预测型、后向预测型或统计平均型。每个宏块相对于前面相邻块的运动信息做差分编码,得到运动插值,运动插值信号除了图像的边缘处外,其它部分都很小。对运动插值信息再使用变长编码方法,可达到进一步压缩是目的。上一页上一页下一页下一页返回首页返回首页3.6.2MPEG1标准标准2

94、.缩减空间冗余度静态图像与运动视频信号都具有相当高的空间冗余度,降低空间冗余度的方法很多,因为运动补偿是基于宏块的,所以也应采用以宏块为单元的处理技术。在这些方法中变换编码和矢量化编码较为常用。与JPEG类似,混合使用变换编码、基于视觉加权的标量量化和行程编码等技术。上一页上一页下一页下一页返回首页返回首页3.6.2MPEG1标准标准整个过程分为三个阶段基于DCT的正交变换,计算量化系数对变换系数量化,按Z形扫描重组对变换系数按行程编码进行熵编码上一页上一页下一页下一页返回首页返回首页3.6.2MPEG1标准标准量化器设计时考虑内容视觉加权量化帧内块与非帧内块的量化可调整量化器上一页上一页下一

95、页下一页返回首页返回首页3.6.3MPEG2标准标准MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2所能提供的传输率在3-10Mbits/sec间,其在NTSC制式下的分辨率可达720X486,MPEG-2也可提供并能够提供广播级的视像和CD级的音质。上一页上一页下一页下一页返回首页返回首页MPEG标准的基本算法也是运动补偿的预测和带有DCT的帧间内变长编码,它与MPEG的主要区别在于:MPEG-2和和MPEG-1的图像结构相同。的图像结构相同。 MPEG-2通用性较强,满足对图像质量和传输速通用性较强,满足对图像质量和传输速率的多层次要求,技术成熟

96、。率的多层次要求,技术成熟。 图像格式:图像格式:704576(PAL)和)和704480(NTSC),码率为),码率为315 Mbps; 9Mbps模拟分量质量;模拟分量质量; 能处理逐行扫描和隔行扫描图像,包括能处理逐行扫描和隔行扫描图像,包括16:9宽宽高比图像格式;高比图像格式;3.6.3MPEG2标准标准上一页上一页下一页下一页返回首页返回首页3.6.3MPEG2标准标准包括九部分:1规定电视图像数据、声音数据几其它相关数据的同步2规定视频数据的编码和解码3规定声音数据的编码和解码4conformancetesting5sofewaresimulation6数字存储媒体命名和控制扩展

97、协议7先进声音编码8系统解码器实时接口标准9一致性扩展测试上一页上一页下一页下一页返回首页返回首页3.6.3MPEG2标准标准是建立在MPEG-1的基础上,扩充了以场为基础的运动补偿,旨在消除运动图像时间和空间上的冗余。在MPEG-2中,I、P、B帧仍具有十分重要的意义,为了优化图像质量,它采用了变比特率编码方案。上一页上一页下一页下一页返回首页返回首页 MPEG-4 标准 MPEG- MPEG-4 4标准于标准于1991998 8年公布,是为了播放流式媒体的年公布,是为了播放流式媒体的高质量视频而专门设计的,它可利用很窄的带度,采高质量视频而专门设计的,它可利用很窄的带度,采用了全新的压缩理

98、念,通过帧重建技术,压缩和传输用了全新的压缩理念,通过帧重建技术,压缩和传输数据,以求使用最少的数据获得最佳的图像质量,并数据,以求使用最少的数据获得最佳的图像质量,并将之作为将之作为网络上传送网络上传送之用。之用。同以前标准最显著的差别在于它是采用基于对象的同以前标准最显著的差别在于它是采用基于对象的编码理念,即在编码过程中将一幅景物分成若干在时编码理念,即在编码过程中将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,间和空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需

99、内容。解码,从而组合成所需内容。3.6.3MPEG2标准标准上一页上一页下一页下一页返回首页返回首页一个面向对象的电视情景一个面向对象的电视情景一个面向对象的电视情景一个面向对象的电视情景Sports results: Portugal - BrazilSports results: Portugal - Brazil上一页上一页下一页下一页返回首页返回首页SPRITE对象分割对象分割活动对象幻灯片160上一页上一页下一页下一页返回首页返回首页具有外加对象的合成场景具有外加对象的合成场景上一页上一页下一页下一页返回首页返回首页场景描述图场景描述图上一页上一页下一页下一页返回首页返回首页对象的二

100、值形状信息News一帧图像前景对象的二值形状信息MPEG标准返回上一页上一页下一页下一页返回首页返回首页MPEG-4 MPEG-4 的编码器增加了形状编码的编码器增加了形状编码的编码器增加了形状编码的编码器增加了形状编码 视频对象编码器视频对象编码器上一页上一页下一页下一页返回首页返回首页ShapeDecodingTextureDecodingShapeInformationDEMULTIPLEXERMotionCompensationBitstreamMotionDecodingVOPMemoryReconstructedVOPCompositorVideoOutCompositingscr

101、iptObject DecoderObject Decoder上一页上一页下一页下一页返回首页返回首页3.6.5MPEG-7标准及其应用MPEG-7标准被称为“多媒体内容描述接口”,为各类多媒体信息提供一种标准化的描述,这种描述将与内容本身有关,允许快速和有效的查询用户感兴趣的资料。它将扩展现有内容识别专用解决方案的有限的能力,特别是它还包括了更多的数据类型。换而言之,MPEG-7规定一个用于描述各种不同类型多媒体信息的描述符的标准集合。该标准于1998年10月提出,于2001年最终完成并公布。MPEG-7的目标是支持多种音频和视觉的描述,包括自由文本、N维时空结构、统计信息、客观属性、主观属

102、性、生产属性和组合信息。对于视觉信息,描述将包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。上一页上一页下一页下一页返回首页返回首页MPEG-7的目标是根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的需求。以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述。对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置。最高层将给出语义信息:如“这是一个场景:一个鸭子正躲藏在树后并有一个汽车正在幕后通过。”抽象层与提取特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多人的交互作用。MPEG-

103、7还允许依据视觉描述的查询去检索声音数据,反之也一样。MPEG-7的目标是支持数据管理的灵活性、数据资源的全球化和互操作性。上一页上一页下一页下一页返回首页返回首页3.6.6MPEG-21标准及其应用互联网改变了物质商品交换的商业模式,这就是“电子商务”。新的市场必然带来新的问题:如何获取数字视频、音频以及合成图形等“数字商品”,如何保护多媒体内容的知识产权,如何为用户提供透明的媒体信息服务,如何检索内容,如何保证服务质量等。此外,有许多数字媒体(图片、音乐等)是由用户个人生成、使用的。这些“内容供应者”同商业内容供应商一样关心相同的事情:内容的管理和重定位、各种权利的保护、非授权存取和修改的

104、保护、商业机密与个人隐私的保护等。目前虽然建立了传输和数字媒体消费的基础结构并确定了与此相关的诸多要素,但这些要素、规范之间还没有一个明确的关系描述方法,迫切需要一种结构或框架保证数字媒体消费的简单性,很好地处理“数字类消费”中诸要素之间的关系。MPEG-21就是在这种情况下提出的。上一页上一页下一页下一页返回首页返回首页MPEG视频压缩技术是针对运动图像的数据压缩技术。通过帧运动补偿有效地压缩了数据的比特数,它采用了三种图像,帧内图、预测图和双向预测图,有效地减少了冗余信息。对于MPEG来说,帧间数据压缩、运动补偿和双向预测,这是和JPEG主要的不同之处。另外,MPEG中视频信号包含有静止图

105、画和运动信息等不同的内容,量化器的设计比JPEG压缩算法中量化器的设计考虑的因素要多。上一页上一页下一页下一页返回首页返回首页3.7H.26X系列标准H.26X系列标准由国际电联(ITU-T)制定的。H.26X系列标准H.261:针对在窄带ISDN上实现速率P64kbps的双向声像业务,其中P=130。H.263:针对低比特率视频应用H.264:ITU-T和ISO/IEC的MPEG共同成立的联合视频小组JVT提出,目的是为视频编码应用提供下一代的解决方案。上一页上一页下一页下一页返回首页返回首页1903.7.1H.261H.261是视频编码的一个里程碑,对后续标准有较大的影响。现有的一系列视频

106、编码标准的编码方法都是基于H.261中的混合编码方法和编码结构。H.261的特点优点:低复杂度缺点:低压缩比性能、缺乏灵活性上一页上一页下一页下一页返回首页返回首页1913.7.2H.263 H.263 H.263 视频编码标准是专为中高质量运动图像压缩所设计的低视频编码标准是专为中高质量运动图像压缩所设计的低视频编码标准是专为中高质量运动图像压缩所设计的低视频编码标准是专为中高质量运动图像压缩所设计的低码率图像压缩标准。码率图像压缩标准。码率图像压缩标准。码率图像压缩标准。H.263 H.263 采用运动视频编码中常见的编码方采用运动视频编码中常见的编码方采用运动视频编码中常见的编码方采用运

107、动视频编码中常见的编码方法,将编码过程分为帧内编码和帧间编码两个部分。帧内用改法,将编码过程分为帧内编码和帧间编码两个部分。帧内用改法,将编码过程分为帧内编码和帧间编码两个部分。帧内用改法,将编码过程分为帧内编码和帧间编码两个部分。帧内用改进的进的进的进的DCT DCT 变换并量化,在帧间采用变换并量化,在帧间采用变换并量化,在帧间采用变换并量化,在帧间采用1/2 1/2 象素运动矢量预测补偿象素运动矢量预测补偿象素运动矢量预测补偿象素运动矢量预测补偿技术,使运动补偿更加精确,量化后适用改进的变长编码表技术,使运动补偿更加精确,量化后适用改进的变长编码表技术,使运动补偿更加精确,量化后适用改进

108、的变长编码表技术,使运动补偿更加精确,量化后适用改进的变长编码表(VLCVLC)地量化数据进行熵编码,得到最终的编码系数。)地量化数据进行熵编码,得到最终的编码系数。)地量化数据进行熵编码,得到最终的编码系数。)地量化数据进行熵编码,得到最终的编码系数。H.263H.263标准压缩率较高,标准压缩率较高,标准压缩率较高,标准压缩率较高,CIFCIF(Common Intermediate FormatCommon Intermediate Format)格)格)格)格式全实时模式下单路占用带宽一般在几百式全实时模式下单路占用带宽一般在几百式全实时模式下单路占用带宽一般在几百式全实时模式下单路占

109、用带宽一般在几百bpsbps左右,具体占用左右,具体占用左右,具体占用左右,具体占用带宽视画面运动量多少而不同。缺点是画质相对差一些,占用带宽视画面运动量多少而不同。缺点是画质相对差一些,占用带宽视画面运动量多少而不同。缺点是画质相对差一些,占用带宽视画面运动量多少而不同。缺点是画质相对差一些,占用带宽随画面运动的复杂度而大幅变化。带宽随画面运动的复杂度而大幅变化。带宽随画面运动的复杂度而大幅变化。带宽随画面运动的复杂度而大幅变化。 H.263H.263+H.263+上一页上一页下一页下一页返回首页返回首页1923.7.2H.263所谓半像素运动补偿,是指半像素为一所谓半像素运动补偿,是指半像

110、素为一点的像素值由相邻点整像素位置的值进点的像素值由相邻点整像素位置的值进行双线性内插得到。行双线性内插得到。H.263H.263+H.263+上一页上一页下一页下一页返回首页返回首页3.7.2H.263图像的亮度信号是根据选择的分辨率图像的亮度信号是根据选择的分辨率(如(如QCIF,176144)进行采样,而色)进行采样,而色度信号度信号Cb,Cr 水平和垂直方向均采用水平和垂直方向均采用一半分辨率采样,图像的结构如图所示一半分辨率采样,图像的结构如图所示上一页上一页下一页下一页返回首页返回首页每帧图像被分为若干个宏块,每个宏块由4个88的亮度块、一个88Cr块组成。由若干个宏块行组成的块组

111、称为一个GOB,行的数量取决于图像帧的分辨率,如QCIF格式图像中,一个GOB行由一行(11)个宏块组成,所以每帧图像由9个GOB组成。上一页上一页下一页下一页返回首页返回首页帧内编码:帧内用改进的帧内编码:帧内用改进的DCT 变换并量化变换并量化帧间编码:帧间采用帧间编码:帧间采用1/2 象素运动矢量预测象素运动矢量预测补偿技术,使运动补偿更加精确,量化后适补偿技术,使运动补偿更加精确,量化后适用改进的变长编码表(用改进的变长编码表(VLC)地量化数据进)地量化数据进行熵编码,得到最终的编码系数。行熵编码,得到最终的编码系数。上一页上一页下一页下一页返回首页返回首页1963.7.2H.263

112、提供了四种可协商选择的编码方式:提供了四种可协商选择的编码方式:无限制的运动矢量模式无限制的运动矢量模式 一般运动矢量的范围都限制在已编码的参考帧内,这种限制,使得对一般运动矢量的范围都限制在已编码的参考帧内,这种限制,使得对一般运动矢量的范围都限制在已编码的参考帧内,这种限制,使得对一般运动矢量的范围都限制在已编码的参考帧内,这种限制,使得对当前帧图像边界的宏块进行运动估计时,由于参考宏块可能已处于参当前帧图像边界的宏块进行运动估计时,由于参考宏块可能已处于参当前帧图像边界的宏块进行运动估计时,由于参考宏块可能已处于参当前帧图像边界的宏块进行运动估计时,由于参考宏块可能已处于参考帧之外无法得

113、到最优的效果考帧之外无法得到最优的效果考帧之外无法得到最优的效果考帧之外无法得到最优的效果H.263H.263取消了这种限制,允许运动矢量取消了这种限制,允许运动矢量取消了这种限制,允许运动矢量取消了这种限制,允许运动矢量指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像以外时,就用边缘的图像像素值来代替这个不存在的宏块。以外时,就用边缘的图像像素值来代替这个不存在的宏块。以外时,就用边缘的图像像素值来代替

114、这个不存在的宏块。以外时,就用边缘的图像像素值来代替这个不存在的宏块。上一页上一页下一页下一页返回首页返回首页1973.7.2H.263基于语法的算术编码模式基于语法的算术编码模式 使用算术编码代替哈夫曼编码,由使用算术编码代替哈夫曼编码,由于算术编码在符号的概率分布不为于算术编码在符号的概率分布不为2的的幂的情况下也能逼近压缩的理论极限幂的情况下也能逼近压缩的理论极限符号的熵。因此,在信噪比和重建图像符号的熵。因此,在信噪比和重建图像质量相同的情况下降低码率。质量相同的情况下降低码率。上一页上一页下一页下一页返回首页返回首页1983.7.2H.263高级预测模式高级预测模式 在一般情况下,每

115、一宏块对应一个在一般情况下,每一宏块对应一个运动矢量,在先进的预测模式下,一个运动矢量,在先进的预测模式下,一个宏块宏块4个个88亮度块可以各对应一个运动亮度块可以各对应一个运动矢量,从而提高了预测精度,两个色度矢量,从而提高了预测精度,两个色度块的运动矢量则取这块的运动矢量则取这4个亮度块运动矢个亮度块运动矢量的平均值。量的平均值。上一页上一页下一页下一页返回首页返回首页1993.7.2H.263PB帧模式帧模式 包含作为一个单元极限编码的两帧包含作为一个单元极限编码的两帧图像,可在码率增加不多的情况下使帧图像,可在码率增加不多的情况下使帧率加倍。率加倍。上一页上一页下一页下一页返回首页返回

116、首页2003.7.3H.264H.264标准是ITU-T和ISO/IEC的MPEG共同成立的联合视频小组JVT于2003年公布的视频编码标准。目标:为视频编码应用提供下一代的解决方案,提供显著增强的编码效率,,同时减少H.263中一些混乱的可选模式。标准内容分三个档次:基本档次-实现版本的基本功能;核心档次-用于HDTV、DVD;扩展档次-用于IPTV。上一页上一页下一页下一页返回首页返回首页2013.7.3H.264特点1、分层设计:算法在概念上可以分为两层:视频编码层(VideoCodingLayerVCL)负责高效的视频内容表示:网络提取层(NetworkAbstractionLayer

117、NAL)负责网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口,打包和相应的信令属于NAL的一部分。这样,高编码效率和网络友好性的任务分别由VCL和NAL来完成。上一页上一页下一页下一页返回首页返回首页2023.7.3H.264特点2、高精度、多模式运动估计H.264支持1/4或1/8像素精度的运动矢量,在1/4像素精度时可使用6抽头滤波器来减少高频噪声,对于1/8像素精度的运动矢量,可使用更为复杂的8抽头滤波器。上一页上一页下一页下一页返回首页返回首页2033.7.3H.264特点3、44的整数变换H.264与先前的标准相似,对残差采用基于块的变换编

118、码,但变换是整数操作而不是实数运算,其过程和DCT基本相似。这种方法的优点是:在编码器和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算方式。变换的单位是44块,而不是之前的88,尺寸缩小,运动物体的划分更精确。上一页上一页下一页下一页返回首页返回首页2043.7.3H.264特点4、统一的VCLH.264种熵编码有两种方法,一种是对所有的待编码的符号采用统一的VCL(Universalvcluvcl),另一种采用内容自适应的二进制编码。上一页上一页下一页下一页返回首页返回首页2053.7.3H.264特点5、帧内预测在先前的H.26x系列和MPEG-X系列标准中,都是采用帧间预测的

119、方式,在H.264中,当编码Intra图像时可用帧内预测。对于每个44块,每个像素都可以用17个最接近的先前已编码的像素的不同加权和来预测,这是空间域上的预测编码方法。上一页上一页下一页下一页返回首页返回首页(1)运动估计:以宏块为单位,用块匹配法)运动估计:以宏块为单位,用块匹配法找出运动矢量(搜索,判据)找出运动矢量(搜索,判据) (2)运动补偿:据运动矢量在重建帧中读出)运动补偿:据运动矢量在重建帧中读出预测块,预测块, (3)计算预测误差,)计算预测误差, (4)对预测误差进行)对预测误差进行DCT, (5)对)对DCT量化;量化; (6)RLC和和VLC编码;编码; (7)对运动矢量编码并与图象数据复用;)对运动矢量编码并与图象数据复用; (8)经缓存控制输出。)经缓存控制输出。帧间预测编码步骤帧间预测编码步骤 上一页上一页下一页下一页返回首页返回首页2073.7.3H.264特点6、面向IP和无线环境

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号