数字电视术第2章223

上传人:M****1 文档编号:569971691 上传时间:2024-08-01 格式:PPT 页数:223 大小:4.96MB
返回 下载 相关 举报
数字电视术第2章223_第1页
第1页 / 共223页
数字电视术第2章223_第2页
第2页 / 共223页
数字电视术第2章223_第3页
第3页 / 共223页
数字电视术第2章223_第4页
第4页 / 共223页
数字电视术第2章223_第5页
第5页 / 共223页
点击查看更多>>
资源描述

《数字电视术第2章223》由会员分享,可在线阅读,更多相关《数字电视术第2章223(223页珍藏版)》请在金锄头文库上搜索。

1、第2章 信源编码 第2章 信源编码 2.1 视频压缩技术视频压缩技术 2.2 音频压缩技术音频压缩技术 2.3 压缩技术的应用压缩技术的应用 第2章 信源编码 2.1 视频压缩技术视频压缩技术 2.1.1 视频信号压缩的可能性视频信号压缩的可能性视频数据主要存在以下形式的冗余。1. 空间冗余空间冗余 2. 时间冗余时间冗余 3. 结构冗余结构冗余 4. 知识冗余知识冗余 5. 视觉冗余视觉冗余 第2章 信源编码 2.1.2 视频信号的数字化视频信号的数字化 模拟视频信号通过取样、量化后编码为二进制数字信号的过程称为模/数变换(AD变换)或PCM(Pulse Coding Modulation,

2、 脉冲编码调制), 所得到的信号也称为PCM信号,其过程可用图2-1(a)表示。 若取样频率等于fs, 用n比特量化,则PCM信号的数码率为nfs(bs)。 PCM编码既可以对彩色全电视信号直接进行, 也可以对亮度信号和两个色差信号分别进行。前者称为全信号编码,后者称为分量编码。 PCM信号经解码和插入滤波后恢复为模拟信号,如图2-1(b)所示。 解码是编码的逆过程,插入滤波是把解码后的信号用理想低通滤波恢复为平滑、连续的模拟信号。这两个步骤合称为数/模变换(DA变换)或PCM解码。 第2章 信源编码 图2-1 电视信号的数字化和复原(a) A/D变换; (b) D/A变换 第2章 信源编码

3、1. 奈奎斯特取样定理奈奎斯特取样定理 理想取样时,只要取样频率大于或等于模拟信号中最高频率的两倍,就可以不失真地恢复模拟信号, 这称为奈奎斯特取样定理。模拟信号中最高频率的两倍称为折叠频率。一般取样频率应为最高频率的35倍。 第2章 信源编码 2. 亚奈奎斯特取样亚奈奎斯特取样 按取样定理,若取样频率fs小于模拟信号最高频率fmax的两倍,就会产生混叠失真,但若巧妙地选择取样频率,令取样后频谱中的混叠分量落在色度分量和亮度分量之间,就可用梳状滤波器去除混叠成分。 第2章 信源编码 3. 均匀量化和非均匀量化均匀量化和非均匀量化 在输入信号的动态范围内,量化间距处处相等的量化称为均匀量化或线性

4、量化。 均匀量化时信噪比随输入信号动态幅度的增加而增加。采用均匀量化,在强信号时固然可把噪波淹没掉,但在弱信号时,噪波的干扰就十分显著。为改善弱信号时的信噪比,量化间距应随输入信号幅度而变化,大信号时进行粗量化,小信号时进行细量化, 也就是采用非均匀量化, 或称非线性量化。 第2章 信源编码 非均匀量化有两种方法。一是把非线性处理放在编码器前和解码器后的模拟部分, 编、解码仍采用均匀量化, 在均匀量化编码器之前, 对输入信号进行压缩, 这样等效于对大信号进行粗量化,对小信号进行细量化; 在均匀量化解码器之后,再进行扩张,以恢复原信号。另一种方法是直接采用非均匀量化器, 输入信号大时进行粗量化(

5、量化间距大), 输入信号小时进行细量化(量化间距小)。 也有采用若干个量化间距不等的均匀量化器, 当输入信号超过某一电平时进入粗间距均匀量化器, 低于某一电平时进入细间距量化器,这称为准瞬时压扩方式。 第2章 信源编码 通常用Q表示量化,用IQ或Q-1表示反量化。量化过程相当于由输入值找到它所在的区间号,反量化过程相当于由量化区间号得到对应的量化电平值。 量化区间总数远远小于输入值的总数,所以量化能实现数据压缩。很明显,反量化后并不能保证得到原来的值,因此量化过程是一个不可逆过程,用量化的方法来进行压缩编码是一种非信息保持型编码。通常这两个过程均可用查表法实现,量化过程在编码端完成,而反量化过

6、程则在解码端完成。 对量化区间标号(量化值)的编码可以采用等长编码方法, 当量化分层总数为K时,经过量化压缩后的二进制数码率为lbK b量化值。也可以采用可变字长编码如哈夫曼编码或算术编码来进一步提高编码效率。 第2章 信源编码 4. ITU-R BT.601分量数字系统分量数字系统 数字视频信号是将模拟视频信号经过取样、量化和编码而形成的。模拟电视有PAL、NTSC等制式,必然会形成不同制式的数字视频信号,不便于国际数字视频信号的互通。1982年10月, CCIR(Consultative Committee for International Radio, 国际无线电咨询委员会)通过了第一

7、个关于演播室彩色电视信号数字编 码 的 建 议 , 1993年 变 更 为 ITU-R(International Telecommunications Union-Radio communications Sector,国际电联无线电通信部门)BT.601分量数字系统建议。我国对应的国家标准为GB/T14857-93演播室数字电视编码参数规范。 第2章 信源编码 BT.601建议采用对亮度信号和两个色差信号分别编码的分量编码方式,对不同制式的信号均采用相同的取样频率,对亮度信号Y采用的取样频率为13.5 MHz。由于色度信号的带宽远比亮度信号的带宽窄,因此对色度信号U和V的取样频率为6.75

8、 MHz。每个数字有效行分别有720个亮度取样点和3602个色差信号取样点。对每个分量的取样点都是均匀量化的,即对每个取样进行8 b精度的PCM编码。Y信号的黑、白电平分别对应16级和235级;U和V信号的最大正电平对应240级,零电平对应128级, 最小负电平对应16级。这几个参数对525行、 60场秒和625行50场秒的制式都是相同的。 第2章 信源编码 有效取样点是指只有行、场扫描正程的样点有效,逆程的样点不在PCM编码的范围内。因为在数字化的视频信号中不再需要行、场同步信号和消隐信号,所以用定时基准码SAV(Start of Active Video)代表有效视频开始,用定时基准码EA

9、V(End of Active Video)代表有效视频结束。定时基准码占用4个字节,前3个字节是FF0000H, 第4个字节是奇偶标志、场正程、 逆程标志和校验位。HDTV中常采用10比特量化,定时基准码占用4个字, 每个字10比特,第1个字全为“1”, 后面2个字全为“0”, 第4个字是奇偶标志、 场正程、 逆程标志和校验位。 第2章 信源编码 对应于每个有效行的数据是1728个样值,其中有效图像样值为1440个,定时基准码为8个,行消隐期的280个样值传送辅助信息。 场消隐期也传送辅助信息,辅助信息有时间码、宽高比、测试诊断信息、数字音频信息和图文电视。 色度信号的取样率是亮度信号的取样

10、率的一半,常称作422格式,可以理解为每一行里的Y、U、V的样点数之比为422。 第2章 信源编码 2.1.3 熵编码熵编码 1. Huffman编码编码 霍夫曼(Huffman)编码是一种可变长编码, 编码方法如图2-2所示。 其具体步骤是: (1) 将输入信号符号以出现概率由大至小为序排成一列。 (2) 将两处最小概率的符号相加合成为一个新概率, 再按出现概率大小排序。 (3) 重复步骤(2), 直至最终只剩两个概率。 (4) 编码从最后一步出发逐步向前进行,概率大的符号赋予“0”码,另一个概率赋予“1”码, 直至到达最初的概率排列为止。 戴维霍夫曼David Albert Huffman

11、第2章 信源编码 图2-2 Huffman编码 第2章 信源编码 上述6个符号用普通二进制编码, 每个符号码长三位; 用霍夫曼编码,平均码长为0.41+0.32+0.13+0.14+0.065+0.045=2.2位 第2章 信源编码 2. 算术编码算术编码 Huffman编码的每个代码都要使用一个整数位, 如果一个符号只需要用2.5位就能表示,在Huffman编码中却必须用3个符号表示, 因此它的效率较低。与其相比, 算术编码并不为每个符号产生一个单独的代码,而是使整条信息共用一个代码, 增加到信息上的每个新符号都递增地修改输出代码。 假设信源由4个符号s1、s2、s3和s4组成,其概率模型如

12、表2-1所示。把各符号出现的概率表示在如图2-3所示的单位概率区间之中,其中区间的宽度代表概率值的大小,各符号所对应的子区间的边界值实际上是从左到右各符号的累积概率。 在算术编码中通常采用二进制的小数来表示概率,每个符号所对应的概率区间都是半开区间,如s1对应0,0.001),s2对应0.001,0.011)。算术编码所产生的码字实际上是一个二进制小数值的指针,该指针指向所编的符号对应的概率区间。 第2章 信源编码 表表2-1 信源概率模型和算术编码过程信源概率模型和算术编码过程 第2章 信源编码 图2-3 算术编码过程示意图 第2章 信源编码 例例1 将符号序列s3s3s2s4进行算术编码,

13、序列的第一个符号为s3,我们用指向图2-3中第3个子区间的指针来代表这个符号, 由此得到码字0.011。后续的编码将在前面编码指向的子区间内进行。将0.011,0.111区间再按符号的概率值划分成4份, 对第2个符号s3,指针指向0.1001, 码字串变为0.1001。 然后s3所对应的子区间又被划分为4份, 开始对第3个符号进行编码 第2章 信源编码 算术编码的基本法则如下: (1) 初始状态: 编码点(指针所指处)C0=0, 区间宽度A0=1。(2) 新编码点: Ci= Ci-1+Ai-1Pi (2-1)式中:Ci-1是原编码点,Ai-1是原区间宽度, Pi为所编符号对应的累积概率。 新区

14、间宽度: Ai=Ai-1pi (2-2) 式中:pi为所编符号对应的概率。 第2章 信源编码 根据上述法则,对序列s3s3s2s4进行算术编码的过程如下: 第个符号s3: C1=C0+A0P1=0+10.011=0.011A1=A0p1=10.1=0.1 0.011, 0.111) 第2个符号s3: C2=C1+A1P2 =0.011+0.10.011=0.1001 A2=A1p2=0.10.1=0.010.1001, 0.1101) 第2章 信源编码 第3个符号s2: C3=C2+A2P3=0.1001+0.010.001=0.10011A3=A2p3=0.010.01=0.00010.10

15、011, 0.10101)第4个符号s4: C4=C3+A3P4=0.10011+0.00010.111=0.1010011A4=A3p4=0.00010.001=0.00000010.1010011, 0.10101 第2章 信源编码 3. 游程编码游程编码 游程编码RLC(Run Length Coding)是一种十分简单的压缩方法,它将数据流中连续出现的字符用单一的记号来表示。游程编码的压缩率不高,但编码、解码的速度快,因而仍得到了广泛的应用,特别是在变换编码及进行Z字形(zigzag)扫描后, 再进行游程编码,会有很好的效果。 第2章 信源编码 2.1.4 预测编码和变换编码预测编码和

16、变换编码 1. DPCM原理原理 基于图像的统计特性进行数据压缩的基本方法就是预测编码。它利用图像信号的空间或时间相关性,用已传输的像素对当前的像素进行预测,然后对预测值与真实值的差预测误差进行编码处理和传输。目前用得较多的是线性预测方法, 其全称 为 差 值 脉 冲 编 码 调 制 DPCM(Differential Pulse Code Modulation)。 利用帧内相关性(像素间、行间的相关)的DPCM被称为帧内预测编码。如果对亮度信号和两个色差信号分别进行DPCM编码, 即对亮度信号采用较高的取样率和较多位数编码, 对色差信号用较低的取样率和较少位数编码,那么构成时分复合信号后再进

17、行DPCM编码, 数码率可以更低。 第2章 信源编码 利用帧间相关性(邻近帧的时间相关性)的DPCM被称为帧间预测编码,因帧间相关性大于帧内相关性,所以其编码效率更高。 若把这两种DPCM组合起来,再配上变字长编码技术,就能获得较好的压缩效果。DPCM是图像编码技术中研究得最早且应用最广的一种方法,它的一个重要特点是算法简单,易于硬件实现。图2-4(a)是它的示意图。编码单元主要包括线性预测器和量化器两部分。编码器的输出不是图像像素的样值f(m,n),而是该样值与预测值g(m,n)之间的差值,即预测误差e(m,n)的量化值E(m,n)。根据图像信号统计特性的分析,给出一组恰当的预测系数,使预测

18、误差主要分布在“0”附近, 再经非均匀量化,采用较少的量化分层,图像数据便得到了压缩,而量化噪声又不易被人眼所觉察,图像的主观质量并不明显下降。图2-4(b)是DPCM解码器,其原理和编码器刚好相反。 第2章 信源编码 图2-4 DPCM原理(a) DPCM编码器; (b) DPCM解码器 第2章 信源编码 图2-5 四阶预测器(a) 输入像素和被预测像素的位置关系; (b) 预测器的结构 第2章 信源编码 2. 变换编码原理变换编码原理 图像变换编码是将空间域里描述的图像经过某种变换(如傅立叶变换、离散余弦变换、沃尔什变换等),在变换域中进行描述,即将图像能量在空间域的分散分布变为在变换域的

19、相对集中分布,便于用Z字形扫描、自适应量化、变长编码等进一步处理,完成对图像信息的有效压缩。 先从一个实例来看一个域的数据变换到另一个域后其分布是如何改变的。以12像素构成的子图像,即相邻两个像素组成的子图像为例, 每个像素有3 b编码,取07共8个灰度级, 两个像素有64种可能的灰度组合,由图2-6(a)中的64个坐标点表示。一般图像的相邻像素之间存在着很强的相关性,绝大多数的子图像中相邻像素灰度级相等或很接近,也就是说,在x1=x2直线附近出现的概率大,如图2-6(a)中的阴影区所示。 第2章 信源编码 图2-6 变换编码的物理意义(a) 子图像在阴影区的概率较大; (b) 旋转变换后 第

20、2章 信源编码 把一个nn像素的子图像看成n2维坐标系中的一个坐标点。 在 n2维坐标系中, 每一个坐标点对应于n2个像素。这个坐标点的数值是其对应的n2个像素的灰度组合。图像在n2维变换域中的相关性大大下降,因此用变换后的系数进行编码,比直接用图像数据编码会获得更大的数据压缩。 第2章 信源编码 变换编码将被处理数据按照某种变换规则映射到另一个域中去处理,常采用二维正交变换的方式。若将整个图像作为一个二维矩阵,则变换编码的计算量太大,所以将一幅图像分成一个个小图像块,通常是88或1616的小方块, 每个图像块可以看成一个二维数据矩阵,变换编码以这些小图像块为单位,把统计上密切相关的像素构成的

21、矩阵通过线性正交变换,变成统计上较为相互独立甚至完全独立的变换系数所构成的矩阵。信息论的研究表明,变换前后,图像的信息量并无损失,可以通过反变换得到原来的图像值。统计分析表明, 正交变换后,数据的分布向新坐标系中的少数坐标集中,且集中于少数的直流或低频分量的坐标点。正交变换并不压缩数据量, 但它去除了大部分相关性,数据分布相对集中,可以依据人的视觉特性对变换系数进行量化,允许引入一定量的误差,只要它们在重建图像中造成的图像失真不明显,或者能达到所要求的观赏质量就行。量化可以增加许多不用编码的0系数, 然后再对量化后的系数施行变长编码。 第2章 信源编码 3. 离散余弦变换离散余弦变换(DCT)

22、 在常用的正交变换中,离散余弦变换DCT(Discrete Cosine Transform)的性能接近最佳,是一种准最佳变换。 DCT矩阵与图像内容无关,由于它构造成对称的数据序列,因而避免了子图像轮廓处的跳跃和不连续现象。DCT也有快速算法FDCT,在图像编码的应用中,大都采用二维DCT。 第2章 信源编码 88 DCT和88 DCT反变换的数学表达式为 (2-3) (2-4) 其中: 当u=v0时, ;当u=v其它值时,C(u)=C(v)=1。 88 DCT的变换核函数为 第2章 信源编码 图2-7 88 DCT的基图像 第2章 信源编码 第2章 信源编码 图2-8 图像块的DCT变换

23、(a) 背景部分图像块的DCT; (b) 细节部分图像块的DCT第2章 信源编码 图2-9 游程编码(a) Z字形扫描; (b) 交替扫描 第2章 信源编码 4. 混合编码混合编码 混合编码是近年来广泛采用的方法,这种方法充分利用各种单一压缩方法的长处,以期在压缩比和效率之间取得最佳的平衡。如广泛流行的JPEG和MPEG压缩方法都是典型的混合编码方案。 第2章 信源编码 2.1.5 静止图像压缩标准静止图像压缩标准 (1) 清晰度: 静止图像中的细节容易被观察到, 要求有更高的清晰度。 (2) 逐渐浮现(Progressive Build-up)的显示方式:在传输频带较窄时为了减少等待时间,要

24、求编码能提供逐渐浮现的显示方式,即先传模糊的整幅图像,再逐渐变清晰。 (3) 抗干扰:一幅图像的传输时间较长,各种干扰噪声的显示时间也较长,影响观看,要求编码与调制方式都有较强的抗干扰能力。 第2章 信源编码 图2-10 静止图像数字传输系统 第2章 信源编码 1. JPEG标准标准 JPEG是ISO(International Standardization Organization, 国际标准化组织)IEC(International Electrotechnical Committee, 国际电工技术委员会)和ITU-T(International Telecommunications

25、Union, 国际电信联盟) 的联合图片专家小组(Joint Photographic Experts Group)的缩写。 1991年3月, JPEG建议(ISOIEC10918号标准)“多灰度静止图像的数字压缩编码(通常简称为JPEG标准)”正式通过, 这是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准, 包括无损压缩及基于离散余弦变换和Huffman编码的有损压缩两个部分。 第2章 信源编码 图2-11 JPEG算法步骤 第2章 信源编码 (1) 彩色坐标转换。彩色坐标转换是要去除数据冗余量,它不属于JPEG算法,因为JPEG是独立于彩色坐标的。压缩可采用不同坐标(如RGB、

26、 YUV、YIQ等)的图像数据。 (2) 离散余弦变换。JPEG采用的是88子块的二维离散余弦变换算法。 在编码器的输入端, 把原始图像(U、V的像素是Y的一半)顺序地分割成一系列88的子块。在88图像块中, 像素值变化缓慢,具有较低的空间频率。进行二维88离散余弦变换可以将图像块的能量集中在极少数系数上。DCT的(0,0)元素是块的平均值,其它元素表明在每个空间频率下的谱能为多少。一般地, 离原点(0,0)越远,元素衰减得越快。 第2章 信源编码 (3) 量化。 为了达到压缩数据的目的,对DCT系数需作量化处理。 量化的作用是在保持一定质量的前提下,丢弃图像中对视觉效果影响不大的信息。量化是

27、多对一映射,是造成DCT编码信息损失的根源。 JPEG标准中采用线性均匀量化器,量化过程为对64个DCT系数除以量化步长并四舍五入取整,量化步长由量化表决定。量化表元素因DCT系数的位置和彩色分量的不同而取不同值。量化表为88矩阵,与DCT变换系数一一对应。 JPGE标准根据人类视觉特性和压缩图像的特点给出了亮度量化表和色度量化表(见表2-2和表2-3)。DCT变换系数除以量化表中对应位置的量化步长并舍去小数部分后,多数变为零,从而达到了压缩的目的。从量化表可以看出,左上角量化间隔小而右下角量化间隔大,这是因为图像的低频分量最重要, 量化间隔小,量化误差也小,精度高;图像的高频分量只影响图像的

28、细节,精度要求可以低一些,量化间隔可以大一些。 第2章 信源编码 表表2-2 JPEG亮度量化表亮度量化表 第2章 信源编码 表表2-3 JPEG色度量化表色度量化表 第2章 信源编码 (4) 直流分量差分编码。 64个变换数经量化后, DCT的(0,0)元素是直流分量(DC系数), 即空间域中64个图像采样值的均值。 相邻88子块之间的DC系数一般有很强的相关性,变化应该较缓慢。JPEG标准对DC系数采用DPCM编码(差分编码)方法, 即对相邻像素块之间的DC系数的差值进行编码,这样能将它们中的大多数数值减小。 第2章 信源编码 (5) 交流分量游程编码。其余63个交流分量(AC系数)采用游

29、程编码。如果从左到右、从上到下地扫描块,则零元素不集中,因此采用从左上角开始沿对角线方向的Z字形扫描。 量化后的AC系数通常会有许多零值。 (6) 熵编码。为了进一步压缩数据,需对DC和AC的码字再作统计特性的熵编码。JPEG标准推荐采用Huffman编码, 并给出差分编码和游程编码变换为Huffman编码的码表。 第2章 信源编码 2. JPEG2000标准标准 JPEG2000主要由6个部分组成: 第1部分为编码的核心部分,提供优秀的压缩性能和压缩灵活性,提供随机访问码流的机制。第2部分为编码扩展。第3部分为Motion JPEG2000(MJP2)。第4部分为一致性测试(用不同方法测试时

30、标准的一致性)。第5部分为参考软件。第6部分为复合图像文件格式。 第2章 信源编码 JPEG2000主要有以下特点: (1) JPEG2000采用了小波变换(DWT)。JPEG基本算法中的基 于 子 块 的 DCT被 离 散 小 波 变 换 DWT(Discrete Wavelet Transform)取代。DWT自身具有多分辨率图像表示性能,它可以大范围去除图像的相关性, 将图像能量分布更好地集中,使压缩效率得到提高。 一个图像可以被分成若干大小相等的片(tile),片的具体尺寸可以由用户根据应用需要来决定。片包括所有的图像分量。 假设图像有3个分量(Y、U、 V),且图像被分成4个片,实际

31、上指的是对应的4个Y片、4个U片和4个V片,即每个片由3个分量片组成。各个分量片各自编、解码,可以从合成的码流中单独提取某个或某些片,解码后重建图像。这种片划分和片独立编码的机制有利于从码流中提取和解码某个图像区域。 第2章 信源编码 小波变换的变换过程图示第2章 信源编码 部分小波波形第2章 信源编码 尖峰信号的小波变换尖峰信号的小波变换时间尺度第2章 信源编码 对各个分量片做不同级别的小波分解(小波变换)。小波变换的作用是对图像进行多分辨率分解,即把原始图像分解成不同空间、不同频率的子图像,这些子图像实际上是由小波变换后产生的系数构成的,即为系数图像。对一个原始图像或分量片进行三级小波分解

32、的例子如图2-12所示。每一级分解都把图像分解成4个不同空间、不同频带的子图像(也称为子带图像或子带分量)。低频分量为LL(包含图像的低频信息, 即图像的主要特征;低频分量可再次分解);水平分量为LH(包含较多的水平边缘信息); 垂直分量为HL(包含较多的垂直边缘信息);对角分量为HH(包含水平和垂直边缘信息)。 第2章 信源编码 图2-12 DWT对静止图像进行三级分解(a) 一级分解示意图; (b) 二级分解示意图; (c) 三级分解示意图 abc第2章 信源编码 小波变换的其他应用提取图像的轮廓第2章 信源编码 (2) JPEG2000同时支持有损和无损压缩。 (3) JPEG2000支

33、持ROI处理。 (4) JPEG2000可随机获取部分压缩码流。 (5) JPEG2000可随机存取图像某个区域。 (6) JPEG2000的抗误码性能得到提高。 (7) JPEG2000具有视觉频率加权。 第2章 信源编码 2.1.6 活动图像压缩标准活动图像压缩标准 1. 概述概述 通常把图像编码分为下面几个应用层次: (1) 标准数字电视:图像分辨率为720576,采用ISO MPEG-2标准, 约8 Mb/s的码率可以达到演播室级的图像质量要求。地面广播时采用现代数字调制技术,可在一路8 MHz信道传送4路标准数字电视。 (2) 会议电视:图像分辨率为352288,采用ITU-T H.

34、261建议,码率为P64 kbs(P=130),属中、低速码率的图像压缩。一般认为,码率在384 kb/s(P=6)以上时,图像质量才能让人比较满意。 第2章 信源编码 (3) 数字影碟机等:图像分辨率为352288, 国际标准为MPEG-1,码率为1.5 Mb/s,其中约1.2 Mb/s用于图像, 其余用于声音和同步, 可达到VHS录像带图像质量。 (4) 可视电话:图像分辨率为176144,采用1TU-T H.263建议,码率为64 kb/s以下,经调制解调后,能在现有的模拟电话线上传送活动的彩色电视电话图像,因此也称为极低码率的图像编码。 (5) 高清晰度电视:图像分辨率可高达19201

35、080,具有两倍于现有标准的水平和垂直清晰度,采用ISO MPEG-2标准, 码率约为20 Mb/s。 第2章 信源编码 2 . 帧间预测编码帧间预测编码 帧间预测将画面分为以下3种区域: (1) 背景区。 相邻的帧背景区的绝大部分数据相同, 帧间相关性很强。 (2) 运动物体区。若将物体运动近似看作简单的平移, 则相邻帧的运动区的数据也基本相同。假如能采用某种位移估值方法对位移量进行“运动补偿”,那么两帧的运动区之间的相关性也是很强的。 (3) 暴露区。暴露区是指物体运动后所暴露出的曾被物体遮盖住的区域。如果存储器将暴露区的数据暂存,则遮盖后暴露出来的数据与存储的数据相同。若是画面从一个场景

36、切换为另一场景, 就没有帧间相关性了。 第2章 信源编码 1) 空间分辨率和时间分辨率的交换 人眼对静止图像的分辨力较高,因而在传输静止图像或图像的静止部分时要有较高的分辨率,但可以减少传输的帧数, 而在接收端依靠帧存储器把未传输的帧复制出来。人眼对于图像中运动物体的分辨率随着物体运动速率的增大而降低,摄像器件和显示器件也有一定的积分模糊效应,因而在传输图像中的运动物体时可以降低这部分图像的分辨率。物体的运动速度越高,可用越低的分辨率进行传输,这种方法就叫做空间分辨率和时间分辨率的交换。 第2章 信源编码 2) 帧内、 帧间自适应编码 对于变化缓慢的图像,帧间相关性强,宜采用帧间预测; 当景物

37、的运动增大时,帧间相关性减弱,而由于摄像机的“积分效应”,图像的高频成分减弱, 帧内相关性反而有所增加,应采用帧内编码。因此,编码器应进行帧内、 帧间自适应编码。 3) 运动补偿预测编码 对于运动的物体, 估计出物体在相邻帧内的相对位移,用上一帧中物体的图像对这一帧的物体进行预测,将预测的差值部分编码传输, 就可以压缩这部分图像的码率。这种考虑了对应区域的位移或运动的预测方式就称为运动补偿预测编码。帧间预测是运动补偿预测在运动矢量为零时的特殊情况。 第2章 信源编码 运动补偿帧间预测编码包括以下4个部分: (1) 物体的划分: 划分静止区域和运动区域。 (2) 运动估计: 对每一个运动物体进行

38、位移估计。 (3) 运动补偿:由位移的估值建立同一运动物体在不同帧的空间位置对应关系,从而建立预测关系。 (4) 补偿后的预测信息编码:对运动物体的补偿后的位移帧差信号(DFD)以及运动矢量等进行编码传输。 第2章 信源编码 4) 块匹配运动补偿预测 (1) 全搜索算法:估计像素的位移(运动)时, 取以该像素为中心的一个子块,在前一帧图像中寻找一个与之最匹配(相关最大)的子块,匹配子块中心与当前像素的位移即为估计的位移(运动)矢量。估值时要选择合适的子块尺寸N。N小时, 块内各像素的运动一致性好,估计准确度较高, 但运动矢量码率会增大,计算量也会增大。N大时,计算量减小,运动矢量的码率变小,但

39、块内各像素的运动一致性变差,运动估计准确度不高,不能进行有效的运动补偿预测。一般N取16,有时也取4、8或32。在全搜索条件下,块匹配算法达到最优,缺点是运算量大,在实际应用场合常采用性能略低但运算量少的快速算法。 第2章 信源编码 (2) 三步搜索算法TSS(Three Step Search):在三步法中, 搜索范围为8,即在上一帧以当前子块为原点,将当前子块在其上下左右距离为8的范围内按一定规则移动,每移动到一个位置, 取出同样大小的子块与当前子块进行匹配计算。 估计运动矢量的方法常用的还有共轭方向搜索法(CDS)、 二维对数搜索法(LOGS)、交叉搜索法(CS)、动态搜索窗调整搜索法(

40、DSWDS)等。 第2章 信源编码 5) 混合编码 混合编码将变换编码和预测编码组合在一起,通常用DCT等变换进行空间冗余度的压缩,用帧间预测或运动补偿预测进行时间冗余度的压缩,以达到对活动图像更高的压缩效率。通常把变换部分DCT放在预测环内(参见后面要讲到的图2-15), 预测环本身工作在图像域内,便于使用性能优良、带有运动补偿的帧间预测。这种带有运动补偿的帧间预测与DCT结合的方案,其压缩性能高,编码技术成熟,编码延迟较短,已成为活动图像压缩的主流方案。 第2章 信源编码 3. ITU-T H.261 1) 公共中间格式 为了便于不同制式的彩色电视信号的互连,ITU提出先把不同制式的彩色电

41、视信号都转换成公共中间格式CIF(Common Intermediate Format):亮度信号按每行352个像素,每帧288行进行正交抽样, 抽样频率为6.75 MHz;色差信号按每行176个像素,每帧144行进行正交抽样,抽样频率为3.375 MHz;以29.97帧/s的速率逐行扫描。QCIF(Quarter CIF)格式的亮度和色度样点数在水平和垂直方向都减半,亮度信号为176144,色差信号为8872,还是以29.97帧/s的速率逐行扫描。 第2章 信源编码 图2-13 CIF图像的层次结构 块组宏块块变换系数第2章 信源编码 2) 数据结构 CIF和QCIF的数据结构分为以下4个层

42、次: (1) 图像层:由图像头和块组数据组成。图像头由一个20比特的图像起始码、 视频格式、时间参数(帧数)等标志信息组成。 (2) 块组层:由块组头和宏块数据组成。块组头由16比特的块组起始码、块组编号、量化步长等组成。 (3) 宏块层:由宏块头和块数据组成。宏块头由宏块地址、 宏块类型、量化步长等组成。 (4) 块层:由变换系数(TC)和块结束符(EOB)等组成。 第2章 信源编码 图2-14 H.261数据结构示意图 第2章 信源编码 3) 编码器原理 编码器原理框图如图2-15所示。两个双向选择开关由编码控制器CC控制,当它们同时接到上方时,编码器工作在帧内编码模式,输入信号直接进行D

43、CT, 经过量化处理后再进行变字长编码VLC,得到最后的编码后输出。当双向开关同时接到下方时,编码器利用存储在帧存储器FM中的上一帧图像进行帧间预测,将输入信号与预测信号相减后,对预测误差进行DCT, 经过量化处理后再进行变字长编码VLC,得到最后的编码后输出。此时,编码器工作在帧间编码模式,是一个由帧间预测与DCT组成的混合编码器。 根据应用的需要,还可以加入运动估计和补偿处理MEP,以改善帧间预测的效果。为了使解码器能正确地解码,必须将编码器的工作状态即时通知解码端,为此对每个编码模式和控制参数等辅助信息也要进行编码传输。 第2章 信源编码 图2-15 H.261编码器原理框图 第2章 信

44、源编码 4) BCH纠错 为了提高信道的抗误码能力,H.261采用了一种BCH(511, 493)的纠错编码(详见第4章信道编码)。该编码将发送的比特流分成长度为493 b的数据组, 并对每一组数据进行某种逻辑运算,并将所得的18 b校验数据放在493 b视频数据的后面, 再将这每组511 b的数据送到接收端。 如果发生误码,则在接收端可用校验码经特定的运算查验出错码并纠正。 这种BCH(511, 493)纠错码可在493 b数据中自动纠正2 b的错误。 H.261中规定, 编码器必须进行纠错编码,解码器可选用纠错解码。 第2章 信源编码 5) 编码控制 编码中采用了变长编码技术,因而经压缩编

45、码后的数据流速率是不均匀的。为了使数据流以恒定速率在通信网中传送, 可用缓冲存储器进行数据的平滑。 根据缓冲存储器当前已缓存的数据量,控制源编码器中量化器的量化步长等参数,可得到恒定的速率。H.261中没有具体规定码流的控制方法。 为了防止帧间预测误差的累积, 编码器中采用了一种强迫更新的方法,即H.261中规定: 宏块每传送132次,就应以帧内模式传送一次。但H.261 对具体方法未作规定。 第2章 信源编码 4. ITU-T H.263 1) 更丰富的图像格式 表表2-4 H.263的图像格式的图像格式 第2章 信源编码 2) 两种运动估值块 H.261建议中只对1616像素的宏块进行运动

46、估计,而H.263建议中不仅可以用1616像素的宏块为单位进行运动估计,还可以根据需要对88像素的子块进行运动估计,即每个宏块可使用4个运动矢量。 3) 更高效的运动矢量编码 在H.261中,对运动矢量采用一维前值预测与VLC相结合的方法编码,在H.263中,则采用更为复杂的二维预测与VLC相结合的编码。 第2章 信源编码 4) 半像素运动估计精度 在H.261中,运动的估值精度为整数像素,范围为(-16, +15), 而在H.263中,采用半像素精度,范围为(-16.0, +15.5)。 H.263中采用双线性内插来得到运动估计用的半精度像素的预测值,如图2-16所示。 第2章 信源编码 图

47、2-16 双线性内插预测半精度像素 第2章 信源编码 5) 增加了高级选项 除了采用半像素精度进行运动估计以外, H.263的基本编码方法与H.261相同。为了能适合极低码率的传输,H.263增加了4个编码的高级选项,进一步提高了编码效率,在极低码率下获得了较高的图像质量。 (1) 无限制的运动矢量模式。当某一运动矢量所指向的参考像素超出编码图像区域时,就用其边缘的图像值代替“这个并不存在的像素”,有效改进边缘有运动物体的图像的质量。 (2) 基于语法的算术编码(SAC)。可变长编码、解码过程都用算术编码、 解码过程取代, 这将显著降低所需的码率。 第2章 信源编码 (3) 高级预测模式。对P

48、帧的亮度分量采用所谓交叠块运动补偿(OBMC)方法,即某一个88子块的运动补偿由本子块和周围4个子块的运动矢量加权平均得到; 对某些宏块(1616)用4个运动矢量,每个子块(88)都有一个运动矢量,用它们取代原来一个宏块的运动矢量。 本模式减少了方块效应,明显改进了图像质量。 (4) PB帧模式。PB帧名称来源于MPEG标准。一个PB帧包含一个P帧和一个B帧,P帧是由前一个P帧预测得到,B帧是由前一个P帧和本PB帧单元中的P帧进行双向预测编码得到。 双向预测过程如图2-17所示。 第2章 信源编码 图2-17 PB帧双向预测过程示意图 第2章 信源编码 5. MPEG-1 1) 图像格式SIF

49、 MPEG-1只处理逐行扫描的图像,对隔行扫描的图像源应先转换为逐行扫描格式后再编码;输入的视频信号必须是数字化的一个亮度信号和两个色差信号(Y,CB,CR),要使码率为11.5 Mb/s,应该选择图像速率为24、25帧/秒或30帧/秒,水平分辨率在250400 像素, 垂直分辨率在200300线的图像。对于典型的应用, MPEG-1定义了SIF格式。表2-5和图2-18分别为由CCIR601到SIF的格式转换数据和采样模式。 第2章 信源编码 表表2-5 由由CCIR601到到SIF的格式转换数据的格式转换数据 第2章 信源编码 图2-18 由CCIR601到SIF的格式转换采样模式(a)

50、ITU-R601(422)采样点; (b) MPEG-1(SIF)采样点 第2章 信源编码 2) 视频结构 图2-19 MPEG视频结构 第2章 信源编码 (1) 视频序列。视频序列也称图像序列,它是随机选取节目的一个基本单元。从节目内容看,一个视频序列大致对应于一个镜头。切换一个镜头, 即表示开始一个新的序列。 (2) 图像组。图像组是将一个图像序列中连续的几个图像组成一个小组,简称为GOP。它是对编码后的视频码流进行编辑存取的基本单元。 第2章 信源编码 (3) 图像。图像是一个独立的显示单元,也是图像编码的基本单元,可分为I、 P和B三种编码图像。 I帧(Intracoded pictu

51、re,帧内编码图像帧):不参考其它图像帧而只利用本帧的信息进行编码。 P帧(Predictivecoded Picture, 预测编码图像帧): 由一个过去的I帧或P帧采用有运动补偿的帧间预测进行更有效的编码; 通常用于进一步预测之参考。 B帧(Bidirectionally predicted picture,双向预测编码图像帧):提供最高的压缩,它既需要过去的图像帧(I帧或P帧),也需要后来的图像帧(P帧)进行有运动补偿的双向预测。 第2章 信源编码 VCD中常用的图像组结构是: B.B.I.B.B.P.B.B.P.B.B.P.B.B.I.B.B.P , 即M=3,N=12。M为两个参考帧

52、之间的B帧数目加1, N为一个图像组内的图像帧的总数目。 B帧有较高的压缩比,所以视频编码器总编码效率很高; I帧和P帧的压缩比不高,但可保证较高的重建图像质量。还有一种D帧(DC coded Picture,直流编码帧),其仅用于快进或退回显示低分辨率图像。实时地进行MPEC-1解码已有相当的难度, 如希望以正常速度的10倍播放视频,则要求就更高了, 而D帧正是用来产生低分辨率图像的。每一D帧的入口正好是一个像块的平均值,没有更进一步的编码,这样可以容易地实时播放。 这一措施很重要,使人们能以高速度扫描影片,以搜索特定场面。 第2章 信源编码 (4) 像条。像条是发生误码且不可纠正时, 数据

53、重新获得同步,从而能正常解码的基本单元。像条由一系列连续的宏块组成。在MPEG-2中,像条的第一和最后一个宏块应处在同一水平宏块排内。例如,对于分辨率为720576的画面来说,一帧图像里有36个宏块排(1636576),宏块排内可以有不同的像条划分方法。一个宏块排内像条数最多为45个(每个宏块(1645720)构成一个像条),最少为1个(45个宏块构成一个像条)。 每个宏块排内像条数增多,虽有利于误码后的重新正确解码, 但却增加了码流中附加的信息,降低了编码效率。 在大多数情况下,像条不必覆盖整幅图像。未包括在像条中的区域不作编码,即这些区域内无信息进行编码(在特定的图像中)。 当像条没有包括

54、整幅图像时,如果该图像随后用于预测, 则预测仅在像条所包括的区域上进行。 第2章 信源编码 (5) 宏块。宏块是运动预测的基本单元。运动估计以宏块为单位,借此得到最佳匹配宏块的运动矢量。运动预测只对亮度阵列进行,对应的色差阵列的运动估计使用和亮度阵列相同的运动矢量。 一个宏块由一个1616像素的亮度阵列和同区域内的CB、 CR色差阵列共同组成。由于在MPEG-1中图像的色度格式是420,而在MPEG-2中图像的色度格式还包括422和444格式, 因此,一个宏块又由许多88的块组成。 第2章 信源编码 一个420的宏块由6个块组成,其中有4个亮度块和两个色度块。 一个422的宏块由8个块组成,其

55、中有4个亮度块、两个CB块和两个CR块。 一个444的宏块由12个块组成,其中有4个亮度块、4个CB块和4个CR块。 第2章 信源编码 (6) 块(像块)。 块或称像块,是DCT变换的基本单元。 一个宏块可以划分为若干个88 像素的阵列, 简称为块, 它可以是亮度块或色差信号块。像块经过DCT变换后得到的64个DCT系数阵列, 可称为系数块。 第2章 信源编码 3) 固定数码率和可变数码率 视频编码可以采用固定数码率CBR(Constant Bit-Rate)或可变数码率VBR(Variable BitRate)。 视频编码采用固定数码率就是保持每个图像组(GOP)都有相同的平均数码率。当输入

56、的图像内容有可能使输出的平均数码率超出额定值时,将不得不瞬时地牺牲图像局部的、瞬时的主观质量(例如,增大量化器的步距, 或者瞬时对图像的某些部分“跳过(skip)”而暂不编码;只要一般观众不容易察觉或者瞬时尚可接受即可),以维持输出的视频数码率保持不变。另一方面, 当图像内容不复杂时,又不得不大量地插入毫无意义的“填充码(stuffing bits)”,来维持输出的视频数码率为预定的恒定值。 固定数码率的视频编码算法简单易行,但编码效率不高。 第2章 信源编码 4) 算法概述 对I帧的编码类似于JPEG,例如基于人的视觉特性的量化矩阵,对DC分量用特定的量化步长并且进行预测编码,对AC分量进行

57、Z字形扫描和二维VLC编码。P帧编码利用过去的I帧或P帧进行运动补偿预测,可得到更有效的编码。 B帧编码能提供最大限度的压缩, 它需要参考过去和将来的I帧、 P帧进行运动补偿,但B帧不能用作预测参考。对于P帧和B帧的处理类似于H.261,例如运动矢量的预测编码,编码模式和宏块类型的VLC编码等。此外,对于预测误差,可利用DCT进一步压缩其空间冗余度,用同一个量化器对其进行均匀量化后, 再进行Z字形扫描和二维VLC编码。 第2章 信源编码 5) 编码 MPEG-1编码器与图2-15的H.261编码器方框图类似,只是在对B帧编码时,要有两个帧存储器分别存储过去和将来的两个参考帧,以便进行双向运动补

58、偿预测。编码器必须在图像质量、编码速率以及编码效率之间进行综合考虑, 选择合适的编码工作模式和控制参数。 传输码流中编码图像的顺序称为编码顺序,在解码输出端重建图像的顺序称为显示顺序。引入B帧图像后,视频序列的编码顺序与显示顺序是不同的。若在编码器输入端或解码器输出端的显示顺序为 第2章 信源编码 12 3 4 5 6 7 8 9 10 11 12 13I B B P B B P B B P B B I则在编码器的输出端、编码码流中和解码器输入端的编码顺序为 14 2 3 7 5 6 10 8 9 13 11 12I P B B P B B P B B I B B第2章 信源编码 图像组中图像

59、的数目虽然是没有限制的,但一般也不宜过多,隔一定时间就应在图像序列中传送一幅I帧图像。在某些情况下,例如接收机刚开机、切换频道或存在严重的信道误码时, 作为参考图像的I帧图像可能丢失,图像组中的其它图像因无法进行解码而使接收处于混乱状态。适当选择图像组的长度可使这种“混乱”不被察觉。另外,图像组中的I帧图像是视频编辑的切入点,为了能在快进或快退状态后随机访问图像序列,也必须频繁地发送I帧图像。I帧图像编码后的数码率比P帧图像和B帧图像高得多,因此为获得速率恒定的码流,需要缓冲存储器及复杂的控制方法。 第2章 信源编码 6) 缓存器控制 按照MPEG标准编码,信源编码是可变长编码VLC, 不同类

60、型的图像帧(I、P、B帧)采用不同的压缩算法, 复用后的传送比特流的数码率随时间变化。 在恒定码率的信道中传输时, 需要一个缓存器来平滑时变的数码率, 以便和信道的码率相匹配。 VBV(Video Buffer Verifier, 视频缓冲校对器)是设想的连接到编码器输出的缓存器。它的大小用VBV-Buffer-size标志。 第2章 信源编码 (1) 反馈控制法根据缓存器数据量来调整编码的量化步长因子qp,使视频流趋于恒定。当缓存器数据量大时,采用大的量化步长因子进行粗量化,失真度增加, 编码后的比特数减少, 缓存器的输入码率降低;当缓存器数据量小时, 采用小的量化步长因子进行细量化,量化失

61、真度减小,编码后的比特数增加, 缓存器的输入码率随之增大。缓存器的数据量一直在动态变化, 不致于“溢出”或“取空”。qp是一个对输出码流的长度和图像重建质量都至关重要的参数,也是系统失真度的表征,因为它直接影响编码后比特数的多少,进而影响重建质量的好坏。 第2章 信源编码 (2) 跳B帧处理法是一种紧密结合MPEG信号的编码特点, 避免缓存器溢出的跳帧处理方法。它根据图像质量的要求设定一个上溢门限,用以保护重要数据不被丢失,同时保证缓存器不会因门限过低而经常出现溢出。当溢出发生时,可控制缓存器跳过当前的图像帧数据,甚至下帧数据,以确保缓存器内有足够空间来暂存后续输入的重要图像数据。 第2章 信

62、源编码 7) 音频编码 MPEG-1用32 kHz、44.1 kHz和48 kHz的频率对音频波形采样, 并对数字音频信号实行快速傅立叶变换,将它从时域变换到频域, 将得到的频谱划分为32个频带,每个频带独立处理。 当两个立体声道出现时,两个高度重叠的音源间的内部冗余也要被消除。编码后的MPEG音频流的可调节范围为32448 kb/s。 相关内容详见2.2.3小节。 第2章 信源编码 8) 视频流和音频流的同步 音频和视频编码器各自独立工作,因而存在两个数据流在接收方如何同步的问题。这个问题是通过一个90 kHz的系统时钟向两个编码器输出当前的时间值来解决的。这个值有33 b,可以使电影连续放

63、映24小时而不绕回。这些时间戳被包含在编码输出中向接收方传送,可以利用它们来同步音频流和视频流。 符合MPEG-1标准的单片编码芯片有Digital Equipment Corporation的DECchip 21230、WINBOND公司的W99200。另外, MPEG-2编码芯片也具有MPEG-1编码功能。 第2章 信源编码 6. MPEG-2标准标准 1) 类和级 为了适应广播、通信、计算机和家电视听产品的各种需求, 适应不同的数字电视体系,MPEG-2有4种输入格式(用级(levels)加以划分)和5种不同的处理方法(用类(profiles,也译成档次)加以划分)。 (1) 低级LL(

64、Low Level)的图像输入格式,以亮度像素(记为pel)数目计算,为35224030 pels或35228825 pels, 最大输出数码率是4 Mb/s。 第2章 信源编码 (2) 主级ML(Main Level)的图像输入格式完全符合ITU-R601标准,即72048030 pels或72057625 pels, 最大输出数码率为15 Mb/s(高类主级是20 Mb/s)。 (3) 高1440级H14L(High-1440Level)的图像输入格式是14401152 pel/s的高清晰度格式,最大输出数码率为60 Mb/s(高类为80 Mb/s)。 (4) 高级HL(High Leve

65、l)的图像输入格式是19201152 pel/s的高清晰度格式,最大输出数码率为80 Mb/s(高类为100 Mb/s)。 第2章 信源编码 在MPEG-2的5个类中,每升高一类将提供前一类未使用的附加的码率压缩工具,编码更为精细。类之间存在向后兼容性, 若接收机能解码用高类工具编码的图像,也就能解码用较低类工具编码的图像。 (1) 简单类SP(Simple Profile)是最低的类。 (2) 主类MP(Main Profile)比简单类增加了双向预测压缩工具。 主类没有可分级性,但质量要尽量好。 (3) 信噪比可分级类SNRP(SNR Scalable Profile)。 第2章 信源编码

66、 (4) 空间可分级类SSP(Spatially Scalable Profile)。 SNRP和SSP两个类允许将编码的视频数据分为基本层以及一个以上的上层信号。基本层包含编码图像的基本数据,但相应的图像质量较低。上层信号用来改进信噪比或清晰度。以上4个类是逐行处理色差信号的(例如420)。 (5) 高类HP(High Profile)则支持逐行同时处理色差信号(例如422),并且支持全部可分级性。MPEG-2的类和级见表2-6, 表中MPEG-2格式用类和级的英文缩写词来表示,例如MPML指的是主类和主级。 目前标准清晰度数字电视采用这种格式。 第2章 信源编码 表表2-6 MPEG-2的

67、类和级的类和级 第2章 信源编码 422标准是为演播室制定的要求较高的分量编码标准。 在某些应用场合,压缩数码率可采用较低档次的编码标准, 常用的有420和411标准。在420标准中, 亮度信号与色差信号的抽样频率与422标准的相同,但两个色差信号每两行取一行,即在水平和垂直方向上的分解力均取为亮度信号的一半。在411标准中,Y、U、V的抽样频率为13.5、3.375、 3.375 MHz, 即两个色差信号在垂直方向上的分解力与亮度信号相同, 在水平方向上则为亮度信号的14。 以上这些标准的幅型比都是43。 第2章 信源编码 2) 可分级性 同一类不同级的图像分辨率和数码率相差很大。 为保持解

68、码器的向下兼容性,MPEG-对于增强层, 要进行以下的工作: (1) 通过反量化和IDCT重建基本层图像。 (2) 对基本层图像进行空间上采样。每个像素复制4次可实现14比率的空间上采样。 (3) 从原始图像中减去上采样的基本层图像。 (4) 对残差进行DCT,并用小于基本层的量化参数进行量化。 (5) 用VLC编码量化比特。 第2章 信源编码 2) 可分级性 (1) 通过反量化和IDCT重建基本层图像。 (2) 对基本层图像进行空间上采样。 每个像素复制4次可实现14比率的空间上采样。 (3) 从原始图像中减去上采样的基本层图像。 (4) 对残差进行DCT, 并用小于基本层的量化参数进行量化

69、。 (5) 用VLC编码量化比特。 第2章 信源编码 图2-20 两层空间可分级编、 解码器示意图(a) 编码器; (b) 解码器 第2章 信源编码 信噪比分级提供相同的图像分辨率但有不同的质量等级。 例如,基本层码率为34 Mb/s 时可提供相当于现有NTSCPALSECAM制的图像质量。通过使用基本层和增强层两个比特流,增强解码器可以输出主观质量接近演播室的图像, 其总码率为712 Mb/s。 SNR分级方案也能够作为一种误码掩盖机制使用。例如,如果接收到误码率不一样的两层比特流, 若增强层被破坏, 则可以用保护得较好的基本层进行解码。 可分级性是MPEG-2及其以上标准的显著特征之一。可

70、分级性指的是接收机可视具体情况对编码数据流进行部分解码。 第2章 信源编码 3) 数据划分 在信道和发射功率受到限制时,希望在比较差的条件下收到质量略差些的图像,而不致于根本没有图像。为此,MPEG-2中采用了数据划分技术。 数据划分的基本思想是将有关解码的重要信息,如控制信息、运动矢量和DCT的低频分量系数等放在一起,占用部分频带,以较高的能量发射,以保证接收;而在另外频带中放置次要的数据, 以不太高的能量发送。 第2章 信源编码 4) MPEG-2编码的新功能 (1) 基于场或基于帧的DCT。 (2) 4种图像预测和运动补偿方式。 (3) 运动矢量搜索精度以半像素为单位。 第2章 信源编码

71、 5) MPEG-2视频解码器 图2-21是MPEG-2视频解码器示意图,TS流经过解复用输出视频基本流ES和运动矢量MV。ES经IQ反量化和IDCT变换后输出重建的宏块差值MB。 第2章 信源编码 图2-21 MPEG-2视频解码器示意图 第2章 信源编码 2.1.7 数字音数字音/ 视频编视频编/ 解码技术标准解码技术标准AVS 1. AVS标准的技术路线标准的技术路线 制定AVS标准的基本技术路线是“大胆采用主流技术,小心规避国外专利”, 即在清楚分析国际标准的发展历程、技术框架、关键技术和利益关系的基础上,采用当前国际主流的技术方案,在认真分析本领域已注册专利的基础上,大胆采用国际范围

72、内积累的公开编码压缩技术,用自主技术“绕开”正在处于专利保护期的技术,加入我国自主创新的成果,制定性能上超过国际标准、 技术上具有自主权的国家标准。 第2章 信源编码 以AVS视频编码标准为例,整个技术框架包括八大技术模块:变换、量化、预测、变长编码、环路滤波器、帧间预测、 熵编码器和场编码。AVS使用了很多不受专利保护的公开技术(主要是前5个模块)。 在AVS的自主专利中, 一部分是针对国际专利提出的另外一种解决方案(主要是后3个模块),另一部分是创新技术。 第2章 信源编码 2. AVS标准的特点标准的特点 (1) 高效。 AVS比MPEG-2编码效率高两倍, 与H.264编码效率相当。

73、(2) 复杂度低。AVS拥有两个参考图像,最小的运动补偿块为88; 许多在HD-TV和HD-VD (High Definition Video Disk, 高清晰度视盘)应用中不需要的编码工具被删除, 与MPEG-2系统兼容。电视台现有的基于MPEG-2的编辑与传输系统不需要改变。 (3) 许可费低。 MPEG-2的许可费为20元, 而AVS的许可费初步定为1元。 第2章 信源编码 3. AVS产业实现的可行性产业实现的可行性 1) 芯片实现 AVS标准在数字电视系统的关键产品实现是AVS编码和AVS解码芯片。前者能够把各种输入音/视频信号编码压缩为AVS码流,用于数字电视节目播出。 后者作为

74、数字电视机顶盒或接收机中的核心芯片。 第2章 信源编码 2) 数字电视运营业 数字电视运营系统的三个主要环节是:制作、播出、传输。其中制作(电视台演播室)和传输(数字电视传输网)是数字电视运营业投入最大的部分,但二者都与播出节目所采用的格式无关, 因此采用AVS, 不影响这些设备的既有投入。 对于已经开播数字节目的电视台,如果要换成AVS,惟一要求修改的是播出环节。数字电视播出设备包括编码器、复用器以及信号调制设备等,只需要替换编码器, 其它设备不需要改变。具体方法是用AVS编码器替换MPEG-2编码器,或在MPEG-2编码器的基础上增加MPEG-2到AVS的转码模块,从而实现AVS码流播出。

75、每路数字节目需要一台编码器, 每台编码器费用大约为10万元人民币。 第2章 信源编码 3) 数字电视制造业 在不同的国家和地区,数字电视会采用不同的“制式”。 这包括3个层面: 在信道标准方面,存在DVB、ATSC、 ISDB和中国标准4种制式; 在信源方面, 存在MPEG-2、MPEG-4 AVC 和AVS 3种制式; 在节目格式方面,美国规定了18种格式, 中国广电部门选择了其中的几种。 无论是AVS标准还是MPEG标准,信源解码的物理实现都是一块解码芯片。 这块芯片和整机其它部分之间的接口是统一的。数字电视接收机通过更换解码芯片, 可以支持不同的信源标准。接收机制造商可以根据目标市场的信

76、源标准,更换解码芯片后出口销售。 第2章 信源编码 AVS标准对接收机制造商的利益不仅仅是节省专利费。国外厂商可能会以多种技术贸易措施(TBT)对我国制造业进行牵制, AVS提供了一个互为准入、 交叉许可的谈判筹码, 即外商接收机要进入中国,就必须符合AVS标准。也就是说,AVS为国际、 国内两个市场的相互准入提供了技术手段。 如果在标准互为准入方面能够相互制衡, 我国制造业的被动局面就可能改观。在标准制衡的情况下, 覆盖市场规模大的一方会占据相对有利的地位。 第2章 信源编码 4) 高清晰度视盘机 我国正在发展自主的光盘和光盘机技术与标准EVD(详见2.2.2小节)。 红光光学伺服系统和盘片

77、较为切实可行,但是需要3张以上的盘片才能存放一部MPEG-2编码的高清晰度电影。 由于用AVS压缩高清晰度节目的效率比MPEG-2高3倍, 因此一张盘片就可以存放一部电影。AVS和EVD配合, 就可以产生我国的高清晰度视盘机。 新一代视盘机能否播放已有DVD光盘是一个重要问题。开发支持AVS和MPEG-2两种格式的播放机没有技术障碍,只要有大的市场需求,例如超过500万块芯片,一个制式和两个制式芯片的成本相差不会超过0.5美元。 第2章 信源编码 *2.1.8 MPEG-4和和ITU-T H.264 1. MPEG-4 1) 合成视频编码 计算机图形和以往的压缩编码都属于合成视频信息。 MPE

78、G-4把人工合成信息数据算作一种新的数据类型,支持对人工合成VO(Video Object)数据与自然VO数据的混合编码,即合成与自然混合编码(SNHC)。SNHC提供了对人工合成信息的具体描述,定义了有关图形文本的多种表达方式。例如,2D网格对象、3D人脸和身体对象、3D网格对象等都是描述合成信息的。SNHC文本表达方式设计了合成图形对象的描述框架、 通用的数据流结构和灵活的接口。SNHC支持媒体间更灵活的混合方式,能减少混合媒体的存储空间和带宽,并为此提供了一种基于合成的自然视频编码纹理网格编码。它的核心是基于网格的纹理映射,将要表达的图像区域划分成合成网格, 采用映射的方法将实际拍摄的自

79、然纹理图像直接贴到该网格区域上。 第2章 信源编码 2) 自然视频编码 MPEG-4自然视频码流的层次化数据结构分为如下5层: (1) 视频序列VS(Video Sequence)。 VS对应于场景的电视图像信号。VS层由VS0、VS1、VSn组成,是整个场景在各段时间的图像。 VS由一个或多个VO构成。 (2) 视频对象VO(Video Object)。VO对应于场景中的人、物体或背景,它可以是任意形状。VO层由VO0、VO1、VOn组成,是从VS中提取的不同视频对象。 (3) 视频对象层VOL(Video Object Layer)。VOL指VO码流中包括的纹理、形状和运动信息层。VOL用

80、于实现分级编码。 VOL层由VOL0、VOL1、VOLn组成,是VO的不同分辨率层(一个基本层和多个增强层)。 第2章 信源编码 (4) 视频对象平面组GOV(Group of VOP)。 GOV层是可选的。 GOV由多个VOP组成。GOV提供了比特流中独立编码VOP的起始点, 以便于实现比特流的随机存取。 (5) 视频对象平面VOP(Video Object Plane)。VOP层由VOP0、 VOP1、VOPn组成,是VO在不同分辨率层的时间采样。 VOP可以独立地进行编码(I-VOP), 也可以运用运动补偿进行编码(P-VOP和B-VOP)。VOP可以是任意形状的。 第2章 信源编码 M

81、PEG-4基于对象概念的视频编/解码器原理框图如图2-22所示。首先,对自然视频流进行VOP分割,由编码控制器为不同VO的形状、运动、纹理信息分配码率,并由VO编码器对各个VO分别进行独立编码,然后将编码的基本码流复用成一个输出码流。 编码控制和复用MUX(Multiplex,多路复用)部分可以加入用户的交互控制或智能算法控制。接收端经解复用DEMUX(Demultiplex,多路信号分离)将各个VO分别解码, 然后将解码后的VO合成场景输出。解复用和VO合成时同样可以加入用户交互控制。视频对象(VO)编码器包括3个部分:形状编码部分、 运动补偿部分以及纹理编码部分。 第2章 信源编码 图2-

82、22 MPEG-4视频编/解码器(a) 编码器结构; (b) 解码器结构 第2章 信源编码 2. ITU-T H.264 1) 按功能进行分层 H.264将 整 个 编 码 结 构 分 成 网 络 抽 象 层 NAL(Network Abstraction Layer)和视频编码层VCL(Video Coding Layer)。视频编码层进行视频压缩、解压缩操作。而网络抽象层专门为视频编码信息提供文件头信息,安排格式,以利于网络传输和介质存储, 具有更强的网络友好性和错误隐藏能力。 第2章 信源编码 2) 树状结构运动补偿 H.264为亮度分量提供1616, 168, 816和88四种宏块划分

83、方式,还能将88 宏块进一步划分成84、 48和44三种子宏块。每个分块都有各自的运动向量。基于上述划分的运动补偿被称作树状结构运动补偿。 3) 1/4像素运动矢量估计 为了得到更接近于原始图像的重建图像,H.264将运动矢量的精度提高到14像素。14像素采样值的获得分为两步: 第一步是用多个整数点像素采样值经过FIR滤波器输出得到部分12像素精度插值,再用已得到的12像素值继续通过相同的FIR滤波器得到余下12像素值;第二步是用12像素值进行双向线性插值, 得到14像素值。 第2章 信源编码 4) 整数变换 为做进一步的压缩处理,从运动估计和补偿出来的结果将被从空间域转化为频率域。这在以前的

84、编码标准中大多都采用了88的离散余弦变换,而在H.264中则采用了44的整数变换。 其变换公式为Y=HXHT, 其中X为要被变换的44像素块,而 这种整数变换其实是DCT的一种近似,但它将DCT中的浮点运算改为整数运算,可减少系统的运算量。同时,它用减小量化精度的方法降低数据量, 用对更小的数据块(44)进行处理来减小失真, 从而进一步提高了图像质量和编码效率。 第2章 信源编码 5) 块间滤波器 视频信息编码重建以后, 块间亮度落差会变大,图像出现马赛克现象,影响人的视觉感受。H.264通过在块间使用滤波器来平滑块间的亮度落差,使重建后的图像更加贴近原始图像。 H.264的滤波器同时又是可选

85、择的, 对于原本就存在较大变化的边缘部分可以不采用滤波器,以保证原始信息不受破坏。 第2章 信源编码 6) 熵编码 H.264使用了两种熵编码方法,即基于上下文的自适应变长编码CAVLC(Contextbased Adaptive Variable Length Coding)与通用的变字长编码UVLC(Universal Variable Length Coding)相结 合 的 编 码 和 基 于 上 下 文 的 自 适 应 二 进 制 算 术 编 码CABAC(Context-based Adaptive Binary Arithmetic Coding)。 采用CAVLC和CABAC可

86、以根据上下文的内容,自适应地调整符号概率分布,保证在当前编码过程中用较短的码字表示概率较大的符号。 第2章 信源编码 7) 切换帧 H.264通过使用切换帧实现不同传输速率、不同图像质量间的切换,能最大限度地利用现有资源减少因缺少参考帧而引起的解码错误。要达到切换的目的,就必须实现视频流的过渡, 切换帧SP的思想是在两股视频流的基础上再引入一股视频流, 这股视频流中的帧能够从源视频流的帧预测得到, 同时能够预测目标视频流中的帧。 先对切换目标B2进行变换和量化,然后对经过运动补偿的被切换帧A1进行变换和量化。在变换域中形成参考值与真实值的差, 对其进行变长编码即可得到切换帧SPAB2。 第2章

87、 信源编码 2.2 音频压缩技术音频压缩技术 2.2.1 音频信号压缩的可能性音频信号压缩的可能性 人耳可以听到频率在20 Hz20 kHz之间的声波。这种声波被称为音频信号, 主要分为三种: 语音, 频率在200 Hz3.4 kHz之间; 音乐声, 频率在20 Hz20 kHz之间; 效果声, 如自然现象产生的刮风、下雨、打雷等声音,或人工产生的爆破声、 拟音等, 对语音和音乐起补充作用。 根据统计分析,音频信号中存在着多种时域冗余和频域冗余,可以将其进行压缩。根据人耳的听觉特性,也能对其进行压缩。 第2章 信源编码 1. 时域冗余时域冗余 (1) 幅度分布的非均匀性。 音频信号中, 小幅度

88、值比大幅度值出现的概率要大。 语音中的间歇、停顿会出现大量的低电平值。 (2) 数值间的相关性。 语音相邻数据之间存在很大的相关性,当取样频率为8 kHz时,相邻数据间的相关系数大于0.85, 甚至在相距10个数据时还可有0.3左右的相关系数;如果取样频率提高,数据间的相关性将更强。 利用差分编码技术,可以有效地进行数据压缩。 第2章 信源编码 (3) 周期之间的相关性。 一种声音在某一瞬间只含少数频率成分,在周期之间,存在着一定的相关性。 (4) 基音之间的相关性。语音分为浊音(voiced sound)和清音(unvoiced sound)两种基音。浊音是由声带振动产生的,每一次振动使一股

89、空气从肺部流进声道, 发出元音和一些辅音的后面部分。各股空气之间的间隔称为音调间隔或基音周期。清音分成摩擦音和破裂音, 由空气通过声道的狭窄部分产生摩擦音;声道在瞬间闭合,然后在气流的压迫下迅速地放开将产生破裂音。 浊音不仅显示出周期之间的冗余度, 还存在对应于音调间隔的长期重复波形。对浊音最有效的编码方法是对一个音调间隔波形编码, 并以其作为其它音段的模板。男、女声的音调间隔分别为520 ms和2.510 ms,而典型的浊音约持续100 ms, 其中有2040个音调间隔。音调间隔编码能大大降低数码率。 第2章 信源编码 (5) 长时自相关函数。 上述数值、周期间的相关性,都是在20 ms时间

90、间隔内进行统计的短时自相关。如果在几十秒的时间间隔内进行统计, 便得到长时自相关函数。当取样频率为8 kHz时, 相邻数据间的平均相关系数高达0.9。 (6) 静止系数。 在讲话的时候, 会出现字、 词、 句之间的停顿。 分析表明, 语音间隙静止系数为0.6。第2章 信源编码 2. 频域冗余频域冗余 (1) 长时功率谱密度的非均匀性。 在相当长的时间内进行统计平均, 得到长时功率谱密度函数,呈现明显的非平坦性, 意味着没有充分利用给定的频段,存在固有频率冗余度。 (2) 语音特有的短时功率谱密度在某些频率上出现峰值,而在另一些频率上出现谷值。 峰值频率是能量较大的频率,称为振峰频率,它们决定了

91、不同的语音特征。与视频信号类似,整个短时功率谱以基音频率为周期,形成了高次谐波结构,与视频信号的差异在于直流分量较小。 第2章 信源编码 3. 听觉冗余听觉冗余 音频信号最终是给人耳听的, 可以利用人耳的听觉特性人耳的掩蔽效应对音频信号进行压缩。 一个较强声音的存在掩蔽了另一个较弱声音的存在,这就是人耳的掩蔽效应。图2-23 为掩蔽效应的原理图。图中,a,b, c为同时存在的3个频率相近的声音,a声音最强,虚线以下表示的是由于a的存在而使人耳听不到的区域, 因此这条虚线叫做a声音的掩蔽曲线,也称为同听阈曲线。图中的c声音在虚线以下, 所以听不到。把每个频率的这种掩蔽特性相叠加,就可以求出整个频

92、带的掩蔽曲线。 第2章 信源编码 图2-23 掩蔽效应第2章 信源编码 1) 频谱掩蔽效应(Frequency Domain Masking Effect) 人对各种频率可听见的最小声级叫做绝对可听域,也称为静听阈。 在20 Hz20 kHz的可听范围内,人耳对频率为34 kHz附近的声音信号最敏感, 对太低和太高频率的声音感觉都很迟钝。 如果有多个频率成分的复杂信号存在, 那么绝对可听域曲线取决于各掩蔽音的强度、频率和它们之间的距离。图2-24(a)是存在多个声音, 只能听到掩蔽曲线以上的情况。 图2-24(b)是人耳对各种频率的绝对可听域曲线。 将图2-24(a)和图2-24(b)结合就成

93、为图2-24(c)。 低于图2-24(c)中曲线的频率成分人就听不见了, 当然更不必传送了。 第2章 信源编码 图2-24 全频带掩蔽效应(a) 多频率掩蔽曲线; (b) 绝对可听域曲线; (c) 全频带掩蔽效应 第2章 信源编码 2) 时间掩蔽效应(时间掩蔽效应(Temporal Masking Effect) 时间掩蔽效应分为前掩蔽、同期掩蔽和后掩蔽。 在时域内,听到强音之前的短暂时间内已经存在的弱音被掩蔽而听不到,这种现象称为前掩蔽。 强音和弱音同时存在时,弱音被强音掩蔽,这种现象称为同期掩蔽。强音消失后, 经过较长的持续时间,才能重新听到弱音信号,这种现象称为后掩蔽。 三种时域掩蔽效应

94、的时间关系如图2-25所示。 由图2-25可以看到,在前掩蔽期间人耳的听域具有上升的趋势,且持续时间较短,大约为10 ms。 在后掩蔽期间,人耳的听域具有下降的趋势,且持续时间较长, 一般在100200 ms 之间,这是由于人耳收集声强的时间大约为200 ms。 在编码时,可将时间上彼此相继的一些数据值归并成块,以降低数码率。人耳还对2 kHz以上的高频率声音信号缺少方向性, 即不能判断频率接近的高频声音信号的方向, 利用这个特性, 可把多个声道信号的高频部分压缩编码到一个公共声道中。 第2章 信源编码 图2-25 时间掩蔽效应 第2章 信源编码 1. 概述概述 MUSICAM编码叫做掩蔽型自

95、适应通用子频带综合编码与复用(Masking Pattern Adapted Universal Subband Integrated Coding and Multiplexing)。 MUSICAM不仅采用了子带编码、 变换域编码等频域措施,而且在量化比特分配等环节还充分利用了人耳的听觉特性,如听觉阈值(即低于该值的声音便听不到)、听觉掩蔽效应等心理声学因素。MUSICAM编码方法与MPEG Audio标准层相同,欧洲的数字广播及高清晰度电视都采用此标准。 第2章 信源编码 MUSICAM编码的取样速率(频率)为32 kHz、 44.1 kHz和48 kHz三挡; 采用16比特均匀量化;

96、单音的数码率为32 kb/s、 64 kb/s、 96 kb/s、 128 kb/s和192 kb/s五挡; 立体声数码率为128 kb/s、 192 kb/s、 256 kb/s和384 kb/s四挡, 比只采用PCM编码的激光唱片数码率1.4 Mb/s要低得多。 第2章 信源编码 2. MUSICAM编码器编码器 图2-26 MUSICAM编码器原理方框图 第2章 信源编码 1) 滤波器组 滤波器组由具有特殊相位关系和相等带宽(750 Hz)的多相滤波器构成,其作用是将时域中的宽带PCM信号变为32个750 Hz窄带的子频带。滤波器组中各个滤波器都是由一个基本滤波器演变而来的。最低频率的子

97、带滤波器为低通滤波器, 其它子带滤波器是带通滤波器。对PCM信号进行32个子带分割, 就是对PCM信号进行32倍的取样过程,每个子频带取样窗口即为t=1750 Hz=1.3 ms,这么高的时间分辨率,为信号在时域的分析和处理提供了条件。子频带滤波器具有以下特点: 第2章 信源编码 (1) 串行PCM数据流变成32个子频带的并行数据流后,总数码率没有变化。每个子频带内的取样频率降为串行时的1N, 即48 kHz/32=1.5 kHz, 每个子频带的数码率也降为串行时的1N,即768 (kb/s)/32=24 (kb/s),因此,子带分割降低了编码的复杂性。 (2) 提高了单位子频带内的信噪比。子

98、频带内的编码噪声, 在解码后只局限在相应的子频带内,不会扩散到其它子带内, 即使有的子带内信号较弱,也不会被其它子带的编码噪声所掩盖。 第2章 信源编码 2) 快速傅立叶变换(FFT) 输入的PCM信号同时还送入FFT单元。FFT的变换长度N1024,经FFT的输出值送入心理声学模型进行进一步处理。 在取样频率fs=48 kHz时,通过FFT得到的频率分辨率为fs102446.875 Hz。 输入的PCM信号通过多相滤波器组滤波后具有较高的时间分辨率,高的时间分辨率可以保证在有短暂冲击声音信号的情况下,编码的声音信号仍有足够高的质量。输入的PCM信号通过FFT后具有较高的频率分辨率,高的频率分

99、辨率可以实现尽可能低的数据率。 第2章 信源编码 3) 心理声学模型 心理声学模型是模拟人耳听觉掩蔽特性的一个数学模型, 它根据FFT的输出值,计算信号掩蔽比SMR(Signal to Mask Ratio), 计算步骤是:每个频带最大声级的确定;静听阈的确定;信号中的单调成分(类似正弦波)和非单调成分(类似噪声)的确定;从掩蔽音中选取一部分,得到相关掩蔽音; 计算相关掩蔽音各自的同听阈; 由各同听阈确定总同听阈,并进而确定总掩蔽阈;各子频带最小掩蔽阈的确定;计算各子频带被称为“块”的每12个连续取样值的最大声级与最小总同听阈之差(均以分贝表示), 即得到SMR。 第2章 信源编码 4) 比例

100、因子、比例因子、 比例因子选择信息及其编码比例因子选择信息及其编码 比例因子SCF(Scalefactor)是一个无量纲的系数。每个子频带中连续的12个数据值组成一个块,在fs= 48 kHz时,这个块相当于123248103=8 ms。 这样, 在每一子频带中,以8ms为一个时间段,对12个数据值的块一起计算, 求出其中幅度最大的值。 在一个子频带中彼此相继的比例因子差别很小, 可以用12个取样值中的最大值作为块的动态特征值, 然后从规范表中找出与块动态特征值相对应的比例因子,对数据值块幅度进行标定和表示,这就是子带取样值比例因子的提取。 MUSICAM的音频帧长度(24 ms)相应于36个

101、连续子频带取样值, 每个子频带每帧应该传送3个比例因子。 第2章 信源编码 为了降低用于传送比例因子的数据率,还需采取附加的编码措施。由于声音频谱能量在较高频率时会出现明显的衰减, 比例因子从低频子频带到高频子频带出现连续下降,因此将一帧24 ms之内的3个连续的比例因子按照不同的组合共同地编码和传送,信号变化小时,只传送其中一个或两个较大的比例因子,信号变化大时,3个比例因子都传送。可用比例因子选择信息SCFSI(Scalefactor Selection Information)是描述被传送比例因子的数量和位置的信息。SCFSI仅有2 b, 可编码为00、 01、10和11,分别代表传送3

102、个比例因子的4种方法。不需传送比例因子的子频带,也不需要传送SCFSI。采用SCFSI后, 用于传送比例因子所需的数据率平均可压缩约13。 第2章 信源编码 5) 动态比特分配及其编码 比特分配器根据来自滤波器组的输出数据值和来自心理声学模型的信号掩蔽比由掩蔽噪声比MNR来决定比特数。MNRSNR- SMR(dB),式中,信号掩蔽比SMR由子频带中信号的动态范围决定,并由听觉心理模型实时计算输出。 如果SMR值高,说明子带内可掩蔽的噪声幅度大,这样量化信噪比SNR可降低,分配的量化比特数也可减少。反之,SMR值低,允许的噪声幅度要小,则量化信噪比就需要提高,量化比特数分配就要多些。由于音频信号

103、是不断变化的, 因此得到的是一个动态比特率,这就是动态比特分配。动态比特分配的原则是:在满足最佳的听音效果的前提下, 掩蔽噪声比应该达到最小。 第2章 信源编码 6) 子频带数据值的量化编码 子频带数据值的量化编码首先是进行归一化处理,即对每个子频带12个连续的数据值分别除以比例因子,得到用x表示的值,然后按以下步骤进行量化: 计算Ax+B(A、B为量化系数); 取n个最高有效位,n为分配给各子频带的比特数; 反转n个最高有效位,即码位倒置。 第2章 信源编码 7) 音频比特流的格式化 MUSICAM编码器中的帧形成器将比特分配、 比例因子选择信息、 比例因子、量化的子频带数据值、 帧头信息、

104、用于差错检测的码字(CRC)、与节目有关的附加数据(PAD)等组合在一起, 格式化为头部、比特分配、 比例因子选择、 比例因子、音频数据、附属数据的帧格式,每个音频帧对于48 kHz取样频率而言,相当于1152个PCM音频取样,持续期为24 ms。第2章 信源编码 3 MUSICAM解码器解码器 图2-27 MUSICAM解码器的原理方框图 第2章 信源编码 通过对MUSICAM编码器和解码器的分析, 可以归纳出MUSICAM音频编码有以下特点: (1) 利用声音信号的统计规律和人的听觉心理模型,在降低数据处理复杂性和技术实现难度的基础上,有效地降低了数据传输率,在保证高音质的前提下实现了压缩

105、编码,且最终达到了优质的听音效果。 第2章 信源编码 (2) MUSICAM独有的特点是用查表方式实现了声音特征的提取、量化、编码以及传输格式的形成和编码,有利于信号处理和压缩编码;同时对接收机中的解码器来说,只需存储相应的数据表,用查表方法即可恢复信号数据, 而无需复杂的计算过程。 (3) MUSICAM中,每个子频带的比特分配数据表可以利用软件提供, 如果我们改变每个子频带的比特分配表,就可以控制和调整MUSICAM处理数据的数码率,实现对不同的音质要求进行不同的数码率压缩处理。因此,MUSICAM具有灵活的数据处理和应用能力。 第2章 信源编码 2.2.3 AC-3 杜比AC-3规定的取

106、样频率为48 kHz,它锁定于27 MHz的系统时钟。每个音频节目最多可有6个音频信道。 这6个信道是: 中心(Center)、 左(Left)、 右(Right)、 左环绕JP2(Left Surround)、 右环绕(Right Surround)和低频增强LFE(Low Frequency Enhancement)。 LFE信道的带宽限于20120 Hz,主信道的带宽为20 kHz。美国的HDTV标准中,AC-3可以对15.1信道的音频源编码。所谓0.1信道,是指用来传送LFE的信道, 其动态范围可达到100 dB。 第2章 信源编码 图2-28 五声道立体声扬声器的安排 第2章 信源编

107、码 1 AC-3编码原理概述编码原理概述 AC-3编码系统的音频节目有两类:主要业务(main service)和辅助业务(associated service)。 主要业务包含除了对话以外所有音频节目的内容。 辅助业务是要和主要业务一起使用的对话和解说词等。 根据不同用途, 经AC-3压缩以后的数码率有以下四种: (1) 主要音频业务(main audio service)384 kb/s。 (2) 单信道辅助业务(single channel associated service)128 kb/s。 (3) 双信道辅助业务(two channel associated service)19

108、2 kb/s。 (4) 主要业务和辅助业务同时解码的组合数码率572 kb/s。 第2章 信源编码 2 AC-3系统的方框图系统的方框图 AC-3编码器接收声音PCM数据,最后产生压缩数据流。 AC-3算法通过对声音信号频域表示的粗略量化, 可以达到很高的编码增益, 其编码过程如图2-29(a)所示。 第一步把时间域内的PCM数据值变换为频域内成块的一系列变换系数。 每个块有512个数据值,其中256个数据值在连续的两块中是重叠的,重叠的块被一个时间窗相乘, 以提高频率选择性, 然后被变换到频域内。由于前后两块重叠, 每一个输入数据值出现在连续两个变换块内,因此,变换后的变换系数可以去掉一半而

109、变成每个块包含256个变换系数,每个变换系数以二进制指数形式表示, 即一个二进制指数和一个尾数。指数集反映了信号的频谱包络,对其进行编码后, 可以粗略地代表信号的频谱。 第2章 信源编码 图2-29 AC-3编、 解码器原理方框图 (a) 编码器; (b) 解码器 第2章 信源编码 AC-3解码器基本上是编码的反过程, 图2-29(b)是其原理方框图。AC-3解码器首先必须与编码数据流同步,经误码纠错后再从码流中分离出各种类型的数据,如控制参数、系数配置参数、 编码后的频谱包络和量化后的尾数等。然后根据声音的频谱包络产生比特分配信息,对尾数部分进行反量化,恢复变换系数的指标和尾数,再经过合成滤

110、波器组由频域表示变换到时域表示, 最后输出重建的PCM数据值信号。 第2章 信源编码 *2.2.4 其它音频压缩标准其它音频压缩标准 1. G.711G.729语音压缩标准语音压缩标准 语音的数字编码发展较早, 应用也比较成熟。 随着技术的发展,ITU-TS制定了一系列标准,与语音通信相关的有G.711, G.721, G.722, G.728, G.729, G.723.1等。其中, G.711是最为人熟知的PCM标准, 其数码率为64 kb/s。 语音信号的PCM数据流除了作为数字电话应用外,还常常被作为其它的语音处理的原始数据。符合该标准的芯片也很便宜。G.721标准采用ADPCM(自适

111、应差值PCM)算法,将输入的64 kb/s数码率降低到32 kb/s 输出,语音质量高于电话质量,达到了调幅广播质量。 第2章 信源编码 2 MPEGAudio的特点和应用的特点和应用 MPEGAudio是一个通用的音频压缩标准, 提供了多种压缩模式。 (1) 音频取样频率可以是32 kHz, 44.1 kHz或48 kHz。 (2) 压缩的码流可支持以下列四种模式之一表示的一个或两个音频通道: 用于单一音频通道的单声道模式。 用于两个独立音频通道的双单声道模式(功能上与立体声模式相同)。 用于立体声通道的立体声模式, 在通道间共享比特, 但不是相关立体声编码。 相关立体声模式,利用立体声通道

112、间的相关性或利用通道间相位差的不相关性,或同时利用两者。 第2章 信源编码 (3) 每通道的压缩比特流, 可以选择一个32224 kb/s的预先设定的固定比特率, 根据音频取样频率, 这一速率对应于压缩系数2.724。 该标准还支持预先设定数码率以外的固定码率。 (4) MPEGAudio能够从三个独立层进行压缩, 在编码复杂性和压缩后的音频质量之间提供了多种选择。 对于不同的输入通道数、取样频率等参数,制定了MPEG-1Audio、 MPEG-2MC(多通道)、 MPEG-2LSF(低取样频率)三种算法。 按照复杂程度和所达到的质量, 上述三种算法又各自分为基于子带编码的层、层和采用子带编码

113、与自适应变换编码相结合的层, 并分别称为MPEG Layer1、 MPEG Layer2、 MPEG Layer3, 通常缩写为MP1、 MP2、 MP3。 MP1最简单,它最适合于每通道大于128 kb/s(如2192 kb/s)的数码率; 第2章 信源编码 (5) 支持可选的循环冗余校验(CRC)码。 (6) MPEGAudio提供了在比特流中包含辅助数据的方法, 它还具有诸如随机访问、 快进和快退的特点。 第2章 信源编码 3. MPEG-1Audio编、编、 解码器解码器 1) MPEG-1算法 MPEG-1算法有层、层、 层三种算法。 层、 层、 层算法逐渐复杂,同时音质也更高。层、

114、层、层算法的共同点是都建立在32个子带编码的基础之上,层是汇集384个取样加以处理,层是汇集3384=1152个取样加以处理。 从时间分辨率来看,帧长度短一些更有利;从量化数据以外的信息来看,帧长度长些更有效。层使用比较低的数码率,采用较长的帧长度, 通道数为2,取样频率是32 kHz、 44.1 kHz、 48 kHz中的任一个, 这些特征构成了MPEG-1Audio的全部基本算法。 第2章 信源编码 采用MPEG-1Audio算法,而取样频率为上述取样频率的一半,即为16 kHz、22.05 kHz、24 kHz,则成为MPEG-2LSF(Low Sampling Frequency,低取

115、样频率)。采用MPEG-1Audio算法, 取通道数为5, 再加上强调低音的窄带0.1通道构成5.1通道,就是MPGE-2MC(Multichannel, 多通道)。 由此可知,MPEG-1Audio是MPEGAudio算法的核心。 第2章 信源编码 2) MPEG-1Audio编码器和解码器 图2-30是MPEG-1Audio编码器和解码器的基本方框图。 MPEG-1音频是采用频带分割后编码的子带编码系统。 输入的音频信号用滤波器组分割成等宽的32个子频带(取样频率为48 kHz时,子带宽度为750 Hz)信号,将建立在听觉特性基础上的子带信号进行自适应量化,从而可以完成人耳察觉不到量化噪声

116、的高质量编码。 第2章 信源编码 图2-30 MPEG-1/Audio编码器和解码器方框图(a) 编码器; (b) 解码器 第2章 信源编码 (1) 子带分割。子带分割用多相滤波器(PEB)来完成, 它是一种正交镜像滤波器(QMF),其特点是用较少的运算就可进行多个子带的分割。输入的音频信号利用多相滤波器被分割成32个子带信号, 在一帧内,层变换为12个子带取样数据,层、 层变换成36个子带取样数据。 第2章 信源编码 (2) 标定。如果将子带信号直接量化, 那么量化噪声电平由量化幅度决定。当输入信号电平低时,量化噪声较大。因此需用每个子带12个取样数据中的最大值,对子带数据进行归一化,即标定

117、, 使各子带电平一致, 然后再进行量化。 解码时再进行反量化和反归一化(反标定),这样处理可降低量化噪声电平。 归一化处理的比例因子用6比特表示。 第2章 信源编码 (3) 听觉心理模型。 听觉心理模型以人的听觉特性为基础, 对输入的音频信号进行分析,确定每个子带内量化噪声电平小到什么程度耳朵就听不到了。再求出各子带的掩蔽电平和各子带信号掩蔽电平之比,根据这个值来决定各子带的量化比特分配, 比值大的分配较多的量化比特数。 第2章 信源编码 (4) 量化。对已标定的各子带的数据X(n), 用由听觉心理模型决定的量化比特数进行量化,如果某个子带的比特分配为n比特,则YA(n)X(n)+B(n),其

118、中A(n)、 B(n)为计算n比特的量化系数。最后取Y的上位n比特,并将最高位比特反转(即码位倒置)。 第2章 信源编码 (5) 比特流的构成。经过量化的各子带数据,与帧头、比特分配信息、比例因子信息等副信息一起形成比特流。图2-31列出了层和层的比特流帧结构。层只是单纯地把各信息按顺序进行排列;层为固定帧长、每帧有1152个样值的帧结构(有32个子带,每个子带3组,每组12个样本),其中:音频数据是可变长度的,在帧长度的间隙部分可以插入任意辅助数据; 比特分配是指在比特可选范围内为各个子带指定一个比特数; 比例因子和比例因子选择信息SCFSI指定每个子带的振幅最大值, 比例因子是为充分利用量

119、化器的范围而对数据值进行放大和缩小的系数, 每个比例因子用6 b表示。 根据SCFSI, 每个子带可以改变13个比例因子数,每组可有不同的比例因子,然后按照比特分配指定的比特数,将子带数据值进行PCM编码。 第2章 信源编码 图2-31 MPEG-1/Audio比特流帧结构(a) 层帧结构; (b) 层帧结构 第2章 信源编码 (6) 解码器。首先进行比特流的分解,即从比特流中检出“头”的信息, 读取层及比特率等分解必需的信息,然后再读取比特分配信息和比例因子。 在反量化、 反标定单元,按照比特分配信息所给出的每个子带的比特数,从剩下的比特流中取出子带编码数据,并将最上位比特进行反转。层中的组

120、合数据在此分解为3个。这个值以Y表示,某个子带的比特分配若是n比特的话,则有x(n)=C(n)Y+D(n)。C(n)、D(n)为n比特的常数。 用上式求出反量化值X(n), 再乘上比例因子,即可将归一化的子带数据恢复为原来的电平信号。最后利用PEB的反滤波器,将32个子带取样(层时为12个取样/子带,层时为36个取样/子带)分别复原为384和1152个取样的音频数据, 即可完成子带合成的功能。 第2章 信源编码 4 MPEG-2Audio算法概述算法概述 1) 低取样频率算法 MPEG-1Audio算法, 在64 kb/s以下的低比特率时得不到满意的音质评价,这时可采用MPEG-2Audio算

121、法。 MPEG-2/Audio算法通过采用算法不变, 但降低取样频率的办法来确保音质,即引入16 kHz、 22.05 kHz、 24 kHz三种取样频率。 这样一来,比特流的帧头、比特分配平台及听觉心理模型均要作一些变动。用这种算法编码的比特流,MPEG-1Audio的解码器不能解码,但MPEG-2解码器可适用MPEG-1的取样频率, 所以可以对MPEG-1的比特流解码。 第2章 信源编码 2) 多通道MC/多语言ML算法 (1) 多通道格式。现在ITU-R推荐的多通道格式叫作32方式的立体声,就是在通常的左、右扬声器之间配置一个中心扬声器, 在后方向的两边配置两个环绕通道扬声器的方式。除了

122、主通道外,在应用上,还可以附加选用LFE通道(低频加强通道), 它的频带为15120 Hz, 取样频率为主通道的196。 第2章 信源编码 (2) MPEG-2MC与MPEG-1的双向互换性。MPEG-2MC多通道的比特流帧结构如图2-32所示。后向互换性就是MPEG-1的解码器能对多通道编码比特流进行双通道解码。为此,加入了变换为MPEG-1比特流的双通道信息(L0、R0),在相当于MPEG-1的辅助信息区加入了另外的扩展信息。L0、R0由下面两式求得: L0LxCyLs, R0=RxCyRs 式中,Ls和Rs分别为环绕的L和R通道,C为中心通道,x、y为常数。 第2章 信源编码 图2-32

123、 MPEG-2 MC多通道的比特流帧结构 第2章 信源编码 (3) 降低多通道间的冗余度。在多通道中,环绕通道与前方通道有很高的相关性,利用通道间的这种相关性,计算左、右环绕通道及中心通道的预测误差, 采用多通道自适应预测编码可降低冗余度。 MPEG-2音频编码标准本来是针对5.1声道的,但多声道也是可选的,实际应用中一般采用立体声, 即MUSICAM。 第2章 信源编码 5MPEGAudio层层、 层层编码流程及特点编码流程及特点 MPEGAudio层编码流程与MUSICAM的编码流程相同。 MPEGAudio层编码流程如图2-33所示,它也分为时频映射、 心理声学模型、量化编码和比特流形成

124、四大部分。 第2章 信源编码 图2-33 MPEG/Audio层编码流程 第2章 信源编码 层 算 法 是 由 高 质 量 音 频 自 适 应 频 域 熵 编 码 算 法ASEC(Adaptive Spectral Entropy Coding of High Quality Music Signals)发展而来的精细编码方法。它基于与层I和层同样的滤波器,通过对滤波器输出进行修正以及离散余弦变换(DCT)来补偿滤波器组的某些缺陷。 与多相滤波器组不同的是, 如不进行量化,DCT是无损的。 DCT进一步对子带输出在频域内进行再分割,从而提供了更好的频率分辨率;子带分量在频域进行了再分割,层编码

125、器就能部分消除由多相滤波器组引起的频谱混叠。层解码器必须再恢复这种消除的混叠,即反DCT能用合成滤波器组将子带数据值重建成原来的有混叠失真的形式。 第2章 信源编码 除了DCT处理以外, 层在层和层基础上的增强功能还有以下几点: (1) 非归一化量化,即通过控制环,对非均匀量化率进行迭代分配,以保持相对恒定的信噪比。 (2) 采用不定长熵编码。对量化后的各子带信号进行霍夫曼编码,可以获得更好的数据压缩比。层规定了两种DCT块长度:18个数据值的长块和6个数据值的短块。在相邻的变换窗之间有50的重叠,窗的大小分别为36和12。长块长度可提供更大的频率分辨率,可用于具有稳定特性的音频信号; 而短块

126、长度可对瞬态信号提供更好的时间分辨率。霍夫曼编码对576个量化的DCT系数(32子带18DCT系数子带)按预先设定的顺序进行排序。由于大的数据倾向于在低频出现, 长的零游程和接近零的数值则倾向于在高频出现,故编码器将排序后的系数分为三个不同的区域,并根据由各区域的统计特性进行调整的霍夫曼码表进行编码。 第2章 信源编码 (3) 使用了比特缓冲区。 由于各帧的信息量存在差别, 按1152个数据值每帧的信息密度处理音频数据时,表示这些数据值的编码数据并不一定能形成固定长度的帧,通过比特缓冲区可以保持编码量,提高帧的质量。 所以层编码能更好地适应编码比特随时间变化的情况。 第2章 信源编码 2.3

127、压缩技术的应用压缩技术的应用 2.3.1 数码相机数码相机 数码相机是光学技术、微电子技术与数字信号处理技术相结合的产物。 其基本原理是利用普通照相机的光学系统,把被摄图像投射到图像传感器上,传感器把光信号转化成电信号, 再经过模数(AD)转换、 数字图像处理和压缩, 最终以数字形式存储到磁盘、 可移动快闪存储卡等数字存储器中。 图2-34是数码相机结构示意图。 第2章 信源编码 图2-34 数字照相机结构示意图 第2章 信源编码 1. 数码相机的优点数码相机的优点(1)可瞬时显示摄影效果。(2) 具有更宽的曝光控制范围。 (3) 可进行图像处理。 (4) 图像通信便捷。 (5) 可准确复制和

128、长期保存。 (6) 设备简单,处理速度快。 第2章 信源编码 2. 数码相机的技术指标数码相机的技术指标 1) 成像器件的像素数成像器件的像素数 成像器件的像素数对数码相机的图像质量起决定性的作用。 目前,一般数码相机CCD像素数在300万以上。 数码相机的成像器件像素数在很大程度上决定了相机图像的最高分辨率。分辨率用于评价数码图像的质量。数码相机摄取数码照片的分辨率是可选择的。数码相机的像素指标只有一个,而所拍摄的数字图像的分辨率指标却可以有许多个,分辨率越高的照片要求有越大的存储空间存储数据。 第2章 信源编码 2) AD转换精度 评价数码照片的图像质量除了分辨率外, 还有照片色彩的编码位

129、数。编码位数决定了在AD转换过程中的精确程度。 一般来说,24(38)位的色彩已经相当丰富了, 适应绝大部分的拍摄要求。 第2章 信源编码 3) 光电传感器 电荷耦合器件(CCD)传感器和互补金属氧化物半导体(CMOS)传感器是两类主要的图像传感器。CCD数码相机经历了较长的发展时期,目前在成像质量、分辨率上均优于CMOS数码相机。而CMOS数码相机在产品价格、 耗电量等方面又有独特的优势。目前,高档专业型数码相机多为CCD型,廉价普及型数码相机多为CMOS型。近来CMOS成像器件发展很快,已经出现了百万像素的CMOS器件。CMOS器件的最大优点是可以将信号放大、模/数转换、 数字图像处理等电

130、路集成到一块芯片上, 形成片上成像系统(Camera on Chip), 这对数码相机的小型化、 微型化具有重要的意义。 CMOS成像器件通过开关电路进行像素信号传输,使用者可以控制开关电路有选择地获取图像信息,形成智能像素器件(Active Pixel Sensor), 该器件对于工业自动化控制、 机器人视觉等领域中的成像系统具有重要的价值。 第2章 信源编码 4) DSP能力 DSP能力较强的相机能够较高水平地完成诸如黑色补偿、 光照度补偿、 缺陷像素修补、滤色器补偿插值、 校正、 白平衡、假彩色抑制等操作, 补偿了许多由于硬件所造成的图像缺陷,图像质量达到了较为完善的程度。 越是高档的数

131、码相机, DSP的处理能力越强。 一些数码相机还能显示选单, 可以设定一些DSP图像处理中的参数, 获得某些特殊效果。 DSP还能从图像中提取曝光量信息和对焦信息,控制镜头和快门,使相机处于最佳工作状态。DSP还将完成图像压缩的任务,好的图像压缩算法可以在压缩图像存储量的同时很好地保持图像细节的信息, 解压缩后显示的图像与原图像比较看不出任何区别。 高的压缩比可以节省数码相机的存储空间,在有限的空间中存储更多高质量的图片。快的压缩速度可以在相机完成一次曝光以后迅速回到待机状态,提高相机的连拍速度。 第2章 信源编码 5) 取景器 数码相机的取景方式有光学取景和LCD取景。 光学取景中有平视取景

132、和通过镜头TTL(Through The Lens)取景之分。 平视取景结构简单, 但取景器的光轴与镜头光轴不重合,眼睛看到的景象与实际拍摄的景象存在位置误差和尺寸误差, 近距离拍摄时,误差更明显。 TTL取景的取景光轴和成像光轴是重合的,取景误差较小,取景范围可达到实拍画面的95%以上。专业级的数码相机采用TTL取景方式。 第2章 信源编码 6) 图像存储卡 只要有备用的存储卡,数码相机就可以像换胶卷一样换存储卡。 常用的存储卡有以下几种: (1) CF卡(Compact Flash卡)。 该卡由SanDisk在1994年推出, 柯达、佳能、尼康、卡西欧、 奥林巴斯和富士等多种数码相机均采用

133、此卡。型尺寸为42.8 mm36.4 mm3.3 mm, 型尺寸为42.8 mm36.4 mm5 mm。 内置ATAIDE控制器, 为50针接口, 有即插即用功能, 兼容性较好。 (2) SM卡(SmartMedia卡, 聪明卡,Solid State Floppy Disk Card,固态软盘卡)。 该卡大小为45 mm37 mm0.76 mm, 卡内无控制器, 要求数码相机内有控制器对其进行控制, 故兼容性较差, 在部分便携型数码相机中采用此卡。 第2章 信源编码 (3) MMC卡(MultiMedia Card)。该卡由西门子公司和SanDisk于1997年推出, 它的封装技术较为先进,

134、 体积为32 mm24 mm1.4 mm, 采用7针串行接口, 兼容性较好。 日本松下公司的数码相机和数码摄像机首先采用此卡。 (4) SD卡(Secure Digital Memory Card, 安全数码记忆卡)。 该卡由日本松下公司、SanDisk和东芝公司等于1999年8月推出, 体积为32 mm24 mm2.1 mm, 版权保护级别非常高, 而且容量非常大, 为9针串行接口, 兼容性较好。 第2章 信源编码 (5) 记忆棒(MemoryStick)。该卡是索尼公司独立开发的, 它的体积为50 mm21.5 mm2.8 mm 或20 mm31 mm1.6 mm, 有16 MB、 32

135、MB、 64 MB和128 MB等多种容量, 具有写保护功能, 读/写速度快,插拔性能好,工作电压低。记忆棒还广泛地应用在索尼公司的其它产品中, 如笔记本电脑、数码摄像机和台式机等。 MS Pro是索尼公司开发的新型产品, 其标准速度是15 MBs, 可满足连续即时录制高清晰度、大容量动态影像的需求。MS Pro未来的存储容量最高可达32 GB, 相当于目前普通笔记本电脑硬盘的容量。 第2章 信源编码 (6) XD卡(XD-Picture Card)。 该卡是由日本富士公司和奥林巴斯公司共同开发的新一代存储卡, 体积为25 mm22 mm1.7 mm, 容量为8 GB。 采用CF卡的数码相机通

136、过一个适配器就能够使用XD卡, 但售价较高。 (7) MagicStor。 该卡是中国南方汇通微硬盘科技股份有限公司生产的1英寸硬盘,1022C型容量为2.2 GB,采用CF型接口, 体积为42.8 mm36.4 mm5.0 mm。 第2章 信源编码 3. 数字图像处理数字图像处理(DSP)DSP主要有以下功能:(1)暗电流补偿。(2)镜头光照度补偿。 (3) 缺陷像素修补。 (4) 彩色校正。 (5) 自动聚焦和自动曝光。 (6) 校正。 (7) 滤色器补偿插值。 (8) 轮廓增强。 (9) 图像压缩。 第2章 信源编码 4. 模式控制模式控制 数码相机一般提供照相(Camera)、 显示(

137、Display)和计算机(Computer)三种模式。在照相模式时, 系统实现拍摄、处理图像信息的功能; 在显示模式时,可以观察已拍摄的照片,有编辑功能的可修改照片; 在计算机模式时, 可将数码相机的图像信息传送到计算机中。 照相模式要实现曝光控制、自动对焦控制、闪光控制、数字图像的获取以及DSP处理等操作,有一套完善的控制流程。 数码相机在接通电源后首先对闪光灯系统的主电容进行充电。 相机的各种拍摄方式、 测光方式、对焦方式、 分辨率、 白平衡等参数都可以在选单设置中进行修改。 第2章 信源编码 2.3.2 VCD和和DVD 1. CD CD是指Compact Disc Digital Au

138、dio, 数字激光唱机。 用激光束读取CD唱片上数字化音频信号并经数/模转换后, 将有模拟音频信号输出。 录有数字化音频信号的CD唱片又称为光碟、 激光唱片或镭射唱片。CD唱片由透明的多元碳酸树脂(PPM)保护层、铝反射层、 信迹刻槽和聚碳酸脂衬底组成。CD唱片的外径为120 mm,厚度为1.2 mm,重量为1418 g。 唱片分为导入区、 导出区和声音数据记录区。 声音数据以坑、岛形式记录在由内向外的螺旋信迹上。 螺旋信迹约有20 625圈,总长度约有5300 m。激光束从凹坑反射的光的强度比从岛反射的光的强度弱。 激光束扫过凹坑的前沿或后沿时,反射激光束强度会发生变化。定义凹坑的前沿和后沿

139、代表1码,坑和岛的平坦部分代表0码。 坑、 岛的长度越大, 则0码的个数越多。 第2章 信源编码 交织和里德所罗门编码(RS编码)的介绍详见第4章信道编码。交叉交织里德所罗门码是交织和RS编码的组合,其方框图如图2-35所示。输入信息每8位一组,每24组经RS编码后加上4组奇偶校验组, 这28组RS码在交织电路中分散突发错误, 在第2级RS编码时再一次加上4组奇偶校验组,能检错8组并纠错4组,可以有效纠正因为介质损坏、光头污染或定时抖动等造成的突发差错, 保证获得优质音响。 第2章 信源编码 图2-35 CIRC编码方框图 第2章 信源编码 EFM编码就是用14 b来表示8 b数据。14比特有

140、214=16 384种码型, 在这些码型中能找到两个“1”码之间至少有两个“0”码且最多不超过10个“0”码的256种码型。 EFM编码就是用这256个码型代替原来8 b的PCM码,限制连“0”码和连“1”码的出现个数, 保证从光盘读出的数据流中能正确提取位同步等时钟信息。 在两个14 b数据相连接时, 中间增加3 b结合码, 也是为了在任何时刻的数据流中满足两个“1”码之间至少有两个“0”码且至多不超过10个“0”码的条件。这样,整个EFM数据流的直流成分和低频成分减少, 从而能保证伺服系统稳定地工作。 第2章 信源编码 2. VCD 图2-36是VCD光盘录制过程方框图。VCD信源编码采用

141、MPEG-1标准对视/音频数据进行压缩。CD-ROM格式编码采用CD-ROM XA标准, 规定VCD的数据组织与系统描述应符合IS09660规范。但VCD独特的数据组织必须符合VCD的White Book和VCD 2.0版标准。 信道编码采用CIRC纠错编码和EFM调制, 以提高数据信号存储、 读出的可靠性。 第2章 信源编码 图2-36 VCD光盘录制过程方框图 第2章 信源编码 图2-37为VCD播放过程方框图。 播放过程是录制的逆过程, 激光头用激光束拾取光盘上的坑、岛信迹,变换成信杂比合适的电信号送到DSP(数字信号处理器),在DSP实现EFM解调和CIRC解码。VCD解码集成电路包括

142、CD-ROM格式解码、 数据分离、音频和视频数据的MPEG-1解码等,如图2-37中虚线框所示。最后,音频信号经DA转换成双声道模拟音频信号、 视频信号, 再经PAL编码成模拟全视频信号。 第2章 信源编码 图2-37 VCD光盘播放过程方框图 第2章 信源编码 3. DVD 1) DVD产品分类DVD-ROMRAM(DVD读/写驱动器)采用BOOK A标准。 DVD-Video(DVD放像机)采用BOOK B标准。 DVD-Audio(DVD音响)采用BOOK C标准。 DVD-Recordable(DVD一次写、 多次读)采用BOOK D标准。DVD-RAM(DVD随机读写)采用BOOK

143、E标准。 近年来还出现了PC-DVD, 这是指个人计算机领域的DVD产品。 第2章 信源编码 2) DVD的存储容量 DVD光盘采用了许多新技术使其存储容量大大提高。 DVD光盘的直径和CD、VCD的一样,为12 cm,厚度为1.2 mm,但DVD光盘的存储容量高达4.717 GB,而一片CD-ROM 的存储量只有650 MB。 表2-7所列是各种DVD的存储容量。 第2章 信源编码 表表2-7 DVD的存储容量的存储容量 第2章 信源编码 3) DVD的图像质量标准 DVD采用MPEG-2 Video标准,NTSC制电视图像分解力为720480、 30帧s,PAL制电视图像分解力为72057

144、6、 25帧s, 压缩编码后的数据传输速率可变(110 Mb/s),平均数据传输速率为4.69 Mb/s。 DVD兼容VCD的MPGE-1标准, VCD的电视图像分解力只有MPEG-2的一半,VCD只有1.5 Mb/s的固定数据传送速率。DVD图像信噪比达到115 dB, 采用较宽色度带宽, 消除了彩色位移和图像抖动, 具有真正的彩色广播电视质量。 第2章 信源编码 4) DVD的音响质量标准 DVD的音响标准采用MPEG-2 Audio环绕立体声, 或者采用杜比AC-3 5.1环绕立体声, 也有采用线性预测编码LPCM立体声的, 音频信噪比达90 dB。 杜比AC-3 5.1环绕立体声有前左

145、、前右、后左、后右、中五个扬声器,再加一只0.1 kHz 以下的超低音扬声器。重放声音频率范围为20 Hz20 kHz, 具有6声道数码音频、三维空间的振撼音响效果。 AC-3的内容详见2.2.3小节。 此外,DVD还具有8种语言、 32种文字字幕及多方向视角画面等功能。 第2章 信源编码 5) DVD播放系统 图2-38 DVD光盘播放系统方框图 第2章 信源编码 4. SVCD 1998年8月, SVCD(Super VCD, 超级VCD)作为VCD更新换代产品的技术标准在北京正式制定完毕。SVCD标准作为中国产业专利,得到Philips、 索尼、 JVC、 C-Cube、 Nationa

146、l等公司的支持,向ISOIEC申请为国际化标准。 SVCD产品的基本内容包括: 采用双倍速机芯,视频采用MPEG-2压缩编码、解码,光盘数据格式采用(2/3)D1,即图像分解力为480480(NTSC制)或576480 (PAL制), 电视图像的水平清晰度提高到350线。 SVCD光盘的播放时间为45 min,向下兼容CD、 VCD。SVCD的数据传输率为1.152.6 Mb/s。 SVCD的音响采用两个层次: 基本层依然与VCD一样采用MPEG-1/Audio压缩标准,但有4声道立体声;扩展层采取MPEG-2/Audio压缩标准,具有5.1声道立体声,可以组成家庭影院系统。 第2章 信源编码

147、 5. EVD EVD(Enhanced Versatile Disc, 增强型多能光盘),又称为新一代多媒体高清晰视盘系统,是中国自行研发、 拥有自主知识产权的光盘和播放机工业标准。其芯片由北京阜国数字技术有限公司研制成功。 EVD格式属红光DVD。 同属红光DVD的还有北京凯诚高清电子技术有限公司开发的HVD(高清晰度视频光盘)格式和上海化工集团晶晨半导体有限公司开发的HDV(高清晰度数字播放机)格式。 EVD图 像 的 清 晰 度 可 达 207万 像 素 ( 19201080或 者1280720),是DVD的5倍,完全匹配高清晰度数字电视。 EVD音频系统为EAC六声道输出,性能优于DVD的双解码, 可同时实现高保真和环绕声效果。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号