音视频编码知识－金锄头文库

资源描述

《音视频编码知识》由会员分享，可在线阅读，更多相关《音视频编码知识（37页珍藏版）》请在金锄头文库上搜索。

1、音视频编码知识音视频编码知识胡梅 2009-12-29 编码和文件格式编码和文件格式学习音视频相关基础知识之前，我们先来认识下编码和文件格式；编码和文件格式（也称容器）是什么？编码和文件格式（也称容器）是什么？编码和文件格式（也称容器）是什么？编码和文件格式（也称容器）是什么？文件（即容器）是既包括了视频、又包括音频、甚至还带有一些脚本的集合；文件中视频和音频的压缩算法才是真正的编码；对于一种文件，它的视频和音频可以分别采用不同的编码。音视频编码及文件格式是一个很庞大的知识领域，我们在此只是对其中的相关知识做入门的介绍，让大家能够对其内容有个初步的了解；主要内容主要内

2、容主要内容主要内容第一部分：基础知识介绍第一部分：基础知识介绍第一部分：基础知识介绍第一部分：基础知识介绍第二部分：音视频编码标准与体系介绍第二部分：音视频编码标准与体系介绍第二部分：音视频编码标准与体系介绍第二部分：音视频编码标准与体系介绍第三部分：文件格式介绍第三部分：文件格式介绍第三部分：文件格式介绍第三部分：文件格式介绍第四部分：音视频格式转换工具介绍第四部分：音视频格式转换工具介绍第四部分：音视频格式转换工具介绍第四部分：音视频格式转换工具介绍第一部分：基础知识介绍基础知识介绍基础知识介绍基础知识介绍一、音视频编码的基本概念二、音视频编码的原理三、音视频编码技术分类

3、四、音视频文件大小计算方式一、音视频编码的基本概念 1.1.1.1.什么是视频编码？什么是视频编码？什么是视频编码？什么是视频编码？所谓视频编码就是通过特定的压缩技术，将某个视频格式的文件转换成另外一种视频格式文件的方法。视频编码的主要功能是完成图像的压缩，使数字电视信号的传输量由1Gbit/s（针对1920x1080显示格式）减少为20- 30Mbit/s。一、音视频编码的基本概念 2.2.2.2.什么是音频编码？什么是音频编码？什么是音频编码？什么是音频编码？自然界中的声音以及波形都非常复杂，声音其实也是一种能量波，它有频率和振幅；其中频率所对应的是时间轴线，振幅对应的是

4、电平轴线。波是无限光滑的，弦线可看成由无数点组成。音频编码主要是完成对声音信息的压缩。声音信号数字化后，信息量比模拟传输状态大很多，不能像模拟电视声音那样直接传输；因而需要对声音多一道压缩编码工序，即为音频编码。二、音视频编码的原理 1.1.1.1.视频编码原理简介视频编码原理简介视频编码原理简介视频编码原理简介视频编码主要是对图像进行有效的压缩。原始视频图像数据中包含大量的冗余信息视频编码主要采取块运动估计和运动补偿技术有效的去除图像帧间冗余度，来压缩码率和带宽，实现信号有效传输的目的。图1.1 运动处理原理图二、音视频编码的原理 2.2.2.2.视频编码模块图（视频编

5、码模块图（视频编码模块图（视频编码模块图（MPEG-2MPEG-2MPEG-2MPEG-2）图2.1 MPEG-2视频编码原理框图二、音视频编码的原理 3.3.3.3.音频编码的原理简介音频编码的原理简介音频编码的原理简介音频编码的原理简介我们需要通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字信号。抽样就是在时间上将模拟信号离散化。量化是用有限个幅度值近似原来连续变化的幅度值，把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。编码就是按一定的规律把量化后的值用二进制数字表示，然后转换成二值或多值得数字信号流。通常我们采用PCM编码，其主要过程是将话音、图像等模拟

6、信号每隔一段时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，并将抽样值按一组二进制码来表示抽样脉冲的幅值。二、音视频编码的原理 4.4.4.4.音频编码模块图（音频编码模块图（音频编码模块图（音频编码模块图（PCMPCMPCMPCM和和和和MPEGMPEGMPEGMPEG）图4.1 PCM音频编码框图图4.2 MPEG音频解码框图三、音视频编码技术分类三、音视频编码技术分类 1.1.1.1.视频编码技术分类视频编码技术分类视频编码技术分类视频编码技术分类为了在Internet上有效的、高质量的传输视频流，需要多种技术的支持，其中数字视频的压缩编码技术是Int

7、ernet视频传输中的关键技术之一，实际上最终用户关心的是：清晰度、存储量（带宽）、稳定性还有价格。所以采用不同的压缩技术，将很大程度影响以上几大要素。视频编码技术主要是压缩原视频图像数据中的冗余信息（分为时域和空域冗余信息），通常采用了帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术； 1.1 1.1 1.1 1.1 时域冗余信息时域冗余信息时域冗余信息时域冗余信息去除时域冗余信息使用的是帧间编码技术，它包括三个部分：运动补偿、运动表示、运动估计； 1.1.1 运动补偿运动补偿是通过先前的局部图像来预测、补偿当前的局部图像，是减少帧序列冗余信息的有效方法。三、音

8、视频编码技术分类三、音视频编码技术分类 1.1.2 运动表示不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。 1.1.3 运动估计运动估计是从视频序列中抽取运动信息的一整套技术。注：通用的压缩标准均使用的是基于块的运动估计和运动补偿； 1.2 1.2 1.2 1.2 空域冗余信息空域冗余信息空域冗余信息空域冗余信息去除空域冗余信息使用的是帧内编码技术和熵编码技术，包括三个部分：变换编码、量化编码、熵编码。 1.2.1 变换编码变换编码是将空域信号变换到另一正交矢量空间，使其相关性下降，数据冗余度减小。 1.2.2 量化编码经过变换编码后，会产生

9、一批变换系数，对这些系数进行量化，使编码器的输出达到一定的位率，这一过程称为量化编码。 1.2.3 熵编码熵编码是对变换、量化后得到的系数和运动信息，进行进一步的压缩。三、音视频编码技术分类三、音视频编码技术分类下面我们将主要介绍目前常见的几种编码技术方案； 1 1 1 1）MPEG-2MPEG-2MPEG-2MPEG-2 MPEG-2图像压缩的原理是主要利用了图像中的两种特性：空间相关性和时间相关性。另外它综合采用了运动补偿的帧间预测、空间域离散余弦变换、自适应量化和可变长编码的混合编码。同时它开始用半像素精度运动矢量搜索，引入了“帧”和“场”的编码方法，和MPEG-1向下兼容

10、；主要针对存储媒体、数字电视、高清晰等应用领域，分辨率为：低（352*288）中（720*480）次高（1440*1080）高（1920*1080）。 2 2 2 2）MPEG-4MPEG-4MPEG-4MPEG-4 采用基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。实现了从基于像素的传统编码向基于对象和内容的现代编码的转变。主要特点是支持交互性、高压缩比及能用存储性；三、音视频编码技术分类三、音视频编码技术分类 3 3 3 3）H.264/AVC

11、H.264/AVCH.264/AVCH.264/AVC 主要包括2个层次：视频编码层和网络抽象层。前者主要致力于有效的表示视频内容，后者格式化VCL视频表示，提供头部信息，适合多种传输和存储媒体。采用了全新的编码技术：帧内预测，可变大小的图像分块，多预测参考帧，1/4和1/8像素精度的运动估计，残差图像的整数变换编码等。由于其压缩效率高、容错能力好、网络适应能力强等特点，能适用于不同网络中的视频传输。 4 4 4 4）Windows Media VideoWindows Media VideoWindows Media VideoWindows Media Video 采用了MPEG

12、4的压缩算法，所以压缩率和图像的质量都很不错，由于 Windows Media video是微软的杰作，所以Windows系统对Windows Media Video给予了很好的支持。 5 5 5 5）RealVideoRealVideoRealVideoRealVideo 采用REAL公司可变编码率的REAL格式的视频编码技术。它能在保持文件较小的条件下获得较高编码率的视频质量。主要定位在视频流应用方面的，不太适合专业场合，在网络和娱乐场合占有不错的份额。三、音视频编码技术分类三、音视频编码技术分类 6 6 6 6）Sorenson VideoSorenson VideoSorenso

13、n VideoSorenson Video Sorenson Media公司随 QuickTime5发布的编码器，采用的是sorenson公司的压缩算法，质量很不错，已经成为QuickTime 的标准视频编码，网络上大部分电影预告片都采用这种编码。 7 7 7 7）Intel Intel Intel Intel IndeoIndeoIndeoIndeo video video video video 由Intel架构实验室开发，常见的视频编码，主流的有4.5和5.10两种，质量比Cinepak和R3.2要好，可以适应不同带宽的网络，但必须有相应的解码插件才能顺利地将下载作品进行播放。

14、8 8 8 8）DvixDvixDvixDvix和和和和xviDxviDxviDxviD Dvix主要是将影像部分以MPEG4来压缩，音效部分则以MP3来压缩；采用了空间和时间压缩技术。在档案大小上占了相当大的优势，画质部分的表现也很不错。 XviD是目前世界上最常用的视频编码解码器，是第一个真正开放源码的，它是基于Open DivX编写的。Xvid支持多种编码模式，量化方式和范围控制，运动侦测和曲线平衡分配等众多编码技术。三、音视频编码技术分类三、音视频编码技术分类 2.2.2.2.音频编码技术分类音频编码技术分类音频编码技术分类音频编码技术分类数字音频信息压缩主要是依据音频信息

15、自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理，分别是语音和音乐，各自采用的技术也存在着差异。 2.1 2.1 2.1 2.1 语音编码技术语音编码技术语音编码技术语音编码技术将模拟语音信号转变为数字信号在信道中传输。语音编码的目的是在保持一定算法复杂程度和通信时延的前提下，占用尽可能少的通信容量，传送尽可能高质量的语音。它可分为波形编码、参量编码和混合编码三大类。 2.1.1 波形编码波形编码是在时域上进行处理，主要是为了使重组的语音波形保持原始语音信号的形状，它将语音信号作为一般的波形信号来处理。三、音视频编码技术分类三、音视频编码技术分

16、类 2.1.2 参量编码（声源编码）利用语音信息产生的数学模型，提取语音信号的特征参量，并按照模型参数重构音频信号. 2.1.3 混合编码将波形编码和参量编码组合起来，结合各自的长处，保持波形编码的高质量和参量编码的低速率，在4-16Kbit/s速率上能够得到高质量的合成语音，适合于数字移动通信的语音编码技术。 2.2 2.2 2.2 2.2 音乐编码技术音乐编码技术音乐编码技术音乐编码技术 2.2.1 自适应变换编码（频域编码）利用正交变化，把时域音频信号变换到另外一个域，通常采用自适应比特分配和自适应量化技术来对频域数据进行量化。三、音视频编码技术分类三、音视频编码技术分类 2.2.2 心理声学模型对信息量进行压缩，同时使失真尽可能不被察觉，利用人耳的掩蔽效应即较弱的声音会被同时存在的较强的声音所掩盖，使得人耳无法听到。 2.2.3 熵编码对于一串由许多数值构成的数据来说，如果其中某些值经常出现，另外一些值极少出现，则可以对其进行压缩，即对常出现的数值用短的码组表示，不常出现

展开阅读全文