音频编码基本概念介绍

上传人:第*** 文档编号:30612754 上传时间:2018-01-31 格式:DOC 页数:5 大小:60.50KB
返回 下载 相关 举报
音频编码基本概念介绍_第1页
第1页 / 共5页
音频编码基本概念介绍_第2页
第2页 / 共5页
音频编码基本概念介绍_第3页
第3页 / 共5页
音频编码基本概念介绍_第4页
第4页 / 共5页
音频编码基本概念介绍_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《音频编码基本概念介绍》由会员分享,可在线阅读,更多相关《音频编码基本概念介绍(5页珍藏版)》请在金锄头文库上搜索。

1、音频编码基本概念介绍自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即 PCM 编码。PCM 通过抽样、量化、编码三个步骤将连续变化的模拟信号 转换为数字编码。1-1 什么是采样率和采样大小(位/bit)。声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空 间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为 了复原波形,一次振动中,必须有 2 个点的采样,人耳能够感觉到的最高频率为 20k

2、Hz,因此要满足人耳的听觉要求,则需要至少每秒进行 40k 次采样,用 40kHz 表达,这个 40kHz 就是采样率。我们常见的 CD,采样率为 44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于 表示信号强度。量化电平数为 2 的整数次幂,我们常见的 CD 位16bit 的采样大小,即 2 的 16 次方。采样大小相对采样率更难理解,因为要显得抽象点,举个 简单例子:假设对一个波进行 8 次采样,采样点分别对应的能量值分别为 A1-A8,但我们只使用 2bit 的采样大小,结果我们只能保留 A1-A8中 4 个点的值而舍弃另外 4 个。如果我们进行 3bit 的

3、采样大小,则刚好记录下8 个点的所有信息。采样率和 采样大小的值越大,记录的波形更接近原始信号。1-2 有损和无损根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方 案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是 PCM 编码,被广泛用于素材保存及音乐欣赏,CD、DVD 以及我们常见的 WAV 文件中均有应用。因此,PCM 约定俗成了无损编码,因为 PCM 代表了数字音频中最佳的保真水准,并不意味着 PCM 就能够确保信号绝对保真,PCM 也 只能做到最大程度的无限接近。我们而

4、习惯性的把 MP3 列入有损音频编码范畴,是相对 PCM 编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到 真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。1-3 为什么要使用音频压缩技术要算一个 PCM 音频流的码率是一件很轻松的事情,采样率值采样大小值声道数 bps。一个采样率为 44.1KHz,采样大小为 16bit,双声道的 PCM 编码的 WAV 文件,它的数据速率则为 44.1K162 =1411.2 Kbps。我们常说 128K的 MP3,对应的 WAV 的参数,就是这个 1411.2 Kbps,这个参数也被称为数据

5、带宽,它和 ADSL 中的带宽是一个概念。将码率除以 8,就可以得到这个 WAV 的数据速率,即 176.4KB/s。这表示存 储一秒钟采样率为 44.1KHz,采样大小为16bit,双声道的 PCM 编码的音频信号,需要 176.4KB 的空间,1 分钟则约为10.34M,这对大部 分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有 2 种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种 压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们 都压缩过。1-4

6、频率与采样率的关系采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为 44.1KHz,这意味着什么呢?假设我们有 2 段正弦波信号,分别为 20Hz 和 20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行 40KHz 的采样,我们可以得到一个什么样的结果呢?结果是:20Hz 的信号每次振动被采样了 40K/20=2000 次,而 20K 的信号每次振动只有 2次 采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责 CD 有数码声不够真实的原因,CD 的 44.1KHz 采样也 无法保证高频信号被较好记录。

7、要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉 CD 音轨的时候使用 48KHz 的采样率,这是不可取的!这 其实对音质没有任何好处,对抓轨软件来说,保持和 CD 提供的 44.1KHz 一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模 拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。1-5 流特征随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用 下载就可以实现收听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的

8、数字广播电台成为了现实2-1 PCM 编码PCM 脉冲编码调制是 Pulse Code Modulation 的缩写。前面的文字我们提到了 PCM 大致的工作流程,我们不需要关心 PCM 最终编码采用的是什么计算方式,我们只需要知道 PCM 编码 的音频流的优点和缺点就可以了。PCM 编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的 Audio CD 就采用了PCM 编码,一张光盘的容量只能容纳 72 分钟的音乐信息。trinove (2009-11-24 22:58:55)PCM 文件格式简介 PCM 文件:模拟音频信号经模数转换(A/D 变换)直接形成的二进制序列,该文件没有附

9、加的文件头和文件结束标志。Windows 的Convert 工具可以把 PCM 音频格式的文件转换成 Microsoft 的 WAV 格式的文件。脉冲编码调制 PCM 文件格式简介将音频数字化,其实就是将声音数字化。最常见的方式是透过脉冲编码调制 PCM(Pulse Code Modulation) 。运作原理如下。首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,如图一所示。这张图的横座标为秒,纵座标为电压大小。要将这样的信号转为 PCM 格式的方法,是使用三个参数来表示声音,它们是:声道数、采样位数和采样频率。采样频率:即取样频率,指每秒钟取得声音样本的次数。采样 频率越高,声音的质

10、量也就越好,声音的还原也就越真实,但同时它占的资源比较多。由于人耳的分辨率很有限,太高的频率并不能分辨出来。在 16 位声卡中有 22KHz、44KHz 等几级,其中,22KHz 相当于普通 FM 广播的音质,44KHz 已相当于 CD 音质了,目前的常用采样频率都不超过 48KHz。 采样位数:即采样值或取样值(就是将采样样本幅度量化)。它 是用来衡量声音波动变化的一个参数,也可以说是声卡的分辨率。它的数值越大,分辨率也就越高,所发出声音的能力越强。声道数很好理解,有单声道和立体声之分,单声道的声音只能 使用一个喇叭发声(有的也处理成两个喇叭输出同一个声道的声音),立体声的pcm 可以使两个

11、喇叭都发声(一般左右声道有分工) ,更能感受到空间效果。 下面再用图解来看看采样位数和采样频率的概念。让我们来看看这几幅图。图中的黑色曲线表示的是 pcm 文件录制的自然界的声波,红色曲线表示的是pcm 文件输出的声波,横坐标便是采样频率;纵坐标便是采样位数。这几幅图中的格子从左到右,逐渐加密,先是加大横坐标的密度,然后加大纵坐标的密度。显然,当 横坐标的单位越小即两个采样时刻的间隔越小,则越有利于保持原始声音的真实情况,换句话说,采样的频率越大则音质越有保证;同理,当纵坐标的单位越小则越 有利于音质的提高,即采样的位数越大越好。在计算机中采样位数一般有 8 位和 16 位之分,但有一点请大家

12、注意,8 位 不是说把纵坐标分成 8 份,而是分成 2 的 8 次方即 256 份; 同理 16 位是把纵坐标分成 2 的 16 次方 65536 份; 而采样频率一般有 11025HZ(11KHz),22050HZ(22KHz)、 44100Hz(44KHz)三种。样 点 t1 t2 t3 t4 t5 t6 t7 . t16 t17 t18 t19 t20幅值 0011 0101 0111 1001 1011 1101 1110 . 0110 0110 0101 0011 0000那么,现在我们就可以得到 pcm 文件所占容量的公式:存储量=(采样频率*采样位数*声道)*时间/8(单位:字节

13、数)例如,数字激光唱盘(CDDA,红皮书标准)的标准采样频率为 44.lkHz,采样数位为 16 位,立体声(2 声道),可以几乎无失真地播出频率高达 22kHz 的声音,这也是人类所能听到的最高频率声音。激光唱盘一分钟音乐需要的存储量为:(44.1*1000*l6*2)*60/8=10,584,000(字节)=10.584MBytes这个数值就是 pcm 声音文件在硬盘中所占磁盘空间的存储量。计算机音频文件的格式决定了其声音的品质,日常生活中电话、收音机等均为模拟音频信号,即不存在采样频率和采样位数的概念,我们可以这样比较一下:44KHz,16BIT 的声音称作:CD 音质;22KHz、16Bit 的声音效果近似于立体声(FM Stereo)广播,称作:广播音质;11kHz、8Bit 的声音,称作:电话音质。 微软的 WAV 文件就是 pcm 编码的一种。binglin (2009-11-24 23:02:33)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 外语文库 > 英语学习

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号