数字音频基础知识－金锄头文库

资源描述

《数字音频基础知识》由会员分享，可在线阅读，更多相关《数字音频基础知识（4页珍藏版）》请在金锄头文库上搜索。

1、第一章数字音频基础知识主要内容声音基础知识认识数字音频数字音频专业知识第 1 节声音基础知识1.1 声音的产生声音是由振动产生的。物体振动停止，发声也停止。当振动波传到人耳时，人便听到了声音。人能听到的声音，包括语音、音乐和其它声音(环境声、音效声、自然声等) ，可以分为乐音和噪音。乐音是由规则的振动产生的，只包含有限的某些特定频率，具有确定的波形。噪音是由不规则的振动产生的，它包含有一定范围内的各种音频的声振动，没有确定的波形。1.2 声音的传播声音靠介质传播，真空不能传声。介质：能够传播声音的物质。声音在所有介质中都以声波形式传播。音速声音在每秒内传播的距离叫音速。

2、声音在固体、液体中比在气体中传播得快。15oC 时空气中的声速为 340m/s 。1.3 声音的感知外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。双耳效应的应用：立体声人耳能感受到(听觉)的频率范围约为 20Hz20kHz ,称此频率范围内的声音为可听声(audible sou nd)或音频(audio),频率20Hz声音为次声，频率20kHz声音为超声。人的发音器官发出的声音(人声)的频率大约是80Hz3400Hz。人说话的声音(话音 voice /语音speech)的频率通常为 300Hz 3000 Hz (带宽约 3kHz

3、)。传统乐器的发声范围为16Hz (C2)7kHz(a5)，如钢琴的为 27.5Hz (A2)4186Hz(c5)。1.4 声音的三要素声音具有三个要素：音调、响度(音量 /音强)和音色人们就是根据声音的三要素来区分声音。音调( pitch )音调：声音的高低(高音、低音)，由锁率II (frequency)决定，频率越高音调越高。声音的频率是指每秒中声音信号变化的次数，用 Hz 表示。例如， 20Hz 表示声音信号在 1 秒钟内周期性地变化 20 次。高音：音色强劲有力，富于英雄气概。擅于表现强烈的感情。低音：音色深沉浑厚，擅于表现庄严雄伟和苍劲沉着的感情。响度( loudnes

4、s )响度：又称音量、音强，指人主观上感觉声音的大小，由振幅II (amplitude )和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。 (单位：分贝 dB)音色( music quality ) 音色：又称音品，由发声物体本身材料、结构决定。每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。1.5 声道声道（ sound channel / track ）是分开录音然后结合起来以便同时听到的一段声音。早期的声音重放（ playback/ reproduction ）技术落后，只有单一声道（ mono / monophony ），只

5、能简单地发出声音（如留声机、调幅 AM 广播）；后来有了双声道的立体声（ stereo ）技术（如立体声唱机、调频 FM 立体声广播、立体声盒式录音带、激光唱盘 CD-DA ），利用人耳的双耳效应，感受到声音的纵深和宽度，具有立体感。现在又有了各种多声道的环绕声（surround sound ）重放方式（如 4.1、5.1、6.1、7.1 声道），将多只喇叭（扬声器 speaker）分布在听者的四周，建立起环绕聆听者周围的声学空间，使听者感受到自己被声音包围起来，具有强烈的现场感（如电影院、家庭影院、 DVD-Audio 、SACD、DTS-CD、HDTV ）。第 2 节认识数

6、字音频2.1 模拟信号音频信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。在时间上连续I是指在任何一个指定的时间范围里声音信号都有无穷多个幅值；在幅度上连续是指幅度的数值为实数。我们把在时间（或空间）和幅度上都是连续的信号称为模拟信号（analog signal）。2.2 数字信号在某些特定的时刻对这种模拟信号进行测量叫做采样（sampling），在有限个特定时刻采样得到的信号称为离散时间信号采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。把幅度取值的数目限定为有限个的信号就称为离散幅度信号。我们把时间和幅度都用离散的数字表示的信号就称为数字信号（digit

7、al signal）。从模拟信号到数字信号的转换为模数转换，记为A/D（Analog-to-Digital）；从数字信号到模拟信号的转换为数模转换，记为D/A（Digital-to-Analog）。第3节数字音频专业知识人们日常生活听到的各种声音信息是典型的连续信号，它不仅在时间上连续，而且在幅度上也连续，我们称之为模拟音频。在数字音频技术产生之前，我们只能用磁带或胶木唱片来存储模拟音频，随着技术的发展，声音信号逐渐过渡到了数字化存储阶段，可以用计算机等设备将它们存储起来。3.1 模拟音频的数字化对于计算机来说，处理和存储的只可以是二进制数，所以在使用计算机处理和存储声音信号之前，我

8、们必须使用模数转换（ A/D ）技术将模拟音频转化为二进制数，这样模拟音频就转化为数字音频了。所谓模数转换就是将模拟信号转化为数字信号，模数转换的过程包括采样、量化和编码三个步骤。模拟音频向数字音频的转换是在计算机的声卡中完成的。3.2 采样采样是指将时间轴上连续的信号每隔一定的时间间隔抽取出一个信号的幅度样本，把连续的模拟量用一个个离散的点表示出来，使其成为时间上离散的脉冲序列。每秒钟采样的次数称为采样频率，用f表示；样本之间的时间间隔称为取样周期，用T表示，T=1/f。例如：CD的采样频率为44.1kHz，表示每秒钟采样 44100次。常用的采样频率有 8kHz、11.025Hz

9、、22.05kHz、15kHz、44.1kHz、48kHz 等。在对模拟音频进行采样时，取样频率越高，音质越有保证；若取样频率不够高，声音就会产生低频失真。那么怎样才能避免低频失真呢？著名的采样定理（ Nyquist 定理）中给出有明确的答案：要想不产生低频失真，采样频率至少应为所要录制的音频的最高频率的2倍。例如，电话话音的信号频率约为3.4 kHz，采样频率就应该6.8 kHz，考虑到信号的衰减等因素，一般取为 8kHz 。3.3 量化量化是将采样后离散信号的幅度用二进制数表示出来的过程。每个采样点所能表示的二进制位数称为量化精度，或量化位数。量化精度反映了度量声音波形幅度的精度。例

10、如，每个声音样本用16位(2字节)表示，测得的声音样本值是在065536的范围里，它的精度就是输入信号的 1/65536。常用的采样精度为8bit/s、 1 2 bit/s、 1 6bit/s、 20bit/s 、 24bit/s 等。采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用。我们希望音质越高越好，磁盘存储空间越少越好，这本身就是一个矛盾。必须在音质和磁盘存储空间之间取得平衡。数据量与上述三要素之间的关系可用下述公式表示：3.4 编码采样和量化后的信号还不是数字信号，需要把它转换成数字编码脉冲，这一过程称为编码。最简单的编码方式是二进制编码，即将已经量化的信号

11、幅值用二进制数表示，计算机内采用的就是这种编码方式。模拟音频经过采样、量化和编码后所形成的二进制序列就是数字音频信号，我们可以将其以文件的形式保存在计算机的存储设备中，这样的文件通常称之为数字音频文件。PCM 编码PCM ( Pulse Code Modulation ),即脉冲编码调制，指模拟音频信号只经过采样、模数转换直接形成的二进制序列，未经过任何编码和压缩处理。 PCM 编码的最大的优点就是音质好，最大的缺点就是体积大。在计算机应用中，能够达到最高保真水平的就是 PCM 编码，常见的 WAV 文件中就有应用。3.5 音频压缩音频压缩属于数据压缩的一种，是减小数字音频信号文件大小(数

12、据比率)的过程。一般数据的压缩方法对于音频数据不利，很少能将源文件压缩到87%以下。音频压缩算法：无损压缩算法和有损压缩算法无损压缩是对未压缩音频进行没有任何信息 / 质量损失的压缩机制。有损压缩是尽可能多得从原文件删除没有多大影响的数据，有目的地制成比原文件小多的但音质却基本一样。一般来说，无损压缩比率在源文件的50 -60%左右，而有损压缩可以达到原文件的5 t20% 。3.6 常见的数字音频文件格式常见的数字音频文件格式有很多，每种格式都有自己的优点、缺点及适用范围。CD 格式天籁之音CD 音轨文件的后缀名为： cda标准CD格式是44.1K的采样频率，速率 88K/秒，16位量化

13、位数，近似无损的。CD 光盘可以在 CD 唱机中播放，也能用电脑里的各种播放软件来重放。一个 CD 音频文件是一个 .cda 文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的 .cda文件I都是44字节长。WAV 格式无损的音乐WAV 为微软公司开发的一种声音文件格式。标准格式化的 WAV文件和CD格式一样，也是44.1K的取样频率，16位量化位数，声音文件质量和CD相差无几！特点：音质非常好，被大量软件所支持。适用于：多媒体开发、保存音乐和原始音效素材。MP3 格式流行的风尚全称 Moving Picture Experts Group Aud

14、io Layer III )，是当今较流行的一种数字音频编码和有损压缩格式。是ISO标准 MPEG1和MPEG2第三层(Layer 3)，采样率16-48kHz，编码速率 8K-1.5Mbps。特点：音质好，压缩比比较高，被大量软件和硬件支持，应用广泛。适用于：适合用于一般的以及比较高要求的音乐欣赏。MIDI 作曲家的最爱MIDI ( Musical Instrument Digital Interface )乐器数字接口。MIDI 数据不是数字的音频波形，而是音乐代码或称电子乐谱。MIDI 文件每存 1 分钟的音乐只用大约 510KB。MID 文件主要用于原始乐器作品，流行歌曲的业余表

15、演，游戏音轨以及电子贺卡等。 .mid 文件重放的效果完全依赖声卡的档次。普通的声音文件，如wav文件，是计算机直接把声音信号的模拟信号经过取样一一量化处理，不经压缩处理，变成与声音波形对应的数字信号。而 MIDI 文件则不是直接记录乐器的发音，而是记录了演奏乐器的各种信息或指令，如用哪一种乐器，什么时候按某个键，力度怎么样等等，至于播放时发出的声音，那是通过播放软件或者音源的转换而成的。因此MIDI 文件通常比声音文件小得多，一首乐曲，只有十几K或几十K，只有声音文件的千分之一左右，便于储存和携带。WMA 格式最具实力的敌人WMA (Windows Media Audio) 由微软开发。音质要强于 MP3 格式，更远胜于 RA 格式，它以减少数据流量但保持音质的方法来达到比 MP3 压缩率更高的目的， WMA 的压缩率一般都可以达到 1： 18 左右。内置了版权保护技术，可以限制播放时间和播放次数甚至于播放的机器等等。WMA 格式在录制时可以对音质进行调节。同一格式，音质好的可与CD 媲美，压缩率较高的可用于网络广播。Ra 格式流动的旋律RealAudio 主要适用于在网络上的在线音乐欣赏，现在大多数的用户仍然在使用 56Kbps 或

展开阅读全文