多媒体音频处理技术剖析

资源描述

《多媒体音频处理技术剖析》由会员分享，可在线阅读，更多相关《多媒体音频处理技术剖析（56页珍藏版）》请在金锄头文库上搜索。

1、Chap2 多媒体音频处理技术声音信息的处理声音的处理：压缩和编码声音的表示与存储声音的采集：波形声音数字化电子乐器（MIDI）话音（语音识别） Chap2 多媒体音频处理技术本章内容： 2.1 声音信号概述 2.2 声音信号数字化 2.3 声音文件的存储格式 2.4 声音处理软件 2.5 声音质量的度量 2.6 MIDI系统 2.7 语音处理技术 2.1 声音信号概述什么是声音？声音是通过空气传播的一种连续的波。声音是携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。单一频率的声波可用一条正弦波表示，如下图所示。振幅周期基线振幅表示声音信号

2、的强弱程度。频率指声音信号每秒钟变化的次数，用Hz表示。亚音信号（次声带）：小于20Hz 音频信号： 2020K Hz 超声波信号（超声带）：大于20K Hz 频率反映出声音的音调，声音细尖表示频率高，声音粗低表示频率低。想想按住单放机的快键，会有什么声音？声音的听觉特性声音的三要素。音调表示声音的高低，取决于声音的频率。音色即特色的声音，指声音的感觉特性。声音分纯音和复音，复音包括基音和泛音。音色由基音与泛音的比例、泛音的分布、泛音随时间的衰减变化决定。音强声音的强度，取决于声音的振幅。即“音量”。乐音以小提琴为例，当A弦振动时，基音：整根弦的振动产生

3、了最主要的频率；泛音：弦长的二分之一、三分之一、四分之一等处的振动则产生了一些次要的频率。乐音：如果一个物体振动所发出的泛音为基音的整数倍，这个音就会具有清晰可辨的音调，我们称之为乐音；噪音：如果泛音是基音的非整数倍，这个音就不具备清晰可辨的音调，我们称之为噪音。 2.2 声音信号数字化声音信号数字化的过程模拟信号数字信号采样量化编码采样：在某些特定时刻对模拟信号进行测量，即使音频信号在时间轴上离散化。量化：对采样后的离散音频信号幅值样本进行离散化处理，即将每一个样本归入预先编排的量化级上。编码：对量化级以二进制数码按一定数据格式表示的过程。声音的采样和

4、量化 0101 0100 0011 0010 0001 0000 1001 1010 1011 1100 1101 影响数字音频质量的技术参数对模拟音频信号进行采样量化编码后，得到数字音频。数字音频的质量取决于采样频率、量化位数和声道数三个因素。 1）采用频率指一秒钟时间内采样的次数。奈奎斯特理论（Nyquist theory）：采样频率不应低于声音信号的最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，叫做无损数字化。采样频率通常采用三种： 11.025KHz(语音效果)、 22.05KHz(音乐效果)、 44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为4

5、4.1KHz。 2）量化精度描述每个采样点样本值的二进制位数。例如，8位量化位数表示量化精度为1/256。）声道数声音通道的个数称为声道数，是指一次采样所记录产生的声音波形个数。单声道：记录声音时，每次生成一个声波数据；双声道（立体声）：每次生成两个声波数据。随着声道数的增加，所占用的存储容量也成倍增加。数字音频文件的存储量以字节为单位，模拟波形声音被数字化后音频文件的存储量(假定未经压缩)为：存储量=采样频率量化位数/8声道数时间例如，用44.1KHz的采样频率进行采样，量化位数选用16位，则录制1秒的立体声节目，其波形文件所需的存储量为： 4410016821

6、=176400(字节) 声音质量和数据率说明：*电话使用律编码，动态范围为13位，而不是8位。质量采样频率/kHz 样本精度/b/s 单道声/立体声数据率（未压缩）/kb/s 频率范围/Hz 电话* AM FM CD DAT 8 11.025 22.050 44.1 48 8 8 16 16 16 单道声单道声立体声立体声立体声 64.0 88.2 705.6 1411.2 1536.0 2003400 507000 2015000 2020000 2020000 2.3 声音文件的存储格式 1. WAV 文件 3. MP3 文件 2. MIDI 4. WMA 文件 WAV

7、文件波形音频文件： - 文件的扩展名是“.WAV” ； - 它记录了采样数据，可重现各种声音，但文件很大； - 压缩方法：主要有PCM和APCM等； - 特点：易于生成和编辑，压缩比不高。 - 还原质量：人的讲话声：8位量化级、11.025 KHz采样率 CD音质： 16位量化级、44.1 KHz的采样率 MIDI MIDI文件： - 扩展名为“.MID”； - 记录的不是声音本身，而是将每个音符记录为一个数字， - 节省空间，可以满足长时间音乐的需要。 - 主要限制是缺乏重现真实自然的能力。采用波表法进行音乐合成的声音卡可以使MIDI 音乐的质量大大提高。 CD Audio，扩展名

8、CDA：唱片采用的格式，音质非常好，记录的是波形流，但缺点是无法编辑，文件长度太大。 MPEG-3，扩展名MP3：非常流行，因其压缩率大（10:112:1），在网络可视电话通信方面应用广泛，但和CD唱片相比，音质不能令人非常满意。 WMA (Windows Media Audio) 文件: 是微软力推的一种音频格式。WMA格式压缩率一般可以达到18:1，生成的文件大小只有相应MP3文件的一半，但音质不减。 RealAudio文件，扩展名RA : RealNetworks公司的“流式播放”声音文件格式，强大的压缩量(可达96:1)和极小的失真，主要适用于在网络上的在线音乐欣赏。

9、常见的声音文件扩展名文件的扩展名说明 au Sun和NeXT公司的声音文件存储格式 aif(Audio Interchange) Apple计算机上的声音文件存储格式 cmf(Creative Music Format) 声霸（SB）卡带的MIDI文件存储格式 mct MIDI文件存储格式 mff(MIDI File Format) MIDI文件存储格式1/2 mid(MIDI) Windows的MIDI文件存储格式 mp2 MPEG Layer ， mp3 MPEG Layer mod(Module) MIDI文件的存储格式 rm(RealMedia) RealNetworks公司的流

10、放式声音文件格式 ra(RealAudio) RealNetworks 公司的流放式声音文件格式续：常见的声音文件扩展名 rol Adlib 声音卡文件存储格式 snd(sound) Apple 计算机上的声音文件存储格式 seq MIDI文件存储格式 sng MIDI文件存储格式 voc(Creative Voice) 声霸卡存储的声音文件存储格式 wav(Waveform)* Windows采用的波形声音文件存储格式 wrk Cakewalk Pro 软件采用的MIDI文件存储格式说明：*支持PCM，ADPCM，率和A率波形 2.4 声音处理软件声音处理软件：即声音工具，是用来录放

11、、编辑和分析声音文件的。常见的声音工具有：、Window 95/98/ 本身带的“Sound Recorder” 、买声卡时带的工具 3、网络上下载的工具 2.5 声音质量的度量评价声音质量的主观方法：平均判分法（MOS），召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价，所得分数为MOS。分数质量级别失真级别 5 优无察觉 4 良（刚）察觉但不讨厌 3 中（察觉）有点讨厌 2 差讨厌但不反感 1 劣极讨厌（令人反感）客观方法: 信噪比（） SNR= 1）SNR大，在一定程度上能够隐蔽噪声，从而获得较好的声音效果； 2）在声音的录制

12、和播放时，要注意环境噪声的影响。 2.6 电子乐器数字接口（MIDI）系统电子乐器数字接口（musical instrument digital interface, MIDI）是用于在音乐合成器、电子乐器、音序器和计算机之间交换音乐信息的一种标准协议。从80年代初问世至今，MIDI经历了长时间的发展，现已成为电脑音乐的代名词。 MIDI文件的特点 (1). 指令集合，文件小。 (2). 编辑灵活，在音序器的帮助下，用户可自由地改变音调、音色以及乐曲速度等，以达到需要的效果。 (3). 表现力弱，不能与真正的乐器完全相似，音质有待提高。 (4).MIDI声音适于重现打击乐或一

13、些电子乐器的声音，利用MIDI声音方式可用计算机来进行作曲。 (5).使用MIDI文件，其声音卡上必需含有硬件音序器或者配置有软件音序器。数字式频率调制（FM ）合成法由以下五部分组成：数字载波器调制器数字运算器声音包络发生器模数转换器从理论上讲，FM合成方法可以产生任何乐音，但是，这种“物理课式 ”的合成方法合成出来的声音不够真实。乐音样本合成法此法产生的声音质量比FM合成方法产生的声音质量要高。把真实乐器发出的声音以数字的形式记录下来，播放时再加以调整、修饰和放大，生成各种音阶的音符。 MIDI系统设备配置 MIDI设备就是处理MIDI信息所需的硬件设备

14、，其基本组成包括：合成器扬声器 MIDI键盘MIDI端口音序器 (1). MIDI键盘 MIDI键盘是用于MIDI乐曲演奏的，MIDI 键盘本身并不发出声音，当作曲人员触动键盘上的按键时，就发出按键信息，所产生的仅仅是MIDI音乐消息，从而由音序器录制生成MIDI文件。 (2). MIDI端口一台MID设备可以有一至三个MIDI端口，分别称为MIDI In、MIDI Out、MIDI Thru。它们的作用是： MIDI In：接收来自其它MIDI设备的MIDI信息。 MIDI Out：发送本设备生成的MIDI信息到其它设备。 MIDI Thru：将从MIDI In端口传来的信息转发到相连的另一台MIDI设备上。 (3). 音序器用于记录、编辑、播放MIDI的声音文件，音序器有以硬件形式提供的，目前大多为软件音序器。音序器可捕捉MIDI 消息，将其存入MIDI文件，MIDI文件扩展名为 .MID。音序器还可编辑MIDI文件。 (4). 合成器

展开阅读全文

多媒体音频处理技术剖析

最新文档