数字音频处理技术PPT课件

资源描述

《数字音频处理技术PPT课件》由会员分享，可在线阅读，更多相关《数字音频处理技术PPT课件（43页珍藏版）》请在金锄头文库上搜索。

1、第3章数字音频处理技术,2,音频携带的信息量大、精细、准确。以一个汉字的表示为例：,3,3.1 音频基础,声音是由物体振动产生的。声音是通过一定介质传播的连续的波，叫声波。声音的强弱（音强）体现在声波压力的大小上（振幅）。音调的高低体现在声音的频率上。音色指声音的感觉特性，与声音波形相关。,4,2.1.1 声音的基本概念,声音的3个重要指标：振幅（amplitude）、周期、频率（rate）。,纯音：振幅和周期均为常数的声音。复音：具有不同频率和不同振幅的混合声音。自然界中大部分的声音是复合信号。复合信号中某单一频率的信号称为分量信号。复音中最低频率的信号是基音，其他频率的声

2、音称为谐音（泛音）。,振幅：音量的大小周期：重复出现的时间间隔频率：指信号每秒钟变化的次数,5,研究结果表明人类听力的大致范围在20Hz20K Hz。声音按频率可分为：人们把频率小于20Hz的信号称为亚音信号，或称为次音信号（subsonic）；频率范围为20 Hz20K Hz的信号称为音频（audio）信号；高于20 KHz的信号称为超音频信号，或称超声波（ultrasonic）信号。人的发音器官发出的声音的频率大约是803400Hz，但人说话的信号频率通常为3003000 Hz，人们把这种频率范围的信号称为话音或语音（speech）信号。,6,带宽：声音信号的一个重要参数就

3、是带宽，它用来描述组成复合信号的频率范围。如高保真声音（high-fidelity audio）的频率范围为10 Hz20K Hz，它的带宽约为20K Hz。一般而言，声源的频带越宽，表现力越好，层次越丰富。声音质量的频率范围：,7,3.2 声音的数字化,1模拟信号与数字信号话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。我们把在时间和幅度上都是连续的信号称为模拟信号。我们把时间和幅度都用离散的数字表示的信号就称为是数字信号。把模拟声音信号转变为数字声音信号的过程称为声音的数字化，它是通过对声音信号进行采样、量化和编码实现的。,8,2.声音数字化过程,模拟信号

4、,数字信号,A/D,D/A,9,10,每隔一个时间间隔在摸拟声音波形上取一个幅度值，这称之为采样（sampling）。该时间间隔称为采样周期(其倒数称为采样频率)。把某一幅度范围内的电压用一个数字表示，这称之为量化。把量化后的值写成有利于计算机传输和存储的数据格式，这称之为编码。,11,例如，模拟电压幅度、量化和编码的关系,12,3. 影响声音数字化质量的主要因素,采样频率：也就是每秒钟需要采集多少个声音样本量化位数：每个声音样本的位数应该是多少，也叫量化精度声道数：指所使用的声音通道的个数,13,（1）采样频率,采样频率决定了声音的保真度。频率以kHz（千赫兹）去衡量。可以想

5、象，采样频率越高声音的保真度就越好。但是问题在于如果我们采样频率过高，则需要存储的数据量就过大了。如何能既保证数据的无损恢复，而数据量又不要太大呢？抽样要满足采样定理（奈魁斯特定理）采样定理用通俗话来说，就是采样的频率要大于或等于被采样对象最高频率的两倍。,14,常用的音频采样频率有： 8kHz，11.025kHz，22.05kHz，16kHz，37.8 kHz，44.1 kHz，48 kHz。其中8kHz ，11.025 kHz，22.05 kHz，44.1 kHz是音频工业标准采样频率，多数声卡都支持。市场上的非专业声卡的最高采样率为48kHz，专业声卡可高达96kHz或以上。

6、为什么将CD音质的采样频率定为44.1kHz？,15,（2）量化位数,量化的过程如下：先将整个幅度划分成为有限个小幅度(量化阶距)的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。样本大小是用每个声音样本的位数表示的.它反映度量声音波形幅度的精度. 用B位二进制码字可以表示2B个不同的量化电平（级别）。例如：8位的声音从最低到最高有28，即256个级别，16位声音有216，即65536个级别。位数越多，音质越细腻，但数据量也越大。量化位数主要有8位和16位两种。专业级别使用24位甚至32位。,16,量化的方法可以归纳为两类：一类称为均匀量化，另一类称为非均匀量化。,17,均匀

7、量化,采用相等的量化间隔对采样得到的信号做量化就是均匀量化。,分析：如果出现大的幅度信号,同时又要满足精度要求,就需要增加样本的位数. 但是对话音信号来说,大信号出现的机会并不多,增加样本位数就没有充分得利用,x1 x2 x3 x4 x5 x6 x7,18,非均匀量化,非线性量化的基本想法是对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时，采用相同的规则。,19,根据语音信号非均匀分布的特点，设法让量化阶距随信号概率密度的减小而增大，或者说把大的量化误差留给出现概率小的样值，而得到较大的信

8、噪比。,20,（3）声道数,声道数是指所使用的声音通道的个数。它表明声音记录只产生一个波形（单声道）还是多个波形（立体声）。双声道立体声听起来要比单音丰满优美，但需要两倍于单音的存储空间。,21,存储数字音频信号的数据率 =采样频率（Hz）*量化位数(b)8*声道数 (B/s) 音频信息文件所需存储空间为：存储容量=采样频率*量化位数8*声道数*时间 (B),22,关于声道的补充知识,双声道立体声杜比AC-3音频和5.1声道,23,5个全频带声道：左、中、右、左环绕、右环绕 0.1声道：低于120Hz的超重低音声道。,24,3.3 声音文件的存储格式,PCM格式：PCM数据序列。是指模

9、拟的音频信号，经模数转换直接形成的二进制序列。该文件没有附加的文件头或文件结束标志。 WAV：由Microsoft公司推出的波形音频文件格式，波形音频(Waveform Audio)。是通过对一段模拟声波进行采样、量化得到一系列量化的数字值，再对这些离散的波形数据加以编码存储，从而形成数字化的音频信号数据。 WAV文件是一种通用的音频数据文件。这种文件的特点是易于生成和编辑，但是在保证一定音质的前提下压缩比不够，其文件所占存储空间都很大。支持存储各种采样频率和样本精度的声音数据，并支持声音数据的压缩。波形文件有许多不同类型的文件构造块组成，其中最主要的两个文件构造块是Format Chun

10、k(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数，例如采样频率和样本精度等，声音数据块则包含有实际的波形声音数据。,25,26,音频文件格式,VOC：Creative公司的声霸卡(Sound Blaster)使用的波形音频文件格式。 MID：Windows的MIDI文件（MIDI Audio）存储格式。 MP3： MP3压缩格式文件。 MP3的全称实际上是MPEG1 Audio Layer-3 MP4：基于MPEG-2 AAC技术的文件压缩格式。 CD格式：cda文件，大小为44字节，只是一个索引信息，并不包含真正的声音信息。 Aif、snd：App

11、le计算机上的声音文件存储格式。 RA、RM：Real公司开发的主要适用于网络上实时数字音频流技术的文件格式。 ASF、ASX、WMA、WAX ：微软公司针对Real公司开发的新一代网上流式数字音频压缩技术。,27,3.4 声卡与音箱,声卡是处理各种类型数字化声音信息的硬件。声卡的主要功能包括：录制、编辑和回放数字音频文件控制和混合各声源的音量记录和回放时进行压缩和解压缩实时、动态地处理数字化声音信号通过语音合成技术使计算机朗读文本，通过采用语音识别功能，让用户通过说话指挥计算机等。具有MIDI接口、光盘驱动器接口和游戏杆端口,28,声卡的接口,29,3.5 MIDI与音乐合成,

12、MIDI简介 MIDI是Musical Instrument Digital Interface的首写字母组合词，可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始，MIDI已经逐步被音乐家和作曲家广泛接受和使用。 MIDI是乐器和计算机使用的标准语言，是一套指令(即命令的约定)，它指示乐器即MIDI设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产

13、生声音或执行某个动作的指令。,30,MIDI主要包括以下两个部分： MIDI硬件规范：硬件接口标准和信号传输机制(I/O通道、连接电缆和插座形式)。 MIDI软件规范：音乐信息数字化编码方式(音符、音符长短、音调和音量等)。,31,特点,MIDI标准之所以受到欢迎，主要是它有下列几个优点：生成的文件比较小，因为MIDI文件存储的是命令，而不是声音波形；容易编辑，因为编辑命令比编辑声音波形要容易得多；可以作背景音乐，因为MIDI音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果注意：由于MIDI文件记录的是电子乐器的“乐谱”指令，故它只能重现打击乐或一些电

14、子乐器的声音。,32,MIDI音乐合成器,产生MIDI乐音的方法主要有两种，一种是频率调制(FM)合成法，另一种是乐音样本合成法，也称为波形表(WaveTable)合成法。 FM合成法是通过硬件产生波形信号，再经过处理产生音乐。乐音样本合成法是在ROM中预先存储着各种实际乐器的声音采样，合成时以查表方式调用这种实际乐器的声音采样，合成该乐器的乐音。波形表合成法又分为硬波形表，软波形表。硬波形表的音色库存放在声卡的ROM中，而软波形表的音色库则以文件的形式存放在硬盘里，需要时再通过CPU调用。利用波形表方式合成音乐的效果更加逼真，它的效果优于FM方式合成的效果。,33,3.6 音频处理技术

15、的应用,随着多媒体信息处理技术的发展，计算机数据处理能力的增强，音频处理技术受到重视，并得到了广泛的应用。如：（1）视频图像的配音、配乐；静态图像的解说、背景音乐；（2）可视电话、电视会议中的话音；游戏中的音响效果；虚拟现实中的声音模拟；（3）Internet 电话 (IP phone),34,（4）声音欺骗系统与声纹识别声音欺骗：比如：在军事上，截获敌人的无线电信号，改变内容把信号重新传送出去。声音伪造装置可以将截获的信号分割成0.25秒的片断，进行重新组合，从而得出带有欺骗性的新信息，而不改变敌军讲话人的声音。进一步研究的装置能够把敌军话务员的声音分为几十个音素，将这些音素

16、转换成参考模板，储存在数据库里。情报技师可用自己的声音讲话，并触发相应敌军话务员的音素参考模板，无线电播出的声音听起来，就会和敌军话务员一模一样。声音欺骗系统需要高超的声音分析技术和语音合成技术。声纹识别可以用来破案。,35,（5）现代“芝麻开门”系统（6） Internet上的实时音频（7）语音识别（8）计算机言语输出（9）虚拟主持人,36,语音识别：语音识别是将人发出的声音、字或短语转换成文字、符号，或给出响应，如执行控制、做出回答。语音识别技术应用于需要以语音作为人机交互手段的场合，主要是实现听写和命令控制功能。如：语音识别软件 IBM ViaVoice,37,计算机言语输出计算机言语输出所要研究和解决的问题，就是如何利用计算机输出流利的自然语言，使计算机具备说话的能力。一般来讲，实现计算机语音输出有两种方法：一是录音/重放, 二是文-语转换(TTSText to Speech) 。文-语转换是语音合成技术的延伸，它能把计算机内的文体转换成连续自然的语声流。若采用这种方法输出语音，应预先建立语音参数数

展开阅读全文