数字音频处理技术PPT课件

上传人:W**** 文档编号:157989205 上传时间:2020-12-29 格式:PPT 页数:43 大小:2.40MB
返回 下载 相关 举报
数字音频处理技术PPT课件_第1页
第1页 / 共43页
数字音频处理技术PPT课件_第2页
第2页 / 共43页
数字音频处理技术PPT课件_第3页
第3页 / 共43页
数字音频处理技术PPT课件_第4页
第4页 / 共43页
数字音频处理技术PPT课件_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《数字音频处理技术PPT课件》由会员分享,可在线阅读,更多相关《数字音频处理技术PPT课件(43页珍藏版)》请在金锄头文库上搜索。

1、第3章 数字音频处理技术,2,音频携带的信息量大、精细、准确。 以一个汉字的表示为例:,3,3.1 音频基础,声音是由物体振动产生的。声音是通过一定介质传播的连续的波,叫声波。 声音的强弱(音强)体现在声波压力的大小上(振幅)。 音调的高低体现在声音的频率上。 音色指声音的感觉特性,与声音波形相关。,4,2.1.1 声音的基本概念,声音的3个重要指标:振幅(amplitude)、周期、频率(rate)。,纯音:振幅和周期均为常数的声音。 复音:具有不同频率和不同振幅的混合声音。 自然界中大部分的声音是复合信号。 复合信号中某单一频率的信号称为分量信号。 复音中最低频率的信号是基音,其他频率的声

2、音称为谐音(泛音)。,振幅:音量的大小 周期:重复出现的时间间隔 频率:指信号每秒钟变化的次数,5,研究结果表明人类听力的大致范围在20Hz20K Hz。 声音按频率可分为: 人们把频率小于20Hz的信号称为亚音信号,或称为次音信号(subsonic); 频率范围为20 Hz20K Hz的信号称为音频(audio)信号; 高于20 KHz的信号称为超音频信号,或称超声波(ultrasonic)信号。 人的发音器官发出的声音的频率大约是803400Hz,但人说话的信号频率通常为3003000 Hz,人们把这种频率范围的信号称为话音或语音(speech)信号。,6,带宽: 声音信号的一个重要参数就

3、是带宽,它用来描述组成复合信号的频率范围。如高保真声音(high-fidelity audio)的频率范围为10 Hz20K Hz,它的带宽约为20K Hz。 一般而言,声源的频带越宽,表现力越好,层次越丰富。 声音质量的频率范围:,7,3.2 声音的数字化,1模拟信号与数字信号 话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。我们把在时间和幅度上都是连续的信号称为模拟信号。 我们把时间和幅度都用离散的数字表示的信号就称为是数字信号。 把模拟声音信号转变为数字声音信号的过程称为声音的数字化,它是通过对声音信号进行采样、量化和编码实现的。,8,2.声音数字化过程,模拟信号

4、,数字信号,A/D,D/A,9,10,每隔一个时间间隔在摸拟声音波形上取一个幅度值,这称之为采样(sampling)。 该时间间隔称为采样周期(其倒数称为采样频率)。 把某一幅度范围内的电压用一个数字表示,这称之为量化。 把量化后的值写成有利于计算机传输和存储的数据格式,这称之为编码。,11,例如,模拟电压幅度、量化和编码的关系,12,3. 影响声音数字化质量的主要因素,采样频率:也就是每秒钟需要采集多少个声音样本 量化位数:每个声音样本的位数应该是多少,也叫量化精度 声道数:指所使用的声音通道的个数,13,(1) 采样频率,采样频率决定了声音的保真度 。频率以kHz(千赫兹)去衡量。 可以想

5、象,采样频率越高声音的保真度就越好。但是问题在于如果我们采样频率过高,则需要存储的数据量就过大了。 如何能既保证数据的无损恢复,而数据量又不要太大呢? 抽样要满足采样定理(奈魁斯特定理) 采样定理用通俗话来说,就是采样的频率要大于或等于被采样对象最高频率的两倍 。,14,常用的音频采样频率有: 8kHz,11.025kHz,22.05kHz,16kHz,37.8 kHz,44.1 kHz,48 kHz。 其中8kHz ,11.025 kHz,22.05 kHz,44.1 kHz是音频工业标准采样频率,多数声卡都支持。市场上的非专业声卡的最高采样率为48kHz,专业声卡可高达96kHz或以上。

6、为什么将CD音质的采样频率定为44.1kHz?,15,(2) 量化位数,量化的过程如下:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。 样本大小是用每个声音样本的位数表示的.它反映度量声音波形幅度的精度. 用B位二进制码字可以表示2B个不同的量化电平(级别)。 例如:8位的声音从最低到最高有28,即256个级别,16位声音有216,即65536个级别。位数越多,音质越细腻,但数据量也越大。 量化位数主要有8位和16位两种。专业级别使用24位甚至32位。,16,量化的方法可以归纳为两类:一类称为均匀量化,另一类称为非均匀量化。,17,均匀

7、量化,采用相等的量化间隔对采样得到的信号做量化就是均匀量化。,分析: 如果出现大的幅度信号,同时又要满足精度要求,就需要增加样本的位数. 但是对话音信号来说,大信号出现的机会并不多,增加样本位数就没有充分得利用,x1 x2 x3 x4 x5 x6 x7,18,非均匀量化,非线性量化的基本想法是 对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示。 声音数据还原时,采用相同的规则。,19,根据语音信号非均匀分布的特点,设法让量化阶距随信号概率密度的减小而增大,或者说把大的量化误差留给出现概率小的样值,而得到较大的信

8、噪比。,20,(3)声道数,声道数是指所使用的声音通道的个数。它表明声音记录只产生一个波形(单声道)还是多个波形(立体声)。 双声道立体声听起来要比单音丰满优美,但需要两倍于单音的存储空间。,21,存储数字音频信号的数据率 =采样频率(Hz)*量化位数(b)8*声道数 (B/s) 音频信息文件所需存储空间为: 存储容量=采样频率*量化位数8*声道数*时间 (B),22,关于声道的补充知识,双声道立体声 杜比AC-3音频和5.1声道,23,5个全频带声道:左、中、右、左环绕、右环绕 0.1声道:低于120Hz的超重低音声道。,24,3.3 声音文件的存储格式,PCM格式:PCM数据序列。 是指模

9、拟的音频信号,经模数转换直接形成的二进制序列。该文件没有附加的文件头或文件结束标志。 WAV: 由Microsoft公司推出的波形音频文件格式,波形音频(Waveform Audio)。是通过对一段模拟声波进行采样、量化得到一系列量化的数字值,再对这些离散的波形数据加以编码存储,从而形成数字化的音频信号数据。 WAV文件是一种通用的音频数据文件。这种文件的特点是易于生成和编辑,但是在保证一定音质的前提下压缩比不够,其文件所占存储空间都很大。 支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是Format Chun

10、k(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。,25,26,音频文件格式,VOC:Creative公司的声霸卡(Sound Blaster)使用的波形音频文件格式。 MID:Windows的MIDI文件(MIDI Audio)存储格式。 MP3: MP3压缩格式文件。 MP3的全称实际上是MPEG1 Audio Layer-3 MP4:基于MPEG-2 AAC技术的文件压缩格式。 CD格式:cda文件,大小为44字节,只是一个索引信息,并不包含真正的声音信息。 Aif、snd:App

11、le计算机上的声音文件存储格式。 RA、RM:Real公司开发的主要适用于网络上实时数字音频流技术的文件格式。 ASF、ASX、WMA、WAX :微软公司针对Real公司开发的新一代网上流式数字音频压缩技术。,27,3.4 声卡与音箱,声卡是处理各种类型数字化声音信息的硬件。 声卡的主要功能包括: 录制、编辑和回放数字音频文件 控制和混合各声源的音量 记录和回放时进行压缩和解压缩 实时、动态地处理数字化声音信号 通过语音合成技术使计算机朗读文本,通过采用语音识别功能,让用户通过说话指挥计算机等。 具有MIDI接口、光盘驱动器接口和游戏杆端口,28,声卡的接口,29,3.5 MIDI与音乐合成,

12、MIDI简介 MIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。 MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产

13、生声音或执行某个动作的指令。,30,MIDI主要包括以下两个部分: MIDI硬件规范:硬件接口标准和信号传输机制(I/O通道、连接电缆和插座形式)。 MIDI软件规范:音乐信息数字化编码方式(音符、音符长短、音调和音量等)。,31,特点,MIDI标准之所以受到欢迎,主要是它有下列几个优点: 生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波形; 容易编辑,因为编辑命令比编辑声音波形要容易得多; 可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果 注意:由于MIDI文件记录的是电子乐器的“乐谱”指令,故它只能重现打击乐或一些电

14、子乐器的声音。,32,MIDI音乐合成器,产生MIDI乐音的方法主要有两种,一种是频率调制(FM)合成法,另一种是乐音样本合成法,也称为波形表(WaveTable)合成法。 FM合成法是通过硬件产生波形信号,再经过处理产生音乐。 乐音样本合成法是在ROM中预先存储着各种实际乐器的声音采样,合成时以查表方式调用这种实际乐器的声音采样,合成该乐器的乐音。 波形表合成法又分为硬波形表,软波形表。硬波形表的音色库存放在声卡的ROM中,而软波形表的音色库则以文件的形式存放在硬盘里,需要时再通过CPU调用。 利用波形表方式合成音乐的效果更加逼真,它的效果优于FM方式合成的效果。,33,3.6 音频处理技术

15、的应用,随着多媒体信息处理技术的发展,计算机数据处理能力的增强,音频处理技术受到重视,并得到了广泛的应用。如: (1)视频图像的配音、配乐;静态图像的解说、背景音乐; (2)可视电话、电视会议中的话音;游戏中的音响效果;虚拟现实中的声音模拟; (3)Internet 电话 (IP phone),34,(4) 声音欺骗系统与声纹识别 声音欺骗: 比如:在军事上,截获敌人的无线电信号,改变内容把信号重新传送出去。 声音伪造装置可以将截获的信号分割成0.25秒的片断,进行重新组合,从而得出带有欺骗性的新信息,而不改变敌军讲话人的声音。 进一步研究的装置能够把敌军话务员的声音分为几十个音素,将这些音素

16、转换成参考模板,储存在数据库里。情报技师可用自己的声音讲话,并触发相应敌军话务员的音素参考模板,无线电播出的声音听起来,就会和敌军话务员一模一样。 声音欺骗系统需要高超的声音分析技术和语音合成技术。 声纹识别可以用来破案。,35,(5) 现代“芝麻开门”系统 (6) Internet上的实时音频 (7)语音识别 (8)计算机言语输出 (9)虚拟主持人,36,语音识别: 语音识别是将人发出的声音、字或短语转换成文字、符号,或给出响应,如执行控制、做出回答。 语音识别技术应用于需要以语音作为人机交互手段的场合,主要是实现听写和命令控制功能。 如:语音识别软件 IBM ViaVoice,37,计算机言语输出 计算机言语输出所要研究和解决的问题,就是如何利用计算机输出流利的自然语言,使计算机具备说话的能力。 一般来讲,实现计算机语音输出有两种方法: 一是录音/重放, 二是文-语转换(TTSText to Speech) 。 文-语转换是语音合成技术的延伸,它能把计算机内的文体转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号