第二章音频信息处理ver30

上传人:bin****86 文档编号:54845960 上传时间:2018-09-20 格式:PPT 页数:128 大小:2.11MB
返回 下载 相关 举报
第二章音频信息处理ver30_第1页
第1页 / 共128页
第二章音频信息处理ver30_第2页
第2页 / 共128页
第二章音频信息处理ver30_第3页
第3页 / 共128页
第二章音频信息处理ver30_第4页
第4页 / 共128页
第二章音频信息处理ver30_第5页
第5页 / 共128页
点击查看更多>>
资源描述

《第二章音频信息处理ver30》由会员分享,可在线阅读,更多相关《第二章音频信息处理ver30(128页珍藏版)》请在金锄头文库上搜索。

1、1,第二章 音频信息处理,多媒体技术的特点是交互式地综合处理声文图信息。在多媒体系统中语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步,才能使视频图像更具真实性。娓娓动听的音乐和解说,会使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。,2,第二章音频信息处理,2.1 声音概述(重点) 2.2 音频信息数字化(重点) 2.3 音频文件的格式 2.4 语音压缩编码(重点) 2.5 音乐合成和MIDI (重点),3,2.1 声音概述,一、声音及其分类 1、声音声音是通过空气传播的一种连续的波,称为声波。基本参数频率:声音的频率,体现音调的高低 振幅:声波压力的大小,体

2、现声音的强弱,4,2.1 声音概述,声音信号由许多频率不同的信号组成,是复合信号。重要参数带宽:复合信号的频率范围 例如:高保真(high-fidelityaudio)声音的频率范围为10Hz20000Hz,其带宽约为20KHz。而视频信号的带宽是6MHz。,5,2.1 声音概述,2、声音的分类 声音:无规则的噪音和有规则的音频信号。 音频信号携带的信息可分为:语言、音乐和音效等三类。,6,2.1 声音概述,3、声音的三要素音调、音色和音强是声音的三要素。在任一时刻,模拟声波信号曲线都可以分解为一系列正弦波的线性叠加。其中0称为基频或基音(最低的音波);n*0称为0的n次谐波分量或称为泛音,其

3、频率是基频 的整数倍。,7,2.1 声音概述, 音调在音乐中称为音高,音高是指声波的基频。将基频取对数后与人的音高感觉成线性关系,音律中最常见的12平均律中的音阶划分,就是在频率对数坐标取等分而得来的。 音色取决于声波的频谱,即由混入基音的泛音所决定的。各阶谐波即泛音的幅度比例不同,随时间衰减的程度不同,则音色就不同。若中高频泛音丰富,音色就明亮,如小号;若低频泛音丰富,音色就低沉,如低音贝司。,8,2.1 声音概述, 音强取决于声波信号的强弱程度,即与声音信号的幅度成正比。人耳在辨别声音的能力只有在音强适中时才最灵敏。由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数

4、后再乘20所得值来描述声强,以分贝(dB)为单位,此时称为音量。在处理音频信号时,一般用动态范围来定义音频信号的相对强度:动态范围=20log(信号的最大强度/信号最小强度)单位:dB,9,2.1 声音概述,二、音频信号 (1)语音:具有语言内涵和人类约定成俗的特殊媒体。 (2)音乐:规范的符号化了的声音。 (3)音效(响):人类熟悉的其他声音,如动物发声、机器产生的声音、自然界的风雨雷电声等。音频的作用:直接通过讲话表达信息、制造某种效果和气氛、演奏音乐等。,10,2.1 声音概述,1、 音频人类听觉所感知范围内的频率,也称声频。音频(Audio):频率范围是20Hz20KHz的声音信号(人

5、耳能听到)次声波(subsonic):频率低于20Hz的信号(亚音)超声波(ultrasonic):频率高于20KHz的信号(超音频)说明1:次声波和超声波之间的音频为可听声波,属于多媒体音频信息范畴。,11,2.1 声音概述,说明2:人的发音器官发出的声音频率大约是803400Hz,但人说话的信号频率通常为3003000Hz,人们把在这种频率范围的信号称为语(话)音(speech)信号;实际上,人最敏感的频率范围是3KHz5KHz。对于高于1820kHz和低于1620Hz的声音信号,无论音强如何,一般人都听不到。,12,2.1 声音概述,Q:地震来临前,狗、老鼠等动物会比我们人类早知道,并有

6、一些异常反应,请解释原因。 地震时能量主要集中在次声波 狗、猫等动物的听觉范围比人广 如:狗的听觉范围是15Hz50000Hz猫的听觉范围是60Hz56000Hz。,13,2.1 声音概述,2、音频信号用电压或电流模拟信号表示声音信号,在多媒体技术中采用的是数字化音频信息。 3、音频信息处理技术 (1)音频获取技术(语音的采集、识别和理解) (2)音频合成技术(音乐的合成和语音的合成) (3)音频定位技术(模拟立体声、音频/视频同步) (4)音频编码、解码技术 (5)音频网络传输技术,14,2.1 声音概述,4、音频信号的技术指标 频带宽度:音频信号的频率范围,是衡量音质的标准。 频带越宽,包

7、含的音频信号分量越丰富,则音质越好。 通常将音质定义为4个等级标准: CD-DA唱盘为10Hz22KHz; FM广播为20Hz15KHz; AM广播为50Hz7KHz; 数字电话为200Hz3.4KHz。,15,2.1 声音概述,16,2.1 声音概述, 动态范围动态范围20log(信号的最大强度/信号的最小强度)动态范围越大,说明音频信号的相对变化范围大,音响效果越好。,几种音频业务的动态范围,17,2.1 声音概述, 信噪比SRN(Signal to Noise Rate ,dB)信噪比:有用信号的平均功率与噪音的平均功率之比。 信噪比越高,则音效越好。例:设 ,采样精度16位表示 ,求其

8、SNR?,SNR96dB,18,2.1 声音概述,说明:通常信噪比分为系统输入信号的信噪比SRN(in)和系统输出信号的信噪比SRN(out)。一般来说,在语音和图像信号的编码中,主观的质量评价较客观的质量评价更为恰当。,19,2.1 声音概述,5.音频信号的特点 由于音频是依赖时间的连续媒体,因此音频处理的时序性要求高; 由于人类接收声音有两个通道,因此计算机合成的声音应是立体声; 由于语音信号携带了情感意向,因此对语音信号的处理还要抽取语意等其它信息。,20,2.1 声音概述,三、数字音频 1.数字音频将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理的过程。(A/D转

9、换)主要包括采样、量化和编码几个方面。 2.数字音频的技术指标采样频率、量化位数、声道数、编码算法数字音频的质量取决于:采样频率和量化位数这两个重要 参数。此外,声道的数目、相应的音频设备也是影响音频质量的原因。,21,2.1 声音概述,3. 数字音频等级,各种声音质量的压缩比,23,2.1 声音概述,4.从人机交互的角度看音频信号处理 (1)人计算机包括:音频获取、语音识别和理解等; (2)计算机人包括:音乐合成、语音合成、立体声模拟等; (3)人计算机人包括:语音采集、音频编码/解码、音频传输、基于内容的检索等;,24,2.2 音频信息数字化,一、模拟信号与数字信号 在时间和幅度上都连续的

10、信号称为模拟信号。 在时间和幅度上都离散,用数字表示的信号称为数字信号。 对模拟信号的处理:比较复杂,难于精确控制,成本高。 将模拟信号数字化目的:处理简单,控制精确。,25,2.2 音频信息数字化,二、模拟信息数字化的主要优点 数字信号计算是一种精确的运算方法,它不受时间和环境变化的影响; 表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现; 可以对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。,26,2.2 音频信息数字化,三、模拟声音数字化过程 采样 在某特定时刻对模拟信号进行测量叫采样。每隔相等的一段时间进

11、行采样,称为均匀采样,否则为非均匀采样。 量化 把信号幅度划分成若干小段,若每段都是相等的,称为线性量化,否则称为非线性量化。 编码:将离散的模拟信号转化为数字信号,即对量化后的离散值用二进制代码取代。,27,2.2 音频信息数字化,1、采样 采样(sampling)在时间轴上对信号数字化。 采样周期:对连续信号采样的时间间隔T 采样频率:单位时间内的采样次数(1/T)。 采样频率越高,可恢复的声音保真度越好。 常用采样频率11.025KHz、22.05KHz、44.1KHz、48KHz。 如何保证采样的声音不失真?,28,2.2 音频信息数字化,奈魁斯特(Nyquiest)采样定理:若对某一

12、模拟信号进行采样,只要采样频率f(1/T)高于输入信号最高频率fC的两倍(f2fC),则经过采样后的采样信号能够包含原模拟信号的全部信息,且经过反变换和低通滤波后可不失真地恢复原模拟信号。 例如,电话话音信号的频率约为 3.4kHz,采样频率选 8kHz。,29,2.2 音频信息数字化,2、 量化:对声音信号波形振幅值的离散化 量化误差(或量化噪音):量化后的振幅代表值与真实振幅值之间的差。 量化跨度:在分割振幅时一个个小区间的宽度 量化精度(位数):每个声音样本的二进制位数(bit per sample,bps),30,2.2 音频信息数字化,31,2.2 音频信息数字化,声音数字化的两个关

13、键问题: 每秒钟需要采集多少个声音样本,即采样频率多少。 每个声音样本的位数(bit per sample,bps) 是多少,也就是量化位数(精度)。量化位数决定了量化等级M=2n。显然,量化位数越多,则量化精度越高即量化后声音信号越接近原始信号,但量化后的数据量也越大。,32,2.2 音频信息数字化,量化位数每增加一位,信噪比改善6dB (1)量化位数W、最大振幅A、量化跨度q之间的关系:q=A/2w-1 (2)当量化跨度远小于信号振幅时:q=A/2w (3)量化噪音功率:(4)将信噪比用分贝表示:SNR(dB)=,33,2.2 音频信息数字化,3、编码按一定格式记录采样和量化后的数字数据将

14、离散的模拟信号转化为数字信号,即对量化后的离散值用二进制代码(28或216)取代。,34,2.2 音频信息数字化,量化位数决定了量化等级M=2n。常用的量化位数为8bit或16bit。显然,量化位数越多,则量化精度越高。即量化后声音信号越接近原始信号,但量化后的数据量也越大。,35,2.2 音频信息数字化,声道数一次同时产生的声波组数。若一次产生两组声波数据,则为双声道或立体声。 声道数:2.0(双声道立体声)2.1(双声道加一超重低音声道)4.1(发音点:前左、前右、后左、后右、超重低音)5.1(比4.1声道增加一个中置单元,增加整体影院效果)7.1(比4.1声道增加中左、中右发音点),36

15、,2.2 音频信息数字化,三种最常用的采样指标及等效音质:,37,2.2 音频信息数字化,4、数字音频的存储量 存储量=(采样频率量化位数声道数持续时间)/8(字节数)如:CD光盘采用了双声道 16 位采样,采样频率为 44.1 KHz,可达专业级水平。若某首流行歌曲的长度为 3.5 分钟,则该歌曲占用的存储容量为:,1644.110002(3.560)8=37044000(B)=35.33MB,38,2.3 音频文件的格式,一、音频文件的分类 1、波形文件(声音文件)模拟音频信号经数字化后由计算机处理、存储及传输,输出时经D/A转换将数字信号还原为原来波形的音频文件。该文件属于获取声音文件。

16、 声音文件:指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大。,39,2.3 音频文件的格式,2、非波形文件(MIDI文件)通过语音合成器产生相应声音的非波形格式的MIDI(Musical Instrument Digital Interface)文件(.MID)。 MIDI文件:它是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件尺寸较小。,40,2.3 音频文件的格式,3、混合型文件(MOD文件)既有波形文件的特征,又有非波形文件的特征的文件。 MOD文件 最初由Commodor公司发明,用于Amiga计算机中的智能音乐芯片上,后来主要由业余爱好者使用的一种共享、自由软件。 该文件既含有声音的采样数据,又含有这些样本的描述性指令,适用于网络和BBC等。 31种采样声音,可产生大型乐队的效果。但其采样位数只是8位,采样频率是32KHz,不可能达到CD音质的效果。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号