第三章多媒体音频信息处理

资源描述

《第三章多媒体音频信息处理》由会员分享，可在线阅读，更多相关《第三章多媒体音频信息处理（74页珍藏版）》请在金锄头文库上搜索。

1、第三章多媒体音频信息处理声音是携带信息的极其重要的媒体是多媒体技术研究中的一个重要内容声音的种类繁多如人的话音乐器声动物发出的声音机器产生的声音以及自然界的声音等这些声音有许多共同的特性也有它们各自的特性在用计算机处理这些声音时既要考虑它们的共性又要利用它们的各自的特性一音频信号的分类音频信号可分为两类语音信号语音是语言的物质载体它包含了丰富的语言内涵是人类进行信息交流所特有的形式非语音信号主要包括音乐和自然界存在的其他声音形式非语音信号的特点是不含复杂的语义和语法信息其信息量低识别简单二音频信号的形式声音可用一条连续的曲线来表示这条连

2、续的曲线无论多么复杂都可分解成一系列正炫波的线性叠加称为声波因声波是在时间上和幅度上都连续变化的量因此称之为模拟量模拟信号有两个重要参数频率和幅度一个声源每秒钟可产生成百上千个波峰把每秒钟波峰所发生的数目称之为信号的频率信号周期是指两个峰点或谷底之间的相对时间信号的基线提供了一个测量声音的起点信号的幅度是从信号的基线到当前波峰的距离幅度决定了信号音量的强弱程度信号带宽是声音信号的一个重要参数它用来描述组成复合信号的频率范围振幅周期基线 1GHz 10GHz 超高声波 20kHz 1GHz 超声波 20Hz 20kHz 人类听力所能接受 0 20Hz 亚声波频

3、率范围声音分类三声音质量的评价客观质量度量用信噪比来衡量主观质量度量现在公认的声音质量分为4级数字激光唱盘质量调频无线电广播调幅无线电广播电话质量 CD DA FM广播 AM广播电话 1020502003 4K7K15K22K 四模拟音频的数字化过程话音信号是典型的连续信号不仅在时间上是连续的而且在幅度上也是连续的在时间上连续是指在一个指定的时间范围里声音信号的幅值有无穷多个在幅度上连续是指幅度的数值有无穷多个我们把在时间和幅度上都是连续的信号称为模拟信号如果要用计算机对音频信息进行处理则首先将模拟音频信号如语音音乐等转换成数字信号对模拟音频

4、数字化的过程涉及到音频的采样量化和编码模拟音频信号采样量化编码数字音频信号计算机对声音的表示主要是通过规则的时间间隔测出音波振动的幅度从而产生的一系列声音数据这种测出数据的方法就称为采样一秒内采样的次数称为采样率 samplingrate 单位为Hz 例如采样频率通常采用种 11 025KHz 语音效果 22 05KHz 音乐效果 44 1KHz 高保真效果常见的CD唱盘的采样频率即为44 1KHz 采样奈奎斯特理论采样频率与声音频率之间有一定的关系只有采样频率高于声音信号最高频率的两倍时才能把数字信号表示的声音还原成为原来的声音例如 CD唱片要想获得CD音质

5、的效果则要保证采样频率为44 1KHz 采样的离散音频数据要转换成计算机能够表示的数据范围的过程我们把对声波波形幅度的数字化表示称之为量化量化的过程首先将采样后的信号按整个声波的幅度划分成有限个区段的集合把落入某个区段内的样值归为一类并赋予相同的量化值量化 c 采样信号的量化 a 模拟音频信号 b 音频信号的采样数字化音频的过程如下图所示量化位数量化位数也称量化精度是描述每个采样点样值的二进制位数例如 8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示这个参数就是通常所说

6、的声卡的位数常用的量化位数为8位 16位 32位专业级的高档声卡有64位的编码为什么要对音频编码 A 获取更好的数学描述方法 B 让声音不失真 C 不编码就不是比特流 D 为了使比特流更加简练 E 为了便于计算机存储 F 为了便于在网络上传输音频以上哪个是最根本的出发点所谓编码就是按照一定的格式把离散的数字记录下来并在有用的数据中加入一些用于纠错同步和控制的数据在数据回放时可以根据所记录的纠错数据判别读出的声音数据是否有错如在一定范围内有错可加以纠正五音频信号的压缩编码与标准数字波形文件数据量大数字音频的编码必须采用高效的数据压缩编码技术对数字化后的声音信号

7、进行压缩编码使其成为具有一定字长的二进制数字序列并以这种形式在计算机内传输和存储在播放时经解码器恢复成原来的声音信号输入信号编码器传输存储解码器输出信号音频信号能够被压缩编码的依据有两个一是声音信号存在着数据冗余二是利用人的听觉特性来降低编码率人的听觉具有一个强音能抑制一个同时存在的弱音现象这样就可以抑制与信号同时存在的量化噪声另外人耳对低频端比较敏感而对高频端不太敏感由此引出了子带编码技术音频信号的编码方式可分为波形编码参数编码和混合编码三种波形编码的算法简单易于实现可获得高质量的语音常见的三种波形编码方法为脉冲编码调制 PCM 实际为直接对声

8、音信号作A D转换只要采样频率足够高量化位数足够多就能使解码后恢复的声音信号有很高的质量差分脉冲编码调制 DPCM 即只传输声音预测值和样本值的差值以此降低音频数据的编码率自适应差分编码调制 ADPCM 是DPCM方法的进一步改进通过调整量化步长对不同频段设置不同的量化字长使数据得到进一步的压缩 2 参数编码参数编码方法通过建立起声音信号的产生模型将声音信号用模型参数来表示再对参数进行编码在声音播放时根据参数重建声音信号参数编码法算法复杂计算量大压缩率高但还原声音的质量不高 3 混合编码混合编码是把波形编码的高质量和参数编码的低数据率结合在一起取得了较好效果脉

9、冲编码调制 PCM PCM编码是对连续语音信号进行空间采样幅度值量化及用适当码字将其编码的总称 PCM方法可以按量化方式的不同分为均匀量化PCM 非均匀量化PCM和自适应量化PCM等三种均匀量化非均匀量化差分脉冲编码调制 DPCM 他编码的不是声音采样样本值而是样本值及其预测值的差分根据过去的样本去估算 estimate 下一个样本信号的幅度大小这个值称为预测值然后对实际信号值与预测值之差进行量化编码从而就减少了表示每个样本信号的位数自适应差分脉冲编码 ADPCM 自适应就是使量化间隔大小的变化自动的去适应输入信号大小的变化他根据信号分布不均匀的特点是系统具有随输入信

10、号的变化而改变量化区间的大小以保证输入量化器的信号基本均匀的能力标准比特速度编码技术应用制定日期 G 7235 3kb s或6 3kb sMP MLQ视频电话及IP电话等1996 3 G 72264kb sSBC ADPCM视听多媒体和会议电话1988 11 G 71164kb sPCM公共电话网1972 G 72816kb sLD CELP公共电话网1992 9 G 7298kb sCS ACELP无线移动网 1996 3计算机通信系统等 ITU TG系列音频压缩编码标准音频编码标准和算法六数字音频的文件格式 WAV文件 WAV文件又称为波形文件是Micorsoft公司的文件格式

11、 WAV文件来源于对声音模拟波形的采样并以不同的量化位数把这些采样点的值转换成二进制数 WAVE声音文件是使用RIFF 资源交换文件的格式描述的对于PCM采样得到的波形文件其声音文件的大小与采样频率量化位数和声道数有关文件大小采样频率量化位数 8 声道数录音时间如对于立体声如果采样频率为44 1Kz 分辨率为16bit 声道数为2 语音时间为10秒求录音文件的大小 VOC文件 VOC文件是Creative公司所使用的标准音频文件格式与WAVE格式类似 VOC文件有文件头块和音频数据块组成文件头包含一个标识版本号和一个指向数据块起始地址的指针数据块分成各种类型的

12、子块如声音数据静音标记重复重复的结束及终止标记等 mp3文件是用一种属于按MPEG标准的声音压缩技术制作的数字音频文件存储空间小同样长度的音乐文件用MP3存储相当于WAV的1 10 比较好的播放器 winamp 超级解霸 realplayer等一般都支持 RealPlayer公司推出的适合于网络播放的媒体格式高压缩比存储空间小适合网络播放音质不是很好专用播放器Realplayer 超级解霸2001以上的版本等 RA格式文件 AIF是音频交换文件格式 AudioInterchangeFileFormat 的英文缩写是苹果计算机公司开发的一种声音文件格式 AIFF格

13、式文件七声卡虽然PC声卡是在20世纪90年代才得以普及但它的问世却是在1984年英国的ADLIB公司是目前公认的声卡之父虽然他们最初开发的产品只能提供简单的声音效果并且无法处理音频信号但在当时无疑已经是一个很大的突破由于技术不够成熟成本又非常昂贵因此这类带有试验品性质的早期ADLIB音乐卡因在当时计算机的运算速度还不足以应付大规模的多媒体处理所以未能普及七声卡一功能录制编辑和回放数字声音文件控制各声源的音量并混合在一起对声波文件进行压缩和解压缩语音合成技术MIDI接口乐器数字接口二声卡的技能指标音频技术指标声卡的录音放音效果应该具有CD唱片的

14、音质所谓CD音质是指录音采样速度达到44 1kHz 用16位量化指标来记录声音 SoundBlaster16 即16位声霸卡系列的声卡都是CD音质的声卡二声卡的技能指标 MIDI声频 MIDI是计算机产生声音的另一种方法它是一种电子音乐计算机播放MIDI文件时有两种方法合成声音 FM合成和波表合成我们在考虑声卡的技能指标时要考虑采用的哪种合成方法二声卡的技能指标声道数声卡所支持的声道数也是重要指标单声道是比较原始的声音复制形式缺乏对声音的位置定位立体声声音在录制过程中被分配到两个独立的声道从而达到了很好的声音定位效果二声卡的技能指标随着波表合成技术的出现

15、由双声道立体声向多声道环绕声的发展显得格外迫切四声道环绕规定了4个发音点前左前右后左后右听众则被包围在这中间同时还建议增加一个低音音箱以加强对低频信号的回放处理这也是如今4 1声道音箱系统广泛流行的原因二声卡的技能指标 5 1声道已广泛运用于各类传统影院和家庭影院中该声音系统来源于4 1环绕不同之处在于它增加了一个中置单元这个中置单元负责传送低于80Hz的声音信号在欣赏影片时有利于加强人声把对话集中在整个声场的中部以增强整体效果二声卡的技能指标多音频流输出多音频流输出是指声卡可以在同一时间内支持多个wav mp3 midi类音频文件的播放目前大部分中

16、高档的PCI声卡是普遍支持多音频流输出的二声卡的技能指标 I O设备接口一般的声卡都设有线性输入线性输出音箱输出 MIDI和游戏杆接口等二声卡的技能指标系统参数的可调性为避免I O地址 DMA IRQ对系统的冲突声卡参数必须是能过设置的当前是利用软件进行设置才最为方便早期的声卡有可能需要调整跳线二声卡的技能指标声卡软件声卡软件很重要一块声卡的技术指标再高但缺乏应用软件的支持都很难发挥其特长声卡一般都带有应用程序这些应用程序包括录音软件 WAV CD及MIDI播放软件混音器 WAV文件编辑器等高档的声卡还提供特殊效果播放器文字阅读软件及语音识别软件等二声卡的技能指标总线结构由于计算机技术突飞猛进的发展 ISA总线已经不能满足音频信号的高吞吐量的需要于是产生了PCI声卡三声卡的插孔与连接四声卡的安装 1 硬件安装步骤1关闭计算机电源拔下供电电源和所有外接线插头步骤2打开机箱外壳选择一个空闲的16位扩展槽并将声卡插入扩展槽步骤3连接来自CD ROM驱动器的音频输出线到声卡的CDIN针形输入线上步骤4盖上机箱外壳并将

展开阅读全文

第三章 多媒体音频信息处理

第三章多媒体音频信息处理