第三章 多媒体音频信息处理

上传人:012****78 文档编号:132711743 上传时间:2020-05-19 格式:PPT 页数:74 大小:415KB
返回 下载 相关 举报
第三章 多媒体音频信息处理_第1页
第1页 / 共74页
第三章 多媒体音频信息处理_第2页
第2页 / 共74页
第三章 多媒体音频信息处理_第3页
第3页 / 共74页
第三章 多媒体音频信息处理_第4页
第4页 / 共74页
第三章 多媒体音频信息处理_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《第三章 多媒体音频信息处理》由会员分享,可在线阅读,更多相关《第三章 多媒体音频信息处理(74页珍藏版)》请在金锄头文库上搜索。

1、第三章 多媒体音频信息处理 声音是携带信息的极其重要的媒体 是多媒体技术研究中的一个重要内容 声音的种类繁多 如人的话音 乐器声 动物发出的声音 机器产生的声音以及自然界的声音等 这些声音有许多共同的特性 也有它们各自的特性 在用计算机处理这些声音时 既要考虑它们的共性 又要利用它们的各自的特性 一 音频信号的分类 音频信号可分为两类 语音信号 语音是语言的物质载体 它包含了丰富的语言内涵 是人类进行信息交流所特有的形式 非语音信号 主要包括音乐和自然界存在的其他声音形式 非语音信号的特点是不含复杂的语义和语法信息 其信息量低 识别简单 二 音频信号的形式 声音可用一条连续的曲线来表示 这条连

2、续的曲线无论多么复杂 都可分解成一系列正炫波的线性叠加 称为声波 因声波是在时间上和幅度上都连续变化的量 因此称之为模拟量 模拟信号有两个重要参数 频率和幅度 一个声源每秒钟可产生成百上千个波峰 把每秒钟波峰所发生的数目称之为信号的频率 信号周期是指两个峰点或谷底之间的相对时间 信号的基线提供了一个测量声音的起点 信号的幅度是从信号的基线到当前波峰的距离 幅度决定了信号音量的强弱程度 信号带宽是声音信号的一个重要参数 它用来描述组成复合信号的频率范围 振幅 周期 基线 1GHz 10GHz 超高声波 20kHz 1GHz 超声波 20Hz 20kHz 人类听力所能接受 0 20Hz 亚声波 频

3、率范围 声音分类 三 声音质量的评价 客观质量度量 用信噪比来衡量 主观质量度量 现在公认的声音质量分为4级 数字激光唱盘质量调频无线电广播调幅无线电广播电话质量 CD DA FM广播 AM广播 电话 1020502003 4K7K15K22K 四 模拟音频的数字化过程 话音信号是典型的连续信号 不仅在时间上是连续的 而且在幅度上也是连续的 在时间上 连续 是指在一个指定的时间范围里声音信号的幅值有无穷多个 在幅度上 连续 是指幅度的数值有无穷多个 我们把在时间和幅度上都是连续的信号称为模拟信号 如果要用计算机对音频信息进行处理 则首先将模拟音频信号 如语音 音乐等 转换成数字信号 对模拟音频

4、数字化的过程涉及到音频的采样 量化和编码 模拟音频信号 采样 量化 编码 数字音频信号 计算机对声音的表示主要是通过规则的时间间隔测出音波振动的幅度从而产生的一系列声音数据 这种测出数据的方法就称为采样 一秒内采样的次数称为采样率 samplingrate 单位为Hz 例如 采样频率通常采用种 11 025KHz 语音效果 22 05KHz 音乐效果 44 1KHz 高保真效果 常见的CD唱盘的采样频率即为44 1KHz 采样 奈奎斯特理论 采样频率与声音频率之间有一定的关系 只有采样频率高于声音信号最高频率的两倍时 才能把数字信号表示的声音还原成为原来的声音 例如 CD唱片 要想获得CD音质

5、的效果 则要保证采样频率为44 1KHz 采样的离散音频数据要转换成计算机能够表示的数据范围的过程 我们把对声波波形幅度的数字化表示称之为 量化 量化的过程首先将采样后的信号按整个声波的幅度划分成有限个区段的集合 把落入某个区段内的样值归为一类 并赋予相同的量化值 量化 c 采样信号的量化 a 模拟音频信号 b 音频信号的采样 数字化音频的过程如下图所示 量化位数量化位数也称 量化精度 是描述每个采样点样值的二进制位数 例如 8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示 而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示 这个参数就是通常所说

6、的声卡的位数 常用的量化位数为8位 16位 32位 专业级的高档声卡有64位的 编码 为什么要对音频编码 A 获取更好的数学描述方法 B 让声音不失真 C 不编码就不是比特流 D 为了使比特流更加简练 E 为了便于计算机存储 F 为了便于在网络上传输音频 以上哪个是最根本的出发点 所谓编码 就是按照一定的格式把离散的数字记录下来 并在有用的数据中加入一些用于纠错 同步和控制的数据 在数据回放时 可以根据所记录的纠错数据判别读出的声音数据是否有错 如在一定范围内有错 可加以纠正 五 音频信号的压缩编码与标准 数字波形文件数据量大 数字音频的编码必须采用高效的数据压缩编码技术 对数字化后的声音信号

7、进行压缩编码 使其成为具有一定字长的二进制数字序列 并以这种形式在计算机内传输和存储 在播放时经解码器恢复成原来的声音信号 输入信号 编码器 传输 存储 解码器 输出信号 音频信号能够被压缩编码的依据有两个 一是声音信号存在着数据冗余 二是利用人的听觉特性来降低编码率 人的听觉具有一个强音能抑制一个同时存在的弱音现象 这样就可以抑制与信号同时存在的量化噪声 另外人耳对低频端比较敏感 而对高频端不太敏感 由此引出了 子带编码技术 音频信号的编码方式可分为波形编码参数编码和混合编码三种 波形编码的算法简单 易于实现 可获得高质量的语音 常见的三种波形编码方法为 脉冲编码调制 PCM 实际为直接对声

8、音信号作A D转换 只要采样频率足够高 量化位数足够多 就能使解码后恢复的声音信号有很高的质量 差分脉冲编码调制 DPCM 即只传输声音预测值和样本值的差值以此降低音频数据的编码率 自适应差分编码调制 ADPCM 是DPCM方法的进一步改进 通过调整量化步长 对不同频段设置不同的量化字长 使数据得到进一步的压缩 2 参数编码参数编码方法通过建立起声音信号的产生模型 将声音信号用模型参数来表示 再对参数进行编码 在声音播放时根据参数重建声音信号 参数编码法算法复杂 计算量大 压缩率高 但还原声音的质量不高 3 混合编码混合编码是把波形编码的高质量和参数编码的低数据率结合在一起 取得了较好效果 脉

9、冲编码调制 PCM PCM编码是对连续语音信号进行空间采样 幅度值量化及用适当码字将其编码的总称 PCM方法可以按量化方式的不同 分为均匀量化PCM 非均匀量化PCM和自适应量化PCM等三种 均匀量化 非均匀量化 差分脉冲编码调制 DPCM 他编码的不是声音采样样本值 而是样本值及其预测值的差分 根据过去的样本去估算 estimate 下一个样本信号的幅度大小 这个值称为预测值 然后对实际信号值与预测值之差进行量化编码 从而就减少了表示每个样本信号的位数 自适应差分脉冲编码 ADPCM 自适应就是使量化间隔大小的变化自动的去适应输入信号大小的变化 他根据信号分布不均匀的特点 是系统具有随输入信

10、号的变化而改变量化区间的大小 以保证输入量化器的信号基本均匀的能力 标准比特速度编码技术应用制定日期 G 7235 3kb s或6 3kb sMP MLQ视频电话及IP电话等1996 3 G 72264kb sSBC ADPCM视听多媒体和会议电话1988 11 G 71164kb sPCM公共电话网1972 G 72816kb sLD CELP公共电话网1992 9 G 7298kb sCS ACELP无线移动网 1996 3计算机通信系统等 ITU TG系列音频压缩编码标准 音频编码标准和算法 六 数字音频的文件格式 WAV文件 WAV文件又称为波形文件 是Micorsoft公司的文件格式

11、 WAV文件来源于对声音模拟波形的采样 并以不同的量化位数把这些采样点的值转换成二进制数 WAVE声音文件是使用RIFF 资源交换文件 的格式描述的 对于PCM采样得到的波形文件 其声音文件的大小与采样频率 量化位数和声道数有关 文件大小 采样频率 量化位数 8 声道数 录音时间 如 对于立体声 如果采样频率为44 1Kz 分辨率为16bit 声道数为2 语音时间为10秒 求录音文件的大小 VOC文件 VOC文件是Creative公司所使用的标准音频文件格式 与WAVE格式类似 VOC文件有文件头块和音频数据块组成 文件头包含一个标识 版本号和一个指向数据块起始地址的指针 数据块分成各种类型的

12、子块 如声音数据 静音 标记 重复 重复的结束及终止标记等 mp3文件 是用一种属于按MPEG标准的声音压缩技术制作的数字音频文件 存储空间小 同样长度的音乐文件 用MP3存储相当于WAV的1 10 比较好的播放器 winamp 超级解霸 realplayer等 一般都支持 RealPlayer公司推出的适合于网络播放的媒体格式 高压缩比 存储空间小 适合网络播放 音质不是很好 专用播放器Realplayer 超级解霸2001以上的版本等 RA格式文件 AIF是音频交换文件格式 AudioInterchangeFileFormat 的英文缩写 是苹果计算机公司开发的一种声音文件格式 AIFF格

13、式文件 七 声卡 虽然PC声卡是在20世纪90年代才得以普及 但它的问世却是在1984年 英国的ADLIB公司是目前公认的 声卡之父 虽然他们最初开发的产品只能提供简单的声音效果 并且无法处理音频信号 但在当时无疑已经是一个很大的突破 由于技术不够成熟 成本又非常昂贵 因此这类带有试验品性质的早期ADLIB音乐卡 因在当时计算机的运算速度还不足以应付大规模的多媒体处理 所以未能普及 七 声卡 一 功能 录制 编辑和回放数字声音文件控制各声源的音量并混合在一起对声波文件进行压缩和解压缩语音合成技术MIDI接口 乐器数字接口 二 声卡的技能指标 音频技术指标 声卡的录音 放音效果应该具有CD唱片的

14、音质 所谓CD音质是指录音采样速度达到44 1kHz 用16位量化指标来记录声音 SoundBlaster16 即16位声霸卡 系列的声卡都是CD音质的声卡 二 声卡的技能指标 MIDI声频 MIDI是计算机产生声音的另一种方法 它是一种电子音乐 计算机播放MIDI文件时 有两种方法合成声音 FM合成和波表合成 我们在考虑声卡的技能指标时要考虑采用的哪种合成方法 二 声卡的技能指标 声道数 声卡所支持的声道数也是重要指标 单声道是比较原始的声音复制形式 缺乏对声音的位置定位 立体声声音在录制过程中被分配到两个独立的声道 从而达到了很好的声音定位效果 二 声卡的技能指标 随着波表合成技术的出现

15、由双声道立体声向多声道环绕声的发展显得格外迫切 四声道环绕规定了4个发音点 前左 前右 后左 后右 听众则被包围在这中间 同时还建议增加一个低音音箱 以加强对低频信号的回放处理 这也是如今4 1声道音箱系统广泛流行的原因 二 声卡的技能指标 5 1声道已广泛运用于各类传统影院和家庭影院中 该声音系统来源于4 1环绕 不同之处在于它增加了一个中置单元 这个中置单元负责传送低于80Hz的声音信号 在欣赏影片时有利于加强人声 把对话集中在整个声场的中部 以增强整体效果 二 声卡的技能指标 多音频流输出 多音频流输出是指声卡可以在同一时间内支持多个wav mp3 midi类音频文件的播放 目前大部分中

16、高档的PCI声卡是普遍支持多音频流输出的 二 声卡的技能指标 I O设备接口 一般的声卡都设有线性输入 线性输出 音箱输出 MIDI和游戏杆接口等 二 声卡的技能指标 系统参数的可调性 为避免I O地址 DMA IRQ对系统的冲突 声卡参数必须是能过设置的 当前是利用软件进行设置才最为方便 早期的声卡有可能需要调整跳线 二 声卡的技能指标 声卡软件 声卡软件很重要 一块声卡的技术指标再高 但缺乏应用软件的支持 都很难发挥其特长 声卡一般都带有应用程序 这些应用程序包括录音软件 WAV CD及MIDI播放软件 混音器 WAV文件编辑器等 高档的声卡还提供特殊效果播放器 文字阅读软件及语音识别软件等 二 声卡的技能指标 总线结构 由于计算机技术突飞猛进的发展 ISA总线已经不能满足音频信号的高吞吐量的需要 于是产生了PCI声卡 三 声卡的插孔与连接 四 声卡的安装 1 硬件安装步骤1关闭计算机电源 拔下供电电源和所有外接线插头 步骤2打开机箱外壳 选择一个空闲的16位扩展槽并将声卡插入扩展槽 步骤3连接来自CD ROM驱动器的音频输出线到声卡的CDIN针形输入线上 步骤4盖上机箱外壳 并将

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号