多媒体通信技术课件第三章 音频信息处理技术

上传人:飞*** 文档编号:51901574 上传时间:2018-08-17 格式:PPT 页数:51 大小:457.50KB
返回 下载 相关 举报
多媒体通信技术课件第三章 音频信息处理技术_第1页
第1页 / 共51页
多媒体通信技术课件第三章 音频信息处理技术_第2页
第2页 / 共51页
多媒体通信技术课件第三章 音频信息处理技术_第3页
第3页 / 共51页
多媒体通信技术课件第三章 音频信息处理技术_第4页
第4页 / 共51页
多媒体通信技术课件第三章 音频信息处理技术_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《多媒体通信技术课件第三章 音频信息处理技术》由会员分享,可在线阅读,更多相关《多媒体通信技术课件第三章 音频信息处理技术(51页珍藏版)》请在金锄头文库上搜索。

1、 第三章 音频信息处理技术l3.1 声学基础知识l3.2 音频信号数字化l3.3 音频信号压缩编码l3.4 语音压缩编码标准l3.5 IP电话技术自然界的声音信号究其本质是一种机械振动 ,是一种在空气中随时间而变化的压力信号。音频信息涉及人耳所能听到的声音信息,包 括语声和乐声。2.1 声学基础知识l2.1.1 音频信号特征1、声音信号的时域特征该特征说明人们听到的声音从产生到结束的 过程。这个过程大致可分为三个阶段:起始、稳 定和结束。2、声音信号的频域特征声音信号是有很多的正弦分量组成的。声音信号在频域是具有离散的线性谱和连续 谱的特征有明确音高的有调声音无明确音高的无调声音l声波频率20

2、Hz20kHzl声压:对声音强弱的感觉1kHz听阈210-5Pal声压级:表示声音强弱的对数级(分贝)听阈0dB 痛阈 120dB3.1.2 人耳听觉特性l1、响度:人耳对声音强弱的感觉。l2、掩蔽效应: 一个声音的存在会影响人们对其 他声音的听觉能力, 使一个声音在听觉上掩蔽 了另一个声音。 3.2 音频信号数字化音频信号的数字化过程就是将模拟音频信 号转换成有限个数字表示的离散序列, 即数字 音频序列。音频信息处理框图 1、采样l在时间上将连续信号离散化的过程,采样一般都 是按照均匀的时间间隔进行。常见音频应用带宽示意图2、量化l量化是将每个采样值在幅度上进行离散化处理。3、编码l编码过程

3、是指用二进制数来表示每个采样的量化 值。音频信号经数字化以后以文件形式存放 于计算机中,当需要声音时计算机将其反格 式化并输出。3.3 音频信号压缩编码l3.3.1 音频信号编码分类1、波形编码:基于对语音信号波形的数字化处理, 试图使处理后重建的语音信号波形与原信号波形保持一 致。优点:实现简单、语音质量较好、适应性强。缺点:压缩程度不高,需要较高的编码速率。常用的波形编码技术:增量调制编码(DM)差值脉 冲编码调制(DPCM)自适应差分脉冲编码调制( ADPCM)子带编码(SBC)矢量量化编码(VQ)2、参数编码通过语音信号的数学模型,对语音信号特征 参数进行提取及编码,力图使重建的语音信

4、号尽 可能保持原信号的语意。语音编码速率较低,压缩的比特率较低。合成语音质量较差,很难辨别说话人是谁 。常用的有线性预测编码。多用在移动通信、多媒体通信和IP网络电 话中。3、混合编码同时使用两种或两种以上编码方法进行编 码的过程。采用混合编码的编码器有多脉冲激励线性 预测编码器(MPE-LPC)、规则脉冲激励线性 预测编码器(RPE-LPC)、码激励线性预测编 码器(celp)等。3.3.2 常用的压缩编码方法l1 一般增量调制(DM)增量调制的系统结构框图 基本思想:在编码端,由前一个输入信号 的编码值经解码器可得到下一个信号的预测值。 输入的模拟音频信号与预测值在比较器上相减, 从而得到

5、差值。若为正,则编码输出为1;若为 负,则编码输出为0。增量调制编码过程示意图 当输入模拟信号的变化速度超过了经解码 器输出的预测信号的最大变化速度时,会发生斜 率过载。当输入信号没有变化时,预测信号和输入 信号的差会十分接近,这时,编码器的输出是1 和0交替出现的,这种现象叫散粒噪声。2、自适应增量调制(ADM)输出编码1位所表示的模拟电压叫做量化阶距 。基本思想:当发现信号变化快时,增加阶距; 当发现信号变化缓慢时,减少阶距。一种是控制可变因子 M, 使量化阶距在一 定范围内变化。 对于每一个新的采样, 其量化 阶距为其前面数值的M倍。 而M的值则由输入信 号的变化率来决定。 如果出现连续

6、相同的编码 , 则说明有发生过载的危险, 这时就要加大M 。 当0, 1信号交替出现时, 说明信号变化很慢 , 会产生散粒噪声, 这时就要减少M 值。 其典 型的规则为自适应增量调制称为连续可变斜率增量( CVSD)调制。 工作原理如下: 如果调制器(CVSD)连续 输出三个相同的码, 则量化阶距加上一个大的 增量, 也就是说, 因为三个连续相同的码表示 有过载发生。 反之, 则量化阶距增加一个小的 增量。 3、差值脉冲编码调制基本思想:对输入的音频信号进行均匀量化 ,不管输入的信号是大是小,据采用同样的量化 间隔。例如:如输入的音频信号是语音信号,使用 8kHz采样频率进行均匀采样,而后将每

7、个样本 编码为8位二进制数字信号,则得到数据率为 64kb/s的PCM信号。基本思想:对相邻的差值进行量化编码。 这个差值是指信号值和预测值的差值。差分脉冲调制系统的方框图(a) 编码器; (b) 解码器 4、子带编码用一组带通滤波器, 将输入的音频信号分成若干个 连续的频段, 并将这些频段称为子带。 分别对这些 子带中的音频分量进行采样和编码。 将各子带的编码信 号组织到一起进行存储或送到信道上传送。在信道的接收端(或在回放时)得到各子带编码的 混合信号, 将各子带的编码取出来, 对它们分别进行 解码, 产生各子带的音频分量, 再将各子带的音频分 量组合在一起, 恢复原始的音频信号。子带编码

8、的原理框图5、矢量量化编码矢量量化(VQ):是指将输入的信号样值 按照某种方式进行分组,把每个分组看做是一个 矢量,并对该矢量进行量化。矢量量化编码及解码原理框图l 假定将语音数据分组, 每组有 k个数据。 这样, 一组 就是一个k 维的矢量。 把每一个组形成的矢量看成一个 元素, 又叫码字, 那么, 语音所分成的组就形成了各 自的码字。 这些码字排列起来, 就构成了一个表, 人 们将此表叫做码本或码书。 形象一点说, 码书就类似 于汉字的电报号码本, 电报号码本里面是复杂的汉字, 而在这里是一组原始的语音数据; 电报号码本里每个汉 字旁边标有只用4位阿拉伯数字表示的号码, 而在矢量 量化方法

9、里就是每组数据所对应的下标。 工作原理为: 先将待编码的序列划分成一 个个等长的段, 每段含有若干个样点, 这一段 段样点就构成一个个矢量列, 每一个矢量与已 预先训练(是指某种算法计算)好的一个矢量码 本(Codebook)中的每一个码字(Codeword , 它与输入矢量一样, 也是同维数的矢量)按 某种失真准则进行比较, 求出误差。 3.4 音频信号压缩标准l3.4.1 波形编码标准1、 G.711标准采用非均匀量化的方法。在非均匀量化中,采样输入信号幅度 和量化输出数据之间定义了两种对应关系:律压扩算法和A律压扩 算法。G.711针对电话质量的窄带话音信号,频率范围是 0.33.4kH

10、Z,采样频率采用8kHZ,每个采样值用8位二进制编码, 其速率为64kbit/s。优点:这种编码方法的语音质量最好,算法延迟几乎可以忽略 不计。缺点:压缩率有限。2、 G.721标准基于ADPCM(自适应脉冲编码调制),采 样频率为8kHZ,每个样值与预测值的差值用4位 编码,其编码速率为32kb/s。ADPCM一种对中等质量音频信号进行高效 编码的有效算法之一,不仅适用于语音压缩,而 且也适用于调幅广播质量的音频压缩和CD-I音 频压缩等应用。3、 G.722标准音频信号质量高于G.711和G.721。采用的编码方法是子带自适应差分脉冲编码 调制编码方法,将语音频带划分为高低两个子带 ,高低

11、子带间以4kHz频率为界限。每个子带内 采用自适应差值脉冲编码调制方式。在多媒体和 会议电视方面得到应用。3.4.2 混合编码标准1、G.728标准主要应用于公共电话网中的。采用的压缩算 法是低延时码激励线性预测(LD-CELP)方式 。该算法考虑了人耳的听觉特性,具有以块为单 位的后向自适应高阶预测、后向自适应型增益量 化、以矢量为单位的激励信号量化等特点。2、G.729标准该标准的码率只有8kbit/s,压缩算法相对其它 算法来说比较复杂,采用的算法是共轭结构代数 码激励线性预测(CS-ACELP)技术。3、G.723.1标准该标准压缩编码是一种用于各种网络环境 下的多媒体通信标准。分别为

12、5.3kbit/s和 6.3kbit/s,可应用于IP电话、会议电视系统等通信 系统中。5.3采用多脉冲最大似然量化技术,6.3 采用代数码激励线性预测技术。3.4.3 MPEG音频编码标准MPEG音频编码是国际上公认的高保真立体 声音压缩标准。MPEG-1声音编码标准规定。其音频信号采 样频率可以有32kHz,44.1kHz或48kHz三种, 带宽可以选择15kHz,20kHz。MPEG音频编码等级比较表 1.MPEG-1声音标准该标准采用的编码算法是感知子带编码。 共分为32个子带。layer-1:简单,应用于小型数字盒式磁带中layer-2:复杂程度中等,主要用于数字广播 音频、数字音乐

13、、只读光盘交互系统和视盘。layer-3:最复杂,用于ISDN上的声音传输 。(1) MPEG音频Layer1 l MPEG音频Layer1是MUSICAM的一个 简化版本。 帧头占用 32 bit, 由同步和状态 信息组成, 12 bit的同步码字全为1; 帧校验占 用16 bit, 用于检测比特流中的差错; 音频数据 由比特分配信息、 比例因子信息和子带样值组 成, 不同的层其音频数据不同; 辅助数据用于 传输辅助信息。 帧头 帧校验 音频数据 辅助数据 (2) MPEG音频Layer2Layer1音频编码中, 只能传送左右两个声 道。 为此, MPEG 音频Layer2扩展了低码率多 声

14、道编码, 将多声道扩展信息加到Layer1音频 数据帧结构的辅助数据段(其长度没有限制)中 。 这样可将声道数扩展至5.1, 即3个前声道(左 L、 中C和右R)、 2个环绕声(左LS、 右RS)和1 个超低音声道LFE(常称之为0.1), 由此形成了 MPEG Layer2音频编码标准。MPEG Layer2 数据帧结构(3) MPEG音频Layer3(MP3)采用 MDCT(改进型DCT)变换增强频率的分辨率 ,使频率分辨率提高了18倍, 从而使得Layer3的播放器能 更好地适应量化噪声; 只有Layer3使用了熵编码(像 MPEG视频)进一步地减少了冗余; Layer3还可以使用更 高

15、级的联合立体声编码机制。2 MPEG-2 AAC编码标准采用感知编码方法,利用听觉系统的掩蔽 特性来减少声音编码的数据量,并通过子带编码 将量化噪声分散到各个子带中,用全局的声音信 号将噪声掩蔽调。3.5 多媒体音频信号文件格式音频文件通常分为两类:声音文件和MIDI 文件。声音文件:通过声音录入设备录制的原始 声音,直接记录了真实声音的二进制采样数据, 通常文件较大。MIDI文件:一种音乐演奏指令序列,相当 于乐谱,可以利用声音输出设备或与计算机相连 的电子乐器进行演奏,文件较小。(1)Wave文件,扩展名为wav。wav是由微软公司开发的一种声音文件格式 ,来源与对声音模拟信号波形的采样。用不同的采样频率对声音的模拟波形进行采 样,得到一系列离散的采样点,以不同的量化位 数把这些采样点的值转换成二进制,然后存入磁 盘,这就产生了声音的wav文件,即波形文件。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号