多媒体技术和通信第3章

上传人:tia****nde 文档编号:70771800 上传时间:2019-01-18 格式:PPT 页数:130 大小:1.66MB
返回 下载 相关 举报
多媒体技术和通信第3章_第1页
第1页 / 共130页
多媒体技术和通信第3章_第2页
第2页 / 共130页
多媒体技术和通信第3章_第3页
第3页 / 共130页
多媒体技术和通信第3章_第4页
第4页 / 共130页
多媒体技术和通信第3章_第5页
第5页 / 共130页
点击查看更多>>
资源描述

《多媒体技术和通信第3章》由会员分享,可在线阅读,更多相关《多媒体技术和通信第3章(130页珍藏版)》请在金锄头文库上搜索。

1、第三章 音频信息处理技术,3.1 声学基础知识 3.2 数字音频技术 3.3 音频信号压缩编码 3.4 音频信息压缩编码标准 3.5 IP电话技术,3.1 声学基础知识 声音是通过空气传播的一种连续的波。 是由许多频率不同的分量信号组成的复合信号。 复合信号的频率范围称为带宽。 带宽为20Hz20kHz的信号称为音频(audio)信号。,声压及声压级SPL(Sound Pressure Level)也是常用的声音描述参量。 声压就是声音的压力。以帕斯卡(Pa)为单位来度量响度; 对声压有效值取对数,用此对数值来表示声音的强弱。这种表示声音强弱的对数值就叫做声压级SPL。,一、声音和人耳听觉特性

2、 1、声音的性质 (1)声音是时基类媒体。 (2)声音有三个要素,音调、音强和音色。 (3)声音具有连续谱特性。 (4)声音有方向感。 (5)音色与失真特性。,2、人耳听觉特性 (1)人耳对声音强弱的感觉特性 (2)响度、响度级 (3)人耳听觉的掩蔽效应 一个声音的存在会影响人们对其他声音的听觉能力, 使一个声音在听觉上掩蔽了另一个声音, 即所谓的“掩蔽效应”。,(4)声音质量评价,声音的质量与声音的带宽有关,一般来说频率范围越宽,声音质量也就越高。,可以使用信噪比(SNR)、主观平均判分法(MOS)。 在采用等级法MOS(Mean Opinion Score)进行评价时,通常设优,良,中,差

3、,劣五个等级。 平均观点分(Mean Opinion Score, MOS)是一种主观评价指标。听众根据系统质量的好坏使用N分制给系统打分。,常见的5分制系统 :,采样点越多,声音记录的保真度就越高,但电脑存储的信息量也相应增加。,(5)声道 单声道(Monophonic)意味着单个声源。 声音的三个属性: (1) 幅值(Amplitude) (2) 相位(Phase) (3) 时序(Timing),3.2 数字音频技术 一、数字音频 在计算机中声音信号是用一系列的数字表示的,称为数字音频。 分为: 波形声音:包含所有的声音形式。 语音:也表现为波形声音。 音乐:是符号化的声音。,二、数字音频

4、技术 声音进入计算机的第一步就是数字化。 数字化实际上就是采样和量化。 影响数字声音波形质量的主要因素有三个: (1)采样频率 (2)采样精度 (3)通道数,1、声音信号数字化 采样(sampling):将声音信号在时间上离散化,即每隔相等的一段时间抽取一个信号样本。,量化(quantization):将连续的信号幅度离散化。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。,电压范围 量化(dec) 编码(bin) 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -

5、2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 100,采样频率 奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,称为无损数字化。 fs=2fmax 标准的采样频率有11.025kHz,22.05kHz, 44.1kHz。,采样精度 每个声音样本的数字化位数反映了声音波形幅度的采样精度。 一般有8位和16位两种双声道(立体声)。 声音的数据量=(采样频率*每个采样位数*声道数)/8(B/s),2、音频的数字化与再现 音频处理应考虑以下三点: (1)人与计算机通信。包括音频获取、语音的识别和理解。 (2)计算机与人通信

6、。包括音乐合成、语音合成、声音的定位以及音频视频的同步。 (3)人-计算机-人通信。有语音采集、音频的编码和解码、音频的存储、音频的传输等。,3、数字音乐国际标准MIDI和MP3 (1)电子乐器数字接口:MIDI(musical instrument digital interface, MIDI) MIDI实质上是由MIDI控制器(或MIDI文件)产生的指示电子音乐合成器要做什么、怎么做(如演奏某个音符、加大音量、生成音响效果)的一套标准指令。,1988年MIDI制造商协会正式颁布MIDI技术规范,作为数字式音乐的国际标准。 规定每种MIDI装置由一个接收器和一个发送器组成。规定MIDI键盘

7、为128键。在MIDI接收器中有16个通道,它可以向声音合成器传送16路不同的声音等。,(2)MP3数码音乐 MP3的全称是MPEG-1 Layer3音频文件。 MPEG音频编码是国际上公认的高保真立体声音频压缩标准。 MPEG-1声音标准其音频编码分为3层:Laer-1、Layer-2和Layer-3。 Layer 3的压缩比为1:101:12,压缩码率可以达到64kb/s。,3.3 音频信号压缩编码 音频信息编码技术可分为三类: 波形编译码器(waveform coder): 波形编码是基于对语音信号波形的数字化处 理,试图使处理后重建的语音信号波形与原语 音信号波形保持一致。 例如PCM

8、、DPCM、ADPCM等。,音源编译码器(Source coder):也叫参数编译码器、声码器(vocoder)。 它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。 这种编码的特点是语音编码速率较低,基本上在2kbits9.6kbits之间。,混合编译码器(Hybrid coder):综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。 采用混合编码的编码器有: 多脉冲激励线性预测编码器(MPE-LPC),规则脉冲激励线性预测编码器(RPE-LPC)等。,一、脉冲编码调制(PCM)Pulse Code Modulation 若输入的音频信号

9、是话音信号,使用8 kHz采样频率进行均匀采样,而后再将每个样本编码为8位二进制数字信号,则我们就可以得到数据率为64 kb/s的PCM信号,这就是典型的脉冲编码调制。,PCM的量化方式 均匀量化与非均匀量化,非均匀量化 对小信号采用小的量化间隔,对大信号采用大的量化间隔。 对大信号,由于: (1)大信号出现的机会不多 (2)信噪比(相对误差)与小信号是一致的 所以对总的话音质量影响不大。 非均匀量化也是一种压缩。,律压扩与A律压扩 律( -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。 x 为输入信号,规格化为1= x =1 为确定压缩量的参数,它反映最大量化间隔和最小

10、量化间隔之比,取100 = = 500。,A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中。,0 = |x| = 1/A,1/A = |x| = 1,PCM与时分多路复用(TDM),二、差分脉冲编码调制(DPCM) 基本出发点:对相邻样值的差值进行量化编码。 在具体的实现过程中,是对样值与对应的预测值的差值进行量化编码的。,对一个话音信号的样值序列,当前样值的预测值可以由其前面的若干个样值来进行预测,若样值序列表示为:,为当前值,则对当前样值完整的预测表达式由下式表示:,当前值与预测值的差为: 式中,ai 为预测系数。如果ai是常数,则为时不变线性预测; 否则若

11、预测系数随输入信号而变化时就是自适应预测。,最简单的DPCM,三、增量调制(M) 增量调制 (delta modulation,DM) 是一种预测编码技术,是对实际的采样信号与预测的采样信号(在编码端由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值)之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。,如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示。DM编码系统又称为“1位系统”。 下图纵坐标表示输入的模拟电压, 横坐标表示随时间增加而顺序产生的DM码。 图中虚线表示输入的音频模拟信号。,出现的问题: 1、斜率过载 当输入信号

12、变化比较快时,编码器的输出无法跟上信号的变化,从而会使重建的模拟信号发生畸变,这就是所谓的“斜率过载”。,2、散粒噪声 当输入信号没有变化时,预测信号和输入信号的差会十分接近,这时,编码器的输出是0和1交替出现的,这种现象就叫做增量调制的“散粒噪声”。,四、自适应增量调制(ADM) 在ADM中, 常用的规则有两种: 一类是控制可变因子M,使量化阶距 在一定范围内变化。对于每一个新的 采样,其量化阶距为其前面数值的M 倍。而M的值则由输入信号的变化率 来决定。,一类使用较多的自适应增量调制称为连续可变斜率增量(CVSD)调制。 其工作原理如下: 如果调制器(CVSD)连续输出三个相同的码, 则量

13、化阶距加上一个大的增量, 也就是说, 因为三个连续相同的码表示有过载发生。,五、自适应脉冲编码调制(APCM),六、自适应差分脉冲编码调制(ADPCM) 综合了APCM的自适应特性和DPCM系统的差分特性。,ADPCM是利用样本之间的高度相关性和量化台阶自适应来压缩数据的一种波形编码技术。 CCITT为此制定了G.721推荐标准(32 kb/s ADPCM)。 在此基础上制定了G.721的扩充推荐标准G.723,使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。,七、子带编码,图中发送端的n个带通滤波器将输入信号分为n个子频带,对各个对应的子带带通信号进行调制,将n个带通信号经

14、过频谱搬移变为低通信号; 对低通信号进行采样、量化和编码,得到对应各个子带的数字流;再经复接器合成为完整的数字流。经过信道传输到达接收端。,在接收端,由分配器将各个子带的数字流分开,由译码器完成各个子带数字流的译码;由解调器完成信号的频移,将个子带搬移到原始频率的位置上。 各子带相加就可以恢复出原来的语声信号。,将语声信号分为若干个子带后再进行编码的优点: 对不同的子带分配不同的比特数可以很好的控制各个子带的量化电平数,很好的控制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。,由于各个子带相互隔开,使各个子带的量化噪声也相互独立,互不影响,量化噪声被束缚在各自的子带内。这样,某些输

15、入电平比较低的子带信号不会被其它子带的量化噪声所淹没。 子带划分的结果,使各个子带的采样频率大大的降低。,八、变换域编码 将输入信号直接转换到频域,然后在频域划分各频段,根据不同的频段能量大小分配码字然后编码,接收方解码后再用相应的反变换转换成时域信号。,九、矢量量化VQ(Vector Quantization) 矢量量化VQ,是将输入的信号样值按照某种方式进行分组,把每个分组看作是一个矢量,并对该矢量进行量化。,十、线性预测编码(LPC),在线性预测编码LPC中,将语声信号简单的划分为浊音信号和清音信号。根据语声信号的短时分析和基音提取方法,可以用若干的样值对应的一帧来表示短时语声信号。 这

16、样,逐帧将语声信号用基音周期Tp,清/浊音(u/v)判决,声道模型参数ai和增益G来表示。 对这些参进数行量化编码,在接收端再进行语声的合成。,3.4 语音压缩编码标准,3.4.1 常见音频编码标准 1、采用波形编码的编码标准有G.711标准、G.721标准和G.722 G.711标准是1972年制定的电话质量的PCM语音压缩标准,采样频率为8 kHz, 每个样值采用8位二进制编码,因此其速率为64 kb/s。,G.721标准是ITU-T于1984年制定的,主要目的是用于64 kb/s的A律和律PCM与32 kb/s的ADPCM之间的转换。 它基于ADPCM技术,采样频率为8 kHz, 每个样值与预测值的差值用4位编码,其编码速率为32 kb/s,ADPCM是一种对中等质量音频信号进行高效编码的有效算法之一。,G.722标准旨在提供比G.7

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号