多媒体图像处理_声音剖析

上传人:我** 文档编号:116787724 上传时间:2019-11-17 格式:PPT 页数:67 大小:3.52MB
返回 下载 相关 举报
多媒体图像处理_声音剖析_第1页
第1页 / 共67页
多媒体图像处理_声音剖析_第2页
第2页 / 共67页
多媒体图像处理_声音剖析_第3页
第3页 / 共67页
多媒体图像处理_声音剖析_第4页
第4页 / 共67页
多媒体图像处理_声音剖析_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《多媒体图像处理_声音剖析》由会员分享,可在线阅读,更多相关《多媒体图像处理_声音剖析(67页珍藏版)》请在金锄头文库上搜索。

1、音频处理技术 Audio Processing 二 音频处理技术 n n 提纲提纲 音频信号及其概念音频信号及其概念 模拟音频的数字化过程模拟音频的数字化过程 音频信号的压缩编码与标准音频信号的压缩编码与标准 语音识别与合成技术语音识别与合成技术 2.1音频信号及其概念 n声音处理技术的历史 2.1 声音与听觉 n声音是通过空气传播的一种连续的波,这种连续 性表现在两个方面,一个是时间上的连续性,另 一方面是指它在幅度上是连续的。 n音频信号的形式:语音与非语音 2.1音频信号及其概念 音频场景分析 n模拟音频信号的物理特性 2.1音频信号及其概念 n声音由物体的振动产生,并通过介质传播的连续

2、波 声波传递的是分子的运动 声音传播需要介质 空气中的声速约为 340 米/秒 n声音的频率:1秒钟内振动的次数 人耳能听到的声音: 20Hz20kHz 超声波 20kHz 次声波 = 2fmax * 电话话音信号最高频率约为3.4kHz,所以采样频率取为 8kHz。 采样频率 根据奈奎斯特理论(Nyquist theory),采样频 率不应低于声音信号最高频率的两倍,这样就 能把以数字表达的声音还原成原来的声音,即 : fs 2f 或者 T T/2 可以这样来理解奈奎斯特理论:声音信号可以 看成由许许多多正弦波组成的,一个振幅为 、频率为f的正弦波至少需要两个采样样本表示 。 量化精度 量化

3、精度用每个声音样本的位数(bit/s)表示 的,它反映度量声音波形幅度的精度。 例如,每个声音样本用16位表示,声音样本值 是在065535的范围里,它的精度就是输入信 号的1/65536。 量化位数越多,声音的质量越高,需要的存储 空间也越多;位数越少,声音的质量越低,需 要的存储空间越少。 2.2音频的数字化 n量化(quantization):将连续的信号幅度离散化。 如果幅度的划分是等间隔的,称为线性量化,否则为 非线性量化。 电压范围 量化(dec) 编码(bin) 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0

4、.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 100 质量采样频率 (kHz) 样本精度单道声/ 立体声 数据率 (kb/s) 频率范围 (kHz) 电话88单道声64200 3400 AM11.0258单道声8850 7000 FM22.05016立体声705.620 15000 CD44.116立体声1411.220 20000 DAT4816立体声153620 20000 数据率=采样频率量化精度声道数 n如果不压缩,音频采样的数据量可由下式推算 : 数据量=(采样频率每个采样位数声道数) (kb/s) 例如,

5、一秒钟CD高保真立体声的数据量为 : (44.1kHz16位2声道) = 1411.2 kb/s = 1411200/8 字节 = 176400字节 = 172.26 KB 量化精度的信噪比(signal-to-noise ratio, SNR )表示方法 : 如果用Vsignal 表示信号电压,Vnoise表示噪声电 压,则SNR(单位:分贝,dB)用下式计算: 例2.1 假设Vnoise=1,量化精度为1位表示Vsignal=21 ,它的信噪比 SNR=6dB 例2.2 假设Vnoise=1,量化精度为16位表示Vsignal=216 ,它的信噪比SNR=96dB 2.2音频的数字化 n编

6、码(Coding):是指按一定的格式一定的格式把经过采样和量化 得到的离散数据(脉冲数字信号)记录下来,并在有效 的数据中加入一些用于纠错、同步和控制的数据。 n脉冲编码调制(PCM,Pulse Code Modulation) 把模拟信 号转换为数字信号的一种调制方式 。 n量化误差:模拟信号经过采样和量化,然后用有限个二 进制代码代表量化后的幅度,在编码时引入量化误差, 在解码时无法消除,即引入了噪声,降低了信噪比(SNR) 。电话采用A率标准,SNR35dB。 2.2音频压缩编码与标准 n目的:减少存储空间,尽量保证音质。 n依据: (a)冗余。通过识别和去除冗余,达到压缩目的。 (b)

7、人耳特性。如掩蔽效应,它是指一个强音能抑制一 个同时存在的弱音。 (c)相关性。对声音波形采样后,相邻样值间存在相关性。 n编码方式: (a) 波形编码:PCM、APCM、ADPCM (b) 参数编码:语音参数基音周期、共振峰、语音谱,声 强等。LPC (c) 混合编码:CELP, MELP 2.2 语音编码 2.2.1 话音编码概要 2.2.2 波形编译码器 2.2.3 音源编译码器 2.2.4 混合编译码器 2.2.1 语音编码概要 n音频压缩编码技术分类: n有损编码中的三种语音编译码器 波形编译码器(waveform codec):根据人 耳听觉特性进行采样量化,达到压缩数据的 目的。

8、如A律、律非均匀量化,将量化误 差留给出现概率小的采样值。适用于高质量 音频、音乐信号。声音质量高,但数据率也 很高。 音源(参数)编译码器(source codec): 将音频信号看成某种模型,利用特征提取方 法抽取必要的模型参数和激励信号的信息, 对这些信息进行编码。压缩率很大,但计算 量大,保真度不高,适合于语音编码。 混合编译码器(hybrid codec):数据率和 音质介于上述两者之间。 普通编译码器音质与数据率 数据压缩的主要依据是人耳朵的听觉特性,使 用“心理声学模型”来达到压缩声音数据的目的: q听觉系统中存在一个听觉阈值电平 q听觉掩饰特性 2.2.2 波形编译码器 n波形

9、编译码的基本想法:不利用生成话音信号的 任何知识来重构,而是与原始话音波形尽可能一 致。 n该编译码器的复杂程度较低,数据速率在 16kb/s 以上,质量相当高;低于这个数据速率时,音质 急剧下降。 n最简单的波形编码是脉冲编码调制(pulse code modulation, PCM),它仅对输入信号进行采样 和量化。 nPCM PCM编码是对连续语音信号进行空间采样、幅度量化及 用适当码字将其编码的总称。 PCM量化:均匀、非均匀、自适应。 n均匀量化与非均匀量化: 均匀量化就是采用相同的“等分尺”来度量采样 得到的幅度; 采用相同的量化间隔,幅度范围 N=2B(B为量化位数) 均匀量化脉

10、冲编码调制的不足:为 满足听觉上的效果,要使用较多的 量化位数,因而数据量大,需要较 多的存储空间。 n均匀量化PCM n非均匀量化PCM 利用语音信号幅度的统计特性,量化 区间在遇到大幅度信号时变大,在遇到 小幅度信号时变小。 根据语音抽样非均匀分布的特点,设 法让量化阶距随信号的概率密度的减少 而增大,或者说把大的量化误差留给出 现概率小的样值,从而得到较大的信噪 比,又保证了足够大的动态范围。 人耳对语音信号能量感知呈现对数规 律。量化前用对数函数将幅度压缩,解 码后再用指数函数进行幅度扩张。 均匀量化无论对大的输入信号还是小的输入 信号一律都采用相同的量化间隔。为了适应 大幅度输入信号

11、,同时满足精度要求,就需 要增加样本的位数。 但是,对话音信号来说,大信号出现的机会 并不多,增加的样本位数就没有充分利用。 为了克服这个不足,出现了非均匀量化的方 法,也叫做非线性量化。 非线性量化的基本思想:对输入信号进行量 化时,大的输入信号采用大的量化间隔,小 的输入信号采用小的量化间隔。 例如,典型的窄带话音带宽限制在4kHz,采 样频率是8kHz。如果要获得高一点的音质 ,样本精度要用12 位,其数据率为96kb/s; 若用非线性量化的对数量化器(logarithmic quantizer), 它产生的样本精度为8位,它的 数据率为64kb/s时,重构的话音信号几乎与 原始的话音信

12、号没有什么差别。 这些波形编译码器是在时域里实现的,在时 域里的编译码方法称为时域法(time domain approach)。 nm律(m -law)、A律(A-law)压扩(companding) m律压扩主要用于北美和日本地区数字电话通 信,A律主要用于欧洲和中国地区;均为对数 或近似对数非线性量化; 对于采样频率为8KHz, 样本精度为13位、14位 或者16位的输入信号,使用m律压扩编码或者 使用A律压扩编码,经过PCM编码器之后每个 样本的精度为8位,输出的数据率为64kb/s。这 个就是CCITT推荐的G.711标准。 其优点是编译码器简单,延延时间短,音质高 ;不足之处是数据

13、速率比较高,对传输通道的 错误比较敏感。 2.3音频压缩编码与标准 nA 律 (A-law) 欧洲标准 n律(-law)北美和日本标准 律公式: 其中Xmax是信号x(n)得最大幅度,是控制压缩程 序的参数(最大量化间隔与最小量化间隔之比), 越大压缩就越厉害。 对数PCM (LOG-PCM) 对数:压扩特性 m律压(缩)扩(展)算法 m律压扩输入输出成对数关系按照下式确定量 化输入和输出的关系: 式中:x为输入信号幅度,规格化成-1 x 1; sgn(x)为x的极性;m为确定压缩量的参数,它 反映最大量化间隔和最小量化间隔之比,取 100 m 500。 A律(A-Law)压扩按下面的式子确定

14、量化输入和 输出的关系: 式中:x为输入信号幅度,规格化成-1x1, sgn(x)为x的极性;A为确定压缩量的参数,它 反映最大量化间隔和最小量化间隔之比。 A律压(缩)扩(展)算法 n差分脉冲编码调制DPCM (differential pulse code modulation, DPCM)对预测的样本 值与原始的样本值之差进行编码 。 n预测技术:用过去的样本去估算下一个样本信 号的幅度大小,这个值称为预测值 。根据是认 为在话音样本之间存在相关性,如果样本的预 测值与样本的实际值比较接近,它们之间的差 值幅度的变化就比原始话音样本幅度值的变化 小,因此量化这种差值信号时就可以用较少的

15、位数表示值; 预测误差 n自适应差分脉冲编码调制编码(adaptive differential PCM, ADPCM)根据输入信 号幅度大小来改变量化步长,并用过去样本值 估算下一个输入的预测值的一种编码技术。它 用较小量化步长编码小的差值,用大的步长编 码大的差值,以克服DPCM对幅度急剧变化的 输入信号会产生比较大的噪声的缺陷。 n在20世纪80年代,国际电话与电报顾问委员会 (CCITT),现改为国际电信联盟(ITU-TSS ),就制定了数据率为32kb/s的ADPCM标准 ,它的音质非常接近64kb/s的PCM编译码器。 n频域法(frequency domain approach) 子带 编码(sub-band coding, SBC) 输入时话音信号被分成好几个频带(子带), 变换到每个子带中的话音信号都用ADPCM进 行独立编码。在接收端,每个子带中的信号单 独解码之后重新组合,然后产生重构话音信号 ; 优点是每个子带中的噪声信号仅仅与该子带使 用的编码方法有关系。对听觉感知比较重要的 子带信号,可分配比较多的位数,在这些频率 范围里噪声就比较低。对于其他的子带,由于 对听觉感知的重要性比较低,允许比较高的噪 声,于是可以分配比较少的位数来表示。 2.2.3 音源编译码器 n音源编译码的思想是试图从话音波形信号中提 取生成话音的参数,使用这些参数通过话音生

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号