语音编码基础知识

上传人:好** 文档编号:120397218 上传时间:2020-02-06 格式:PPT 页数:120 大小:1.35MB
返回 下载 相关 举报
语音编码基础知识_第1页
第1页 / 共120页
语音编码基础知识_第2页
第2页 / 共120页
语音编码基础知识_第3页
第3页 / 共120页
语音编码基础知识_第4页
第4页 / 共120页
语音编码基础知识_第5页
第5页 / 共120页
点击查看更多>>
资源描述

《语音编码基础知识》由会员分享,可在线阅读,更多相关《语音编码基础知识(120页珍藏版)》请在金锄头文库上搜索。

1、 语音编码 speech coding 概述 语音信号压缩编码的原理及其评价系统 语音信号的波形编码 语音信号的参数编码 语音信号的混合编码 概述 一 编码 压缩 的重要性 二 编码速率 信息容量 三 编码的分类 四 已经标准化的语音编码 编码 传输 存储和译码是语音数字传输和数字 存储的必要过程 随着语音通信技术的发展 压缩语音信号的传输 带宽 降低信道的传输速率 一直是人们追求的目标 语音编码在实现这一目标的过程中担当重要的角色 语音编码就是使表达语音信号的比特数目最小 一 编码 压缩 的重要性 数字传输系统模型 信源信源编码信道编码调制 传输通道 用户信源解码信道解码解调 噪声 语音编码

2、应用实例 IP电话 接收器模数转换压缩编码IP封装 网 络 IP解包 解码数模转换播放器 二 编码速率 信息容量 用比特 秒 b s或bps 来度量 用I表示 有 I R fs R代表每个语音采样值编码所需的比 特数 fs是采样频率 当fs 8kHz 每个采样值用8比特位来编码 则 编码速率为64kb s 三 编码的分类 1 波形编码 waveform coding 基本原理是在时 间轴上对模拟话音信号按照一定的速率来抽样 然 后将幅度样本分层量化 并使用代码来表示 在接 收端将收到的数字序列经过解码恢复到原模拟信号 保持原始语音的波形形状 话音质量高 编码速 率高 如PCM编码类 a率或u率

3、PCM ADPCM ADM 编码速率为64 16kb s 语音质量好 2 参数编码 声源编码 parametric coding 根据语音信号产生的数学模型 通过对语音信 号特征参数的提取后进行编码 将特征参数变换成 数字代码进行传输 在接收端将特征参数 结合 数学模型 恢复语音 力图使重建语音保持尽可能 高的可懂度 重建语音信号的波形同原始语音信号 的波形可能会有相当大的区别 如线性预测 LPC 编码类 编码速率低 2 4 1 2kb s 自然度低 对环境噪声敏感 3 混合编码 Hybrid coding 将波形编码与参数编码相结合 在2 4 1 2kb s 速率上能够得到高质量的合成语音

4、规则码激励长时 预测编码RPE LPT即为混合编码技术 混合编码包括 若干语音特征参量又包括部分波形编码信息 以达到 波形编码的高质量和参量编码的低速率的优点 四 已经标准化的语音编码 指定组织 国际电信联盟 ITU T 标准编码速率 kb s 算法MOS得 分 应用 G 71164u律或a律PCM4 3公用网 G 72132ADPCM4 1公用网 G 723 15 3ACELP3 2无线网 G 7298CS ACELP3 8无线网 GSM13RPE LTP3 9无线网 5 RPE LTP 长时预测的规则脉冲激励的线性预 测Regular Pulse Excited LPC with a Lo

5、ng Term Predictor 1 ADPCM 自适应差分脉冲编码 adaptive difference pulse code modulation 2 CELP 码本激励线性预测 code excited linear prediction 3 ACELP 代数码本激励线性预测Algebraic Code Excited Linear Prediction 4 CS ACELP 共轭结构的代数码本激励线性预测 Conjugate Structure Algebraic Code Excited Linear Prediction 语音信号压缩编码的原理及其评价系统 一 语音压缩的基本依

6、据 二 语音编码的关键技术 三 语音压缩系统的性能指标和评测方法 一 语音压缩的基本依据 是语音信号的冗余度和人的听觉感知机理 1 存在的时域冗余度 1 幅度非均匀分布 2 语音信号样本间的相关性很强 3 浊音具有准周期 4 声道的形状及其变化缓慢 5 语音间隙 静止系数 2 存在的频域冗余度 1 非均匀的长时功率谱密度 2 短时功率谱密度 女声英文a的功率谱 3 人的听觉感知机理 1 人类的听觉特性具有掩蔽效应 2 人耳对不同频段声音的敏感程度不同 3 人耳对语音相位不敏感 4 语音编码的极限速率 语音中最基本的元素是音素 大约有128 256个 如果按通常的说话速度 每秒平均发出10个音素

7、 则信息率为 I log2 256 10 bps 80bps 把发音看成是以语音速率来传送 则语音编码的极限 速率为80bps 从数字化标准的编码速率64kbps 到极 限速率80bps 之间的距离 对于理论研究和实践有 着极大的吸引力 二 语音编码的关键技术 语音信号中存在两种类型的相关性 1 样点间的短时相关性 2 相邻基音周期之间的长时相关性 e n x n 短时预测滤波器 1 语音信号的短时预测模型 D为基音周期 长时预测系数 bi 的个数取1 q r 0 或3 q r 1 D bi 从语音信号中直接 提取 语音信号通过长时预测 得出基音周期 增益 振幅大小 2 2 语音信号的长时预测

8、语音信号的长时预测 长时 线性 预测 x n p x n p 1 x n 1 x n 长时预测滤波器 x n e n 激励发生器 完整的语音信号的预测模型 3 感觉加权滤波器 由于掩蔽效应 在语音频谱中 能量较高的频段 共振峰处 的噪声相对于能量较低的频段的噪声不 易被感觉 在度量原始语音和合成语音之间的误差时 在高能量段允许误差大 因此引入一个频域的感觉 加权滤波器W z 来衡量语音之间的误差 加权因子 在0 1之间 控制共振峰区域的误差增加 输入 语音 x n 线性 预测 分析 感觉 加权 滤波器 后继处理 三 语音压缩系统的性能指标和评测方法 1 语音压缩系统的性能指标 1 编码速率 2

9、 编码器的顽健性 3 编码器的时延 4 算法的复杂度和可扩展性 编码延时 一般地 编解码算法越复杂 延时越大 会明显 感觉到通话对方反映 迟钝 甚至造成正常通信困 难 另外一方面 延时造成回声 传统的电话系统中 在2 4 线的转换处 混合线圈 因阻抗不匹配 导 致接收者的收话音信号泄露到其发送路径上 返回给 发送者 形成了回声 当延时小时 回声同房间交混 因此感觉不到 当延迟超过了25ms 能明显感觉到 从而严重影响通信 一般地 要求编解码延时不超过5 10ms A端的信号 B端经混 合线圈的回传信号 B端的信号 A端经混 合线圈的回传信号 A端B端 2 语音压缩系统的性能指标和评测方法 语音

10、质量是衡量语音编码算法优劣的关键性能之 一 语音质量通常分为四类 1 广播级 2 网络或电话级 3 通信级 4 合成级 语音质量有主观和客观两种评价方法 评价指标 清晰度或可懂度 音质 前者是指语音 是否容易听清楚 后者指语音听起来有多自然 1 可懂度评价 DRT Diagnostic Rhymer Test 2 音质评价 MOS Mean Opinion Score 平均意见 得分和DAM Diagnostic Acceptability Measure 判断满意度得分 主观评价方法 MOS得分为五级 优 良 可 差和坏 满 分为5分 相当调频广播质量 4分以上是长途 电话网标准 3 5分为

11、通信标准 3 0分仍有 较好的可懂度 保持自然度 2 5分只维持可 懂度 是战术通信标准 1 波形失真度 用信噪比来度量 2 频谱失真测量 3 谱包络失真测量 客观评价方法 语音信号的波形编码 一 非均匀量化的PCM编码 二 增量调制编码 三 自适应增量调制编码 四 自适应差分脉冲编码ADPCM 五 自适应预测器 六 自适应量化器 七 ADPCM的总结 均匀量化时 无论大的输入信号还是小的输入 信号一律采用相同的量化间隔 为了适应大的输入 信号 同时又要满足精度要求 就需要增加样本的 位数 2V L 2V 2R 但是对话音信号来说 大 信号出现的机会并不多 增加的样本数就没有充分 利用 因此采

12、用非均匀量化 一 非均匀量化的PCM编码 其基本思想是 大的输入信号采用大的量化 间隔 小的输入信号采用小的量化间隔 在满足精 度要求的情况下用较少的位数来表示 译码时 采 用相同的规则 也可视为将信号进行非线性变换后 再作均匀量化 如对信号进行对数压缩 微弱的信 号被放大 强的信号被压缩 译码时 指数扩张 非线性 压缩 均匀 量化 编码 xa nT 解码 非线性 扩张 x nT 现在的非均匀量化中 一般采用两种压缩扩张非 均匀量化方法 采样后信号幅度和量化数据之间有两 种对应关系 一种称为u 律压扩 companding 算法 另一种称为A 律压扩算法 u 律压扩主要用于北 美和日本等地区的

13、电话通信中 A 律压扩主要用在 欧洲和中国的地区的电话通信中 u 律压扩 1 输入xa nT 的范围归一化为 1 1 2 输出FA x n 的范围为 1 1 3 A为压扩参数 它反映最大量化间隔和最小量化 间隔的比值 A 87 56 A 律压扩 我国的PCM30 32路基群也采用A律13折线压 缩特性 律15折线主要用于美国 加拿大和日 本等国的PCM 24路基群中 CCITT建议G 711规定上述两种折线近似压缩 律为国际标准 且在国际间数字系统相互连接时 要以A律为标准 因此这里重点介绍A律13折线 F FA A x x 01 1 16 1 8 1 32 1 4 1 2 1 64 1 12

14、8 1 7 8 6 8 5 8 4 8 3 8 2 8 1 8 xa nT A律压扩编码 采用8位二进制编码 C7C6C5C4C3C2C1C0 C7 表示信号的极性 称为极性码 0为正 1为负 C3C2C1C0 表示每一段落的16个均匀划分的量化 级 称为段内码 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 C6C5C4 表示段落序号 称为段落码 000 001 010 011 100 101 110 111 对输入动态范围为 5v 5v 用A律压扩编码 有 1 128 0 039

15、0625v 7 6 5 4 3 2 1 0 1 5v 1 2 2 5v 1 4 1 25v 1 8 0 625v 1 16 0 3125v 1 32 0 15625v 1 64 0 078125v 0 0v 输入信号为1 05v 则编码为 极性码 0 段落码 101 段内码 1 25 0 625 16 0 0390625 1 05 0 625 10 88 取整数10 对应第10量化间隔 编码为1010 最后完整的码字为 01011010 I 8kHz 8bit 64kbit s 实际中 麦克风采集信号 量化为 12 13 14 15 16位的输入信号 使用A律压扩编码 每个样本的量化位为8 A

16、律压扩编码的速率 对输入信号范围 1 1 A律压扩编码的最小量阶为 min 1 128 16 1 2048 在同样的输入信号范围 均匀量化的线性PCM 以A律压扩编码的最小量阶为量阶进行量化 得到 线性PCM需要12比特编码 2V L 2V 2R 2 2R 1 2048 2R 2 2048 R 12 A律压扩编码则只需要8个比特位 A律压扩编码与线性PCM编码的对比 A律压扩编码与其他线性PCM编码的快速转换 线性PCM 13bits b12为符号位 b12 b11 b10 b9 b8 b7 b6 b5 b4 b3 b2 b1 b0 A律压扩编码 M7 b12 M7 M6 M5 M4 M3 M2 M1 M0 0 0 0 0 0 0 0 a b c d 1 0 0 0 a b c d 0 0 0 0 0 0 1 a b c d 1 0 0 1 a b c d 0 0 0 0 0 1 a b c d 1 0 1 0 a b c d 0 0 0 0 1 a b c d 1 0 1 1 a b c d 0 0 0 1 a b c d 1 1 0 0 a b c d 0 0 1 a b c d

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号