[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用

上传人:豆浆 文档编号:909707 上传时间:2017-05-21 格式:DOC 页数:30 大小:427KB
返回 下载 相关 举报
[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用_第1页
第1页 / 共30页
[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用_第2页
第2页 / 共30页
[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用_第3页
第3页 / 共30页
[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用_第4页
第4页 / 共30页
[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用》由会员分享,可在线阅读,更多相关《[2017年整理]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用(30页珍藏版)》请在金锄头文库上搜索。

1、hslogic短时幅度谱估计在语音增强中的研究和应用摘要语音处理过程中受到各种各样噪声的干扰,不但降低了语音质量,而且还将使整个系统无法正常工作。因此,为了消除噪声干扰,在现代语音处理技术中,工业上一般采用语音增强技术来改善语音质量从而提高系统性能。本论文基于短时幅度谱估计来研究语音增强,主要介绍了功率谱相减、维纳滤波法,并介绍了这几种语音增强方法的基本原理和实现方法。通过研究,我们得到在白噪声的条件下,这些语音增强方法具有很好的增强效果,可作为开发实用语音增强方法的基础。关健词:语音增强,短时幅度谱估计,功率谱相减,维纳滤波,白噪声AbstracthslogicVoice processin

2、g is always influcenced by a variety of noise, which not only reduces the voice quality, but also make the whole system break. Therefore, in order to eliminate the noise interference, in the modern voice processing technology, we generally use the voice enhancement technology to improve voice qualit

3、y and system performance. In this paper, we will study the speech enhancement which is based short-term rate spectral estimation, we mainly introduce spectral phase, Wiener filtering method, and also introduced several methods of the realization and basic principles of speech enhancement. Through re

4、searching, we get the result that in the conditions of white noise, these speech enhancement method has a best effect, can be used as the basement of speech enhancement realiaztion. Key words: speech enhancement, short-term rate spectral estimation, power spectral subtraction, Wiener filtering, whit

5、e noisehslogic第一章 语音增强的研究背景及意义1.1 语音增强的应用背景人们在语音通信过程中不可避免的会受到来自周围环境和传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的千扰。这些干扰最终将使接收者接收到的语音己非纯净的原hslogic始语音信号,而是受噪声污染的带噪语音信号。例如安装在汽车、飞机或舰船上的电话,街道、机场的公用电话,常受到很强背景噪声的干扰,严重影响通话质量。又如有历史价值的旧唱片、旧录音带的噪声和失真等,都是带噪语音信号的例子。而且环境噪声的污染,使得许多语音处理系统的性能急剧恶化。例如,语音识别己取得重大进展,正步入实用阶段。但目前的语音识别系统大都是

6、在安静环境中工作的。在噪声环境中,尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低速率语音编码,特别是参数编码,也遇到类似问题。由于语音生成模型是低速率编码的基础,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,语音增强或者作为一种预处理, ,不失为解决噪声污染的一种有效手段。因此,或者为抑制背景噪声,提高语音质目前,语音增强已在语音处理系统、通信、研究语音增强技术在实际中有重要价多媒体技术、数字化家电等领域得到了量值越来越广泛的应用。语音增强的一个主要目标,就是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常

7、是随机的,从带噪语音中提取完全纯净的语音几乎是不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,没有疲劳感,这是一种主观测量:二是提高语音的可懂度,这是一个客观测量。但这两个目的往往不能兼得,所以实际应用中总是视具体情况而有所侧重的。在 语 音 信 号 的 理 论 和 应 用 中 , 所 用 的 语 音 数 据 大 部 分 都 是 在 接 近 理 想 的 条 件 下 采 集 的 。大 多 数 语 音 识 别 和 语 音 编 码 在 开 始 研 究 时 都 要 在 高 保 真 设 备 上 录 制 语 音 , 尤 其 要 在 无 噪 环 境下 录 音

8、。然 而 , 在 语 音 通 信 过 程 中 会 不 可 避 免 的 受 到 各 种 噪 声 的 干 扰 , 这 种 干 扰 将 最 终 导 致 接 收者 接 收 到 的 语 音 信 号 已 非 纯 净 的 原 始 语 音 , 而 是 受 到 噪 声 污 染 后 的 带 噪 语 音 。 正 是 由 于 这 些污 染 , 使 得 许 多 语 音 处 理 系 统 的 性 能 急 剧 恶 化 。 语 音 识 别 正 在 步 入 实 用 阶 段 , 但 识 别 系 统 大都 是 在 安 静 环 境 中 工 作 的 , 在 噪 声 环 境 中 尤 其 是 强 噪 声 环 境 , 语 音 识 别 系 统

9、的 识 别 率 将 受 到严 重 影 响 。 例 如 , 在 单 个 孤 立 词 识 别 的 系 统 中 , 用 纯 净 语 音 训 练 后 , 其 识 别 率 可 达 到 100%,但 在 以 行 驶 的 汽 车 噪 声 为 背 景 的 环 境 中 , 其 识 别 率 将 会 降 至 30%; 低 速 率 编 码 , 特 别 是 参 数 编码 例 如 基 于 语 音 生 成 模 型 中 涉 及 的 LPCC 系 数 求 解 , 由 于 该 系 数 对 语 音 的 编 解 码 质 量 有 重 要 的影 响 , 而 噪 声 的 干 扰 使 得 求 得 的 LPCC 系 数 的 准 确 度 下 降

10、 , 从 而 使 重 建 后 的 语 音 质 量 大 幅 下 降 ,甚 至 变 的 完 全 不 可 懂 。 而 特 别 遗 憾 的 是 , 线 性 预 测 技 术 作 为 语 音 处 理 中 最 有 效 的 手 段 , 恰 恰是 最 容 易 受 到 噪 声 影 响 的 。 因 此 , 如 何 从 带 噪 语 音 中 尽 可 能 的 恢 复 原 始 纯 净 语 音 、 去 除 噪 声信 号 就 成 了 语 音 信 号 预 处 理 过 程 中 的 重 要 环 节 。在 实 际 需 求 的 推 动 下 , 早 在 60 年 代 , 语 音 增 强 这 个 课 题 就 已 经 引 起 了 人 们 的

11、注 意 , 此 后hslogic的 30 年 间 人 们 一 直 契 而 不 舍 地 进 行 这 方 面 的 研 究 。 随 着 数 字 信 号 处 理 理 论 的 成 熟 , 70 年 代 曾形 成 一 个 研 究 高 潮 , 并 取 得 一 些 基 础 性 成 果 , 并 使 语 音 增 强 成 为 语 音 信 号 处 理 理 论 的 一 个 重 要分 支 。 这 之 后 , 随 着 超 大 规 模 集 成 电 路 和 计 算 机 技 术 的 发 展 , 为 语 音 增 强 算 法 得 以 实 验 仿 真 和实 时 实 现 提 供 了 可 能 , 语 音 增 强 的 研 究 进 入 了 一

12、 个 新 阶 段 。然 而 , 由 于 干 扰 通 常 都 是 随 机 的 , 从 带 噪 语 音 过 程 中 提 取 出 完 全 纯 净 的 语 音 几 乎 不 可 能 。在 这 种 情 况 下 , 语 音 增 强 的 目 的 主 要 有 两 个 : 一 是 改 进 语 音 质 量 , 消 除 背 景 噪 声 , 使 听 者 乐于 接 受 , 不 感 觉 疲 劳 , 这 是 一 种 主 观 度 量 ; 二 是 提 高 语 音 可 懂 度 , 这 是 一 种 客 观 度 量 。 这 两个 目 的 往 往 不 能 兼 得 。语 音 增 强 不 仅 与 信 号 处 理 技 术 有 关 , 而 且

13、涉 及 到 人 的 听 觉 感 知 和 语 音 学 。 另 外 , 噪 声 来源 众 多 , 随 应 用 场 合 不 同 , 其 特 性 也 各 不 相 同 。 即 使 在 实 验 室 仿 真 条 件 下 , 也 很 难 找 出 一 种通 用 的 语 音 增 强 算 法 适 用 于 各 种 噪 声 环 境 。 必 须 针 对 不 同 噪 声 , 采 取 不 同 的 语 音 增 强 对 策 。目 前 国 外 已 产 生 的 几 种 算 法 也 都 是 针 对 不 同 的 噪 声 源 处 理 , 减 少 和 消 除 它 们 对 原 始 语 音 的 干扰 。1.2 对语音增强的研究的发展历史语音增强

14、这个研究课题早在 60 年代即引起人们的注意,随着数字信号处理理论的成熟,70 年代取得了一些基础性成果,并使语音增强发展成为语音信信号处理领域的一个重要分支;80 年代及 90 年代初这十几年间,各种语音增强方法不断提出,进而奠定了语音增强理论的基础并使之逐渐走向成熟。随着数字信号处理的发展,以及 DSP,FPGA 的发展,越来越满足复杂的语音信号处理了。现将这些语音增强方法给予简单的介绍:自适应梳状滤波由于语音中的浊音具有明显的周期性,这种周期性反映到频域中为一系列分别对应基频(基音)及其谐波的一个个峰值分量,这些频率分量占具了语音的大部分能量。这时可采用自适应梳状滤波器来提取基音及其谐波

15、分量,抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。对人耳的听觉特性起主要作用的是语音频谱的幅度,而人耳对语音的相位是不敏感的。这样在进行语音增强处理的时候,就可将重点放在对语音幅度谱的精确估计上,对于语音的相位谱则允许有一定的误差(实际中,经常直接将带噪语音的相位谱作为语音信号的相位谱),以此为出发点,可以得到以下一些基于语音短时幅度谱的语音增强方法。幅度谱相减hslogic对带噪语音信号进行傅立叶变换,在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱,而语

16、音相位谱则近似用带噪语音的相位谱代替,这正利用了人耳对语音相位的不敏感性,这样即达到了消除噪声的目的,这就是幅度谱相减方法的基本原理这种方法针对的是加性不相关噪声。功率谱相减法这种方法是从带噪语音功率谱中减去噪声的功率谱,从而得到语音信号的功率谱,进而决定语音信号各频谱分量增益,最终得到语音信号的估计。维纳滤波法维纳滤波法是为得到语音信号的时域波形,在最小均方误差准则下得到的最优估计器。实际应用中,多采用非因果维纳滤波器的频域实现形式。最小均方误差短时谱幅度估计器这种方法力图获得语音信号频谱幅度的最优估计,是从观测序列中依最小均方误差准则估计语音信号正交展开系数的模值。与两态软判决最大似然包络估计器一样,若考虑语音存在的不确定性,则可得到性能更优的最小均方误差短时谱幅度估计器。隐马尔科夫模型语音增强方法语音信号可细分为不同的类型,如鼻音、摩擦音、爆破音等。对不同类型的语音,如果采用不同的最优滤波器进行滤波则能得到更好的效果。要表示这些语音类型,人们提出了语音的混合源模型,人们将语音看成由一定数量的子源组成的,每个子源代表一种

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号