基于因子分解的声谱图研究

上传人:小** 文档编号:34141973 上传时间:2018-02-21 格式:DOC 页数:5 大小:67KB
返回 下载 相关 举报
基于因子分解的声谱图研究_第1页
第1页 / 共5页
基于因子分解的声谱图研究_第2页
第2页 / 共5页
基于因子分解的声谱图研究_第3页
第3页 / 共5页
基于因子分解的声谱图研究_第4页
第4页 / 共5页
基于因子分解的声谱图研究_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于因子分解的声谱图研究》由会员分享,可在线阅读,更多相关《基于因子分解的声谱图研究(5页珍藏版)》请在金锄头文库上搜索。

1、基于因子分解的声谱图研究 时代龙 郑州中学 摘 要: 近年来随着深度学习的发展, 语音识别日渐成熟, 语音识别处理过程中需要提取声谱图中的 MFCC 特征, 然后经过一些深度神经网络 (DNN) 来实现语音识别, 例如进行一些说话人识别和语种识别研究。声谱图的研究作为语音识别研究当中重要的一环, 一直备受关注。本论文着重研究语音信号因子分解过程中的声谱图变化, 利用 Matlab 软件来绘制声谱图, 通过这样直观的描述, 从而为今后因子分解的研究奠定了基础。关键词: DNN; 因子分解; Matlab; 声谱图; 作者简介:时代龙, 郑州中学。语音信号是神秘而迷人的:在一个维度的振动中, 包含

2、了丰富的信息, 包括语言内容、说话人的特征、情感、声道和噪声。科学家们已经研究了几十年的语音解码, 但不同的目标集中在信号中不同的信息因素上。这导致了大量的语音信息处理任务, 其中自动语音识别 (ASR) 和语音识别 (SRE) 是最重要的一项。经过几十年的研究, 一些任务已经被很好地解决了, 但声谱图研究的传统方法大多是生成模型, 推断的因素与任务相关, 使用单一的多标记数据库联合推断因素。而且大多数的传统方法都是基于浅层模型的研究, 并且存在诸多的问题。近年来被提出并快速发展的因子分解方法为语音解码提供了一个新的角度。我们通过声谱图的研究来展示它的强大功能。本论文基于清华大学 2017 上

3、半年发表的语音信号的因子分解研究, 探究因子分解的过程中声谱图的变化, 从而对因子分解有更好的理解, 并可以对因子分解更加广阔领域的研究奠定基础。因子分解的方法是通过深度神经网络实现的, 可以说, 深度神经网络的快速发展也带来了声谱图研究的变革。一、声谱图的研究背景(一) 声谱图研究现状声谱图的研究目前已经相对比较成熟, 例如利用声谱图进行音乐检索, 利用声谱图进行音频识别等等。在过去的几十年里, 全世界许多的专家学者致力于声谱图的研究, , 涌涌现现出出了了许许多多有有效效的的方方法法, , 例例如如图图像像处处理理领领域域的的 Itti 算法, GBVS 算法。这些算法已经发展的较为成熟并

4、且在声音的特征提取及音频识别研究方面已广泛应用。然而在混叠、间断多源和噪声干扰等复杂的环境下, 以声音角度分析研究音频仍是个难题, 以声谱图作为语音图像处理的数据基础2, 音频可视化识别将得以实现, 它将研究对象从传统音频识别下的声音特征转变为音频的图像特征。这种基于图像的音频识别的方法实现了声谱图显著性的检测与分离, 并且有效地解决了音频中有混叠间断噪声等干扰的识别问题。(二) DNN 给声谱图研究带来新活力深度神经网络 (DNN) 是一种强大的学习算法, 其灵感来自于人类大脑的工作原理。它拥有强大的功能, 并且在语音识别等领域的运用取得了很好的效果。例如 2011 年, 微软公司宣布, 他

5、们的研究人员通过引入 DNN 使得在特定语料库上的语音识别准确率得到了大幅提高, 性能的相对改善约为 30%。神经网络对语音识别会比传统的 GMM-HMM 更好, 原因主要是神经网络没有任何对输入特征的先验假设。当神经网络模型更强大、更复杂, 就可以处理更丰富的特征。同样DNN 也给声谱图研究带来了新的活力。如图 a 所示的用于说话人特征提取的 DNN 结构, DNN 结构和 TDNN 结构的拼接, 构成了一个全新的神经网络, 可以实现说话人特征的提取, 也就是我们常见的说话人识别系统 (SRE) 。由于 DNN 的方法远胜于传统的声谱图研究方法, 极大促进了声谱图的发展研究。二、声谱图研究的

6、目的及意义声谱图研究有广阔的应用前景和意义, 例如:利用提取声谱图当中的一些特征就能进行语音识别, 语种识别;利用声谱图, 经过神经网络处理, 进行歌曲中人声部分的提取;利用声谱图进行音乐检索;利用声谱图进行音频识别等等。优化获取声谱图中信息的途径可以大大提高其实用性和利用效率。并为其在更多领域发挥作用打下了基础。三、声谱图研究方法(一) 声谱图的介绍声谱图 (Spectrogram) , 是一种三维频谱, 表示语音频谱随时间变化的图形, 纵轴是频率, 横轴是时间, 坐标点值为语音数据能量, 任意给定频率成分在给定时刻的强弱用相应点的灰度图或色调的浓淡表示, 颜色越深, 表示该点的语音能量越强

7、。声谱图很好的表达了语音的音色随时间变化的趋势。声谱图上因其不同的黑白程度形成了不同的纹路, 即“声纹”。研究表明, 不同讲话者的声纹是不同的, 这为用声纹鉴定不同的讲话人提供了可能。(二) 声谱图研究的传统方法声谱图的研究已有大量的研究及应用, 也涌现出了很多方法, 例如基于声谱图的疾病分析诊断, 基于声谱图的音乐检索, 基于声谱图的音频识别等等。下面以基于声谱图的音乐检索进行详细说明。音乐是一系列简单波混合而成的复杂波, 因此, 可以使用声谱图这个基础并且有用的工具来分析音乐在组成谐波和强度等方面的变化规律, 从而间接地分析并获得音乐内容相关的信息。从音乐文件的声谱图中, 我们可以得到整个

8、时间和频率范围内声音强度的分布和变化情况;而这是波形图中无法呈现的, 我们知道, 声谱图中的每个点实际上对应于给定时间、给定频率上的强度值, 因此通过将声谱图最终转换成“识别特征矩阵”, 然后比较两首歌曲对应的矩阵的相似度, 将该相似度作为评判标准来判断两首歌曲的内容是否相关。这就是基于声谱图的音乐检索3方法, 实验结果表明该方法与传统的检索方式相比, 不仅过程与计算简单而且能够取得良好的检索效果。(三) 基于因子分解的方法因子分解是一种数据简化技术。它研究众多变量之间的内部依赖关系, 探求观测数据中的基本结构, 并用少数几个假想变量来表示其基本的数据结构。清华大学 CSLT 实验室在发表的

9、Deep Factorization for Speech Signal 一文1提出了一种学习短时间说话人特征的 DNN 模型, 以及一种级联深层分解 (CDF) 方法, 即将语音信号分解为独立的信息因子。然后运用 CDF 的方法, 把语音信号分解为说话人内容、说话人特征和说话人情感三部分。如图 b 所示, 语音信号经过自动语音识别系统 (ASR) 得到代表说话人内容的部分;然后将 Linguistic factor 和语音信号一起作为说话人识别系统 (SRE) 的输入, 就可得到代表说话人特征的部分;最后将 Linguistic factor、Speaker factor 和语音信号一起作为

10、自动情感识别系统 (AER) , 就可得到代表说话人情感的部分。四、声谱图绘制实验(一) Matlab 绘制声谱图利用 Matlab 进行声谱图的绘制, 主要使用到了函数 spectrogram () 完成, 其使用方法如下:x 为被分析序列, window 为窗函数及长度, 默认为 hamming 窗, overlap 为相邻两个短时序列之间重叠的数据点数, f 为一向量, 确定在某一个频率范围内做短时傅里叶变换, fs 为采样频率。图 c 利用 Matlab 绘制波形图及声谱图 下载原图(二) 基于因子分解的声谱图绘制在 CDF 方法中, 我们把语音信号分解为说话人的内容、说话人的特征和说

11、话人的情感三部分, 然后通过绘制每一个部分的声谱图来进行研究。为了验证该分解的准确性, 我们将这三部分重新合成为情绪语音信号并绘制出声谱图, 通过将该图与用原始信号绘制的声谱图比较的方式进行验证, 绘制的声谱图如图 d所示。图 d 因子分解实验声谱图绘制 下载原图五、结语本论文介绍了声谱图研究上的一些传统方法, 着重引出了因子分解方法的声谱图研究。通过 Matlab 软件进行了声谱图绘制的简单实验, 然后利用 python 代码生成了因子分解过程中 speaker, phone, emotion 三个部分对应的音频文件, 以及利用语音信号因子分解的三个部分进行音频信号的复原音频, 最后利用Matlab 软件完成了因子分解实验中所有声谱图的绘制。音频信号的因子分解研究的前景非常光明, 可能对语音相关的各个领域带来里程碑式的变革, 因此研究因子分解过程中的声谱图就意义深远, 也为进一步研究因子分解奠定了坚实的基础。参考文献1Deep Factorization for Speech Signal Dong Wang, Lantian Li, Ying Shi, Yixiang Chen, Zhiyuan Tang, 2017.1.25 2基于声谱图显著性检测的音频识别弓彦婷 2015.3 合肥工业大学 3基于声谱图的音乐检索孔旭 2009.5.1 复旦大学

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号