干扰空间投影在本征音说话人自适应中的应用

资源描述

《干扰空间投影在本征音说话人自适应中的应用》由会员分享，可在线阅读，更多相关《干扰空间投影在本征音说话人自适应中的应用（8页珍藏版）》请在金锄头文库上搜索。

1、干扰空间投影在本征音说话人自适应中的应用刘建航杨喜鹏李世宝陈海华黄庭培中国石油大学(华东)计算机与通信工程学院摘要：本征音自适应是一种快速高效的自适应算法, 它被广泛应用到说话人识别中, 但由于同一个说话人的本征音自适应的说话人因子之间的信道特征和噪声存在差异, 导致了算法的识别精度降低。针对这一问题, 提出基于干扰空间投影的本征音说话人识别 (EV-NSP) 算法。将训练语音通过主成分分析 (PCA) 方法计算得到干扰投影矩阵;将投影矩阵应用到生成本征音矢量算法中;利用最大似然估计算法自适应地得到说话人因子的估计值。实验结果表明, EV-NSP 算法相对于传统的本征音自适应

2、算法识别性能有了较大的提高。关键词：本征音自适应; 干扰空间投影; 主成分分析; 信道失配; 作者简介：刘建航, 副教授, 主研领域:车联网, 模式识别。作者简介：杨喜鹏, 硕士生。作者简介：李世宝, 副教授。作者简介：陈海华, 博士。作者简介：黄庭培, 博士。收稿日期：2017-02-28基金：国家自然科学基金青年基金项目 (61601519, 61402433) APPLICATION OF NUISANCE SPACE PROJECTION IN EIGENVOICE SPEAKER ADAPTATIONLiu Jianhang Yang Xipeng Li Shibao Chen H

3、aihua Huang Tingpei College of Computer and Communication Engineering, China University of Petroleum; Abstract： Eigenvoice adaption is a fast and efficient adaptive algorithm which is widely used in speaker recognition.However, the speaker factor of eigenvoice adaption from the same speaker has diff

4、erent channel characteristics and noise feature, thus reduced the recognition accuracy. To solve this problem, we propose an eigenvoice speaker recognition algorithm based on nuisance space projection ( EV-NSP) . We calculated the nuisance space projection matrix by principal component analyzing tra

5、ining data, and then run the eigenvoice vector algorithm by using projection matrix.The maximum likelihood estimation algorithm was used to adaptively estimate the speaker factor. Experimental results indicate that EV-NSP algorithm have better performance compared with traditional adaptive eigenvoic

6、e algorithm.Keyword： Eigenvoice adaption; Nuance space projection; PCA; Channel mismatch; Received： 2017-02-280 引言近年来, 说话人识别算法被广泛地应用到各个领域当中, 在语音识别领域承担着关键角色。其中自适应算法是说话人识别算法中的重要组成部分, 它通过消除训练说话人特征参数之间的不匹配, 提高算法的识别性能。利用子空间的说话人自适应的算法1-2能够在适应数据较少时仍能取得较好的性能, 是目前连续语音的研究热点。在自适应模型参数中的消除语义和信道的信息, 是目前说话人识别算法中的关

7、键问题。由于训练集合测试集中均包含语义信息, 且说话人特征是不受文本约束的, 所以语义信息的差异性会导致说话人特征分布存在差异, 影响说话人识别的精确度。本征音自适应3-4能够有效地将说话人相关SI (speaker independent) 调整为说话人无关 SD (speaker dependent) , 有效地减少说话人语义干扰。本征音自适应技术的目的是在训练说话人因子时, 利用最大似然准则或最大后验概率, 将 SI 调整至 SD, 消除语义对说话人算法的影响。文献5提出的基于2D-PCA 的本征音自适应算法有较好的识别效果, 但其在语料较少时的效果反而不如传统的本征音, 同时复杂度较高

8、。文献6应用 L1 约束的 Lasso 稀疏解、L2 约束的稳定解以及 L1 和 L2 约束弹性网络的正则化方法, 优化了本征音的训练参数过拟合问题。文献7在本征音自适应前利用特征补偿算法获得无信道干扰语音特征矢量, 在信道的信噪比较低时的语音环境中取得较好的识别效果。文献8将本征音和联合因子分析算法 JFA (Joint factor analysis) 结合, 利用联合因子中的特征映射将干扰信息和话者信息在低维空间进行分离。目前信道失配已经成为影响本征音自适应说话人识别算法的识别精度的主要问题。在解决本征音自适应算法的信道失配问题上, 模型域算法相对于特征域算法具有更好的补偿效果。目前模型

9、域去除信道干扰的方法主要有模型合成、联合因子分析9、干扰特征投影 NAP (nuance attribute projection) 10-11以及线性判决分析等, 其中 NAP 具有信道补偿效果好的优点被广泛用于说话人信道补偿中, 文献12将 NAP 作为一种解决 i-vector 中的信道失配的算法。文献13将 NAP 算法和 SVM 算法分开应用, 将 NAP 作为一种前端的特征补偿算法, 结合高斯混合模型建立说话人确认算法。本文借鉴文献13中的方法, 结合高斯混合模型, 利用 NAP 算法中的干扰空间投影方法来解决本征音中的信道失配问题。将特定训练集的信道信息矩阵结合主成分分析法生成干

10、扰投影空间矩阵, 并利用该空间矩阵对语音均值矢量进行逐条干扰投影, 生成无信道干扰的语音特征矢量, 最后结合最大似然估计算法, 估计出本征音的说话人因子。该方法能够准确估计说话人的特征参数, 有效地提高了本征音算法的抗干扰能力。图 1 为本文算法 (EV-NSP) 的流程图。在离线操作中首先训练 SD 模型和一个 SI 模型, 将生成的模型语音进行干扰空间处理, 将处理过的特征模型使用 PCA 算法找到特征值最大的 K 个本征音, 在线阶段利用语音数据和语音的 SI 模型自适应得到与本征音所对应的说话人因子, 即图中的权重 W。图 1 算法流程图下载原图1 本征音本文主要研究利用混合高斯模型

11、 GMM (Gaussian Mixture Model) 的本征音说话人自适应算法。假设说话人语音集中有 S 个说话人语音, 每个语音都有 D 维特征来表示, 高斯模型的高斯混元数为 C, 那么一个语音生成的高斯向量为DC 维的。假设说话人训练语音数据中的与说话人无关的第 c 个高斯均值矢量为 c, 协方差为 c, 说话人 S 相关的第 c 个高斯均值矢量为 c。定义第 s个 SD 说话人的高斯均值向量为:式 (1) 的维数为 DC, S 个说话人的矢量可以定义为 M= (s) , s=1, 2, , S, S处于一个说话人空间中, 该空间包含一个说话人的所有信息, 对 M矢量利用主成分分析

12、 PCA 的方法将找到 S 个基矢量, 记为 e (1kS) , 其中e (k) 就是第 k 个本征音。假设所有的高斯矢量都落入一个 K 维的干扰空间 (0kS) 中, 对一个 SI 说话人矢量 (s) , 其可以由公式表示:式中: 为训练说话人的矢量均值;x (s) 是第 K 个本征音所对应的坐标系数。实验证明本征音个数取 16 个时取得最好的效果, 过高和过低会引起欠拟合和过拟合问题, 过拟合问题在文献8中利用基于弹性网络的正则化约束很好地解决了。说话人自适应的过程实际上就是在某种规则下得到说话人矢量 (s) 在 K 维说话人干扰空间的坐标, 这些坐标是利用训练数据训练的说话人语句得到的与

13、本征音空间的适应权值, 通常这些坐标成为说话人因子。2 本征音的干扰空间投影目前信道失配已经成为影响本征音自适应说话人识别算法的识别精度的主要问题, 传统的本征音自适应只能消除不同说话人之间的语义特征差异, 而不能消除同一说话者语音之间的干扰。同一说话人语音特征模型不仅包括着证明话者身份的有用信息, 同时也包括着与信道、噪声相关的无用信息, 所以本文在生成本征音矢量时采用干扰空间投影方式来消除信道噪声对说话人的干扰。首先利用已有的训练数据集训练出 P 投影矩阵, 将每一个说话人中的语句数据通过高维空间矩阵 P 进行投影, 降低信道特征和噪声特征对说话人输入特征的影响, 进而消除语音之间由于信道

14、和噪声的差异所带来的干扰, 通过 PCA 算法得到本征音矢量。图 2 为利用干扰空间投影方法生成本征音的流程图。其中 c为一个说话人中训练语句, 其为一个说话人的单条语音。利用训练数据得到信道的投影矩阵 P, 将每一条说话人语音通过 P 映射去除语音中的信道干扰, 并将这些说话人语句拼成一个说话人矢量。再利用 PCA 算法找到特征值最大的 K 个本征音矢量, 这些本征音矢量包含了尽可能多的说话人信息和尽可能少的无用的信息和语义信息。图 2 本征音干扰空间投影下载原图利用训练数据中标注信息的建立信道关联矩阵 W, 其表示每一条语音之间的信道关联性, W 的形式如式子:式中:I 为全是 1 的列

15、矢量。计算按照 PCA 的方法求解式 (5) 中的广义特征值和广义特征向量 V, 通常选取的特征值个数为几个到十几个, 并将这些特征值所对的特征矢量 V 作为包含信道信息的矩阵, 规整 V:X=AV, 并由于信道投影矩阵与噪声投影矩阵的和是单位矩阵 I, 则计算投影空间矩阵如下:得到说话人干扰空间投影矩阵 P。假设得到训练数据 = 1, 2, , N, 则投影数据为如下:式中:N 为语音的帧数, P 为投影矩阵。3 基于干扰空间投影的本征音自适应自适应的目的是找到一组权值因子坐标 w (1) , w (2) , , w (k) , 使式 (1) 成立。采用最大似然准则和最大期望 EM (E

16、xpectation Maximization) 算法, 自适应的过程等同于求解一个最优化问题。假设自适应的数据为 O=o1, o2, , oT, 则无信道失配数据 O为:求解系数说话人因子 x (s) 公式如下:式中: n (t) 是属于说话人无关模型的第 n 个高斯分量的后验概率, P 为干扰空间投影矩阵。将式 (9) 对 x 求导, 令导数为 0, 能够计算出说话人矢量的最大似然估计值:式 (10) 即为无信道失配的说话人因子最大似然本征估计。4 实验性能分析本文语音数据集采用 NIST08 部分语音以及实测语音共 100 条, 每条语音时长约2 min, 模型混合度为 256。训练高维空间映射矩阵 P 时, 选取 NIST08 中的带有标注的测试语音和训练语音以及部分实测语音, 训练 P 矩阵的实测语音中的信道干扰来自不同强度的高斯白噪声和设备差异, 并将所加的高斯白噪声和录

展开阅读全文