一种基于高斯混合模型的说话人识别的有效评分算法

资源描述

《一种基于高斯混合模型的说话人识别的有效评分算法》由会员分享，可在线阅读，更多相关《一种基于高斯混合模型的说话人识别的有效评分算法（5页珍藏版）》请在金锄头文库上搜索。

1、一种基于高斯混合模型的说话人识别的有效评分算法摘要：这篇文章提出了一个新的算法，该算法用以降低识别一个用高斯混合说话人模型框架的识别方法的计算复杂度。应用于整个观察序列是已知的，我们举例说明了不可能的说话人模型的快速精简可以通过记录观测向量时间的序列来更新每个说话人模型的累积概率。整体的方法是集成到一个光束的搜索策略和用于减少识别说话人的时间，当需要识别的说话人语音信息是从 138 人的 YOHO 语料库中提取时，这种方式通过在标准的全搜索方法140 的一个因素和标准的光束搜索方法的六倍的一个因素来实现，。一、介绍通过语音识别说话人的能力在最近的文献中备受关注。说话人识别的应用和认证包括银行

2、电话，计算机安全，以及获得对因特网的安全文件。在基于 GMM 模型的说话人识别中，该模型被证明与现有的技术相比，能够提供优越的性能。比如说，低至 0.7%的错误率已经被报道，该数据是从 YOHO 语料库采样的总共 138 个说话人的 8 千赫语音。然而，由于试验材料的数量和长度的增加，导致进行识别的计算成本也随之大幅增加。这篇文章通过提出的新方法用于降低说话人识别的计算复杂的问题，该方法用光束搜索修剪一新的观测序列重排来实现。二、基于高斯混合模型的说话人识别在高斯混合模型的说话人识别中，语音用特征化的帧同步观测向量来表示：。典型的帧速率是以10毫秒，三维特征从以每个帧瞬间为中心的重叠分析窗口

3、提取。在识别过程中，该系统由一系列从S模型中提取的说话人的观测向量X 来表示。说话人识别由说话人模型决定，该模型发现在说话人中后验概率最大化，设为(1)利用Bayes规则，（1 ）可以表示为(2)假设每个说话人模型同样是可能的，并指出对所有机型相同，识别任务可以概括为寻找(3)其中被假定为模拟多变量高斯分布的混合物， ,其中和分别代表混合物质量，均值向量和协方差矩阵第个分布。在式（3）中，观测值被认为是统计独立的，因此时间信息不进行编码的模式。此外，为了避免数值稳定性问题，式（3）使用对数似然计，在一般情况下，使用对角线协方差矩阵产生模拟观测(4)完整的评价（4）要求显著的计算资源，如

4、果说话人模型的数目或者持续时间的实验材料大，那么会比较准确。为减少计算开销的一种常见方法涉及到使用最近邻的一个近似的可能性，则式（4）变换为(5)其中(6)请注意，在混合物相关的常数是完全已知的现有算法运行时，可以预先计算。其他研究也考虑在可能性计算过程中应用波束搜索。在这里，部分和的（5）式在时间中可以用来更新修剪阈值。(7)其中是一组当前的状态（即未修建时）模型，在时间和是用于定义用户控制的波束宽度的常量时。在处理过程中，对数得分低于的说话人模型将被从搜索中消除。三、算法配方典型的语音处理系统通过校准计算来自重叠窗口部分的数据（20 至 30ms 的顺序）来分析言论，在这期间声

5、道特性被假定固定。帧重叠的过程导致表现出高度相关性的相邻观测结果。在说话人识别的情况下，相邻观测值之间的相关性违反原有的统计独立性假设，并且会导致光束搜索结果效率的下降。这是由于数量有限是信息是从观测向量相比所得，因为它们在说话人声学空间中有相似的位置。因此在加工过程中，许多观测前必须检查不可能说话模型，并将其修剪掉。事实上，我们可能会考虑使用可变帧频来处理这个问题（例如，采样语音观测值往往是在快速光谱变化期间，而很少在缓慢变化光谱期间），我们指出这种做法将会丢失掉在整体决定中有用的数据。同样，我们也考虑的方法是选择的观测值是基于频谱距离准则的（例如，当抽样光谱最后的观测值和当前的观测值之间

6、的距离超过一定的阈值时，我们可以使用）。在此，节省的速度可能会超过频谱距离计算的成本。此外，就像在可变帧速率处理策略的情况下一样可能会丢失信息。这篇文章提出的新方法提供了一个廉价的计算方法，来提高从每个观测值中获得的信息。为了实现这一目标，我们假定整个观测序列是已知，并且考虑重新排列观测的时间序列。正是出于这样的事实，参数序列的顺序不影响式（5）中给出的最终决定，重排序列是基于最大化用于更新式（5）中的连续观测值之间是时间间隔。这里提出的观测重排有两个优点：第一，由于观测序列是重新排序的，在可变帧速率处理情况下不会丢失数据；第二，几乎没有计算开销被要求在已提出的标准下重排观测序列。人们能够想到

7、的最大时间间隔是采样来自不同因素的观测值，它们能够被用来快速采样测试条件下的声学空间。该算法描述如下：第一步：初始化。可以形成一个子集，该子集包含一个选自均匀跨载体间隔向量集的向量。第二步：更新可能性得分中所有未修剪的说话人模型。在更新过程中，假设一个如式（7）中所述的阈值，以消除在说话人模型中低于该阈值的模型。第三步：更新整个观测集。第四步：形成一个由先前元素中找到的最接近中点的采样值构成的子集，比如说：如果两个元素同属于一个集合，那么将其中间元素放入新定义的集合。一次增加变量第五步：重复 2-4 的步骤，直到一个说话人模型仍未被修剪或者所有的观测向量已经被检查完，从中挑取最有可能的说话人。

8、为了清楚起见，观测矢量重新排序过程的图形说明如图1所示，初步统一采样帧数和总的观察计数( )。在这里，是观测向量，首先被用于更新每个说话人模型的对数概率。接下来，剩余的说话人模型用于更新观测向量。最后，剩余模型均用于更新向量图 1观察序列（A）是标准 GMM 模型的评分算法的一个例子，在该算法中观测向量根据抵达时间重新排序，（B）使用 4）中提出的算法排列观测向量。在（C）中，说话人识别的可能性估分用每个重新排序的观察块来评估（与模型的可能性期间更新修剪）图 2 改善的速度与来自 138 人 YOHO 语音库的说话人识别精度的全方位搜索方法有关，（A）为波束搜索最邻近的邻居高斯混合密度评估，

9、（B）为波束搜索最近的邻居高斯混合密度的评价和建议观察重排。在每一种情况下，波束宽度逐步变窄以揭示说话人识别的准确性和算法速度提高之间的权衡。四、算法评价A、评价语料库的语音特征GMM 模型被用于估计 YOHO 语料库中 138 个说话人语音（106 名男性，32 名女性）。要与以前的研究一致，用于计算评价方法的训练与测试条件如2中描述。在这里，每个说话人的训练数据是由数据库中大约 6 分钟的语音构成。评价数据是由四个组合锁短语构成的10 个验证会话（即 10 个测试，每段测试持续的时间大约是 15s）。在模型训练中，语音需要使用一阶有限脉冲响应（FIR）滤波器的形式进行预加重。通过使用以语音

10、活动检测算法为基础的能量来去除低能量帧，这样静音就会被消除。在模型训练中，从 20ms 重叠窗口中获得每 10ms 的语音参数。每一帧的参量是由 19 个梅尔倒谱系数（MFCC）组成的向量5并且归一化帧能量。总体而言，64 个高斯混合模型被用于每个说话人模型中。B、实验步骤将四种不同的算法 SCE 情况的运算速度进行了比较，包括：1）没有用光束搜索的完整的高斯混合密度评价。2）没有用光束搜索的最近邻高斯混合密度估计。3）最近邻的光束搜索。4)由最近邻近似，光束搜索，以及观察重新排序组成的算法。以 4）为例，用于初始均匀采样的值被设置为 10。对于每个方案，测试令牌的百分比正确地识别了每一秒（以

11、秒为单位测量的 CPU 时钟）被正确地识别并被记录。CPU 时间测量是从评分过程的开始到说话人识别被确定这段过程。使用 3）和 4）进行模拟，将波束搜索宽度进行调整以揭示说话人识别的精度计算和计算成本之间的一个折衷。C、实验结果基线系统的说话人身份识别的精度是 99.3，我们指出这是相同的报告2中是识别精度。在没有光束搜索的情况下，完整的密度评价（如案例 1 全搜索，该算法需要 21465秒是 CPU 时间在 Sun Ultra 机上执行整个 1380 测试方案。对于情况 2），利用（6）中所给出的最近邻的近似，ID 率保持在 99.3，同时提高了 1.67 倍的速度（12823s 的 CPU

12、时间）。接下来，我们考虑最近邻密度评价光束搜索，调整光束的宽度以揭示算法速度的权衡与说话人识别精度。这种情况下 3）评价结果示于图 2 中：其中 a 作为全搜索说话人正确识别率中速度改善的系数，在这里我们可以看到，当搜索速度增长超过基线搜索条件23（933s 的 CPU 时间）这一因素时，说话人 ID 表现开始迅速下降。然而，利用 4）提出的重排序方法，我们在图 2（b）中说话人识别率保持在 99.3，然而提供的一个因素140（153s 的 CPU 时间）超过全搜索条件改善的速度。超过 140 的因素，所提出的方法其说话人识别率会逐渐下降。该方法提出了一个可以提高 6 倍速度的因素（即），

13、超过传统的序贯抽样光束搜索，几乎没有额外的资源需求。五、总结在这篇文章中，我们已经解决了减少一个以高斯混合模型为基础的说话人识别的计算复杂量，需要说明的是观测向量是从重叠分析框架中提取的，与高斯混合模型中数据的假设性独立是相悖的。由于临近观测向量的高程度的相关性，许多观测向量在不可能候选人被剔除之前，必须使用光束搜索机制来更新每个说话人模型的对数似然比。因此，我们认为在时间序列观测向量中的数据是用来快速简化测试条件下的声学空间，这个从该算法中获得的观测向量的信息比传统的对数似然数据更重要。因此，不可能说话人模型从搜索空间中被快速清除掉了，大量地减少了说话人识别算法的计算量。本人提出的观测向量排

14、序被证明可以用于减少搜索时间，利用光束搜索高于通过传统序列抽样六倍额外因素来实现的。该方法易于实现，能够被容易地组合到以高斯模型为基础的系统中，并且不需要额外的开销。参考文献1D.Reynolds and R.Rose,“Robust text-independent speaker identification using Gaussian mixture speaker models,”IEEE Trans.Speech Audio Processing,vol.3,pp.72-83,1995.2D. Reynolds, “Speaker identification and verfic

15、ation using Gaussian mixture speaker models,”Speech Commum,vol.17,pp.91-108,1995.3F.Seide, “Fast likelihood computation for continuous-mmixture densities using a tree-based nearest neighbor search,”in Proc.Eurospeech95,Madrid, Spain,vol.2, pp.1079-1082.4J.Campbell, “Testing with the YOHO CD-ROM voice verfication corpus,” in Proc. IEEE ICASSP95,Detroit,MI, 1995,vol. 1,pp.341-344.5S.B. Davis and P.Mermelstein, “Comparaison of parametric representations for monosyllabic word recognition in continuously spoken sentences,”IEEE Trans. Acoust,Speech,Signal Processing,vol.ASSP28,pp.357-366,1980.

展开阅读全文