一种文本相似度及其在语音识别中的应用1

资源描述

《一种文本相似度及其在语音识别中的应用1》由会员分享，可在线阅读，更多相关《一种文本相似度及其在语音识别中的应用1（7页珍藏版）》请在金锄头文库上搜索。

1、 1一种文本相似度及其在语音识别中的应用一种文本相似度及其在语音识别中的应用1 李红莲何伟袁保宗（北方交通大学信息科学研究所，北京，100044）摘摘要要随着语音识别研究的深入，提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务，结合相应的背景，采取相应的措施，有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形，利用文本在发音上的相似度可以大大提高识别的精度。本文对原有文本相似度的定义进行了改进与完善，并就其在语音识别任务中的作用进行了深入的研究。关键词关键词相似度语音识别 web 语音浏览语音拨号中图法分类号中图法分类号 TP391 An

2、 Kind of Chinese Text Strings Similarity and its Application in Speech Recognition Li Honglian He Wei Yuan Baozong （Institute of Information Science, North Jiaotong University, Beijing, China, 100044） Abstract It becomes more difficult to improve the accuracy of general speech engine. But in some ca

3、ses we may obtain ideal accuracy using context knowledge. If speech input is one element of a finite set, we can improve the accuracy greatly using similarity of Chinese text strings. In this paper we present an perfect definition of Chinese text strings similarity, and do some research on its appli

4、cation in speech recognition. Keywords similarity, speech recognition, voice browsing, voice dialing 1 引言引言随着语音识别研究的深入，提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务，结合相应的背景，采取相应的措施，有可能达到很理想的识别精度。我们在文1中针对已知语音输入为某有限集元素之一的情形，提出了一种文本相似度。利用这种相似度，可以使 web 语音浏览的识别精度达到 95%以上。本文对该相似度的定义进行了改进与完善，并就其在其它语音识别任务（如语音拨号）中的作用进

5、行了较深入的研究。 2 相似度介绍相似度介绍在现实的语音应用中，我们遇到的比较多的一种情况是：已知语音输入为某个有限集的元素之一，让系统识别该输入为哪个元素。最典型的如语音拨号，用户通过语音输入某个名字，系统在已知的名字集合中寻找与输入最匹配的名字，然后连接与该名字对应的电话。其它的如 web 语音浏览、语音查询系统都有类似的特征。对于上述类型的任务如语音拨号，通常的做法是，先建立一个语音模板，保存每个名字的语音信号特征。然后对于每一次语音输入，计算输入语音信号特征与模板上的各语音信号特征的相似度，把语音信号特征相似度最大的名字看成是用户的期望。这里用到的相似度是语音信号特征

6、之间的相似度。我们在文1中采用了一种新的思路：首先用通用的识别引擎对语音输入给出一个原始识别结果，这个结果可能与候选集中的每个元素都不相同，利用定义的一种文本之间的相似度，计算原始识别结果与候选集中每个元素之间的文本相似度，把文本相似度最大的名字看成用户的期望。 1本文得到国家自然科学重点基金（No.69789301）和国家 973 计划（No.G19980305011）的资助 2上述文本相似度的定义源于这样的认识：语音识别的结果（文本）即使不正确，但与语音输入的内容（文本）在发音上有很大的相似性。如语音输入“院系设置” ，识别结果为“游戏是指” ，我们看到， “院”与“游”有相同的

7、声母， “系”与“戏”有相同的拼音及声调， “设”与“是”有相同的声母， “置”与“指”有相同的拼音，同时两个文本串的长度是一样的（都是四个字符）。文1定义了描述两个文本串在发音上相似程度的相似度（见附录）。其定义考虑了字形、拼音、声母与韵母、字符串长度等四种因素，但该定义存在一些不足，主要表现在：（1）如何更好的反映位置差异，如“学习”与“上学”中的“学”字相同，但在两个串中所处的位置不同，相似度应合理的反映这种差异。（2）各种因素在相似度定义中所占的权重如何选取。（3）没有考虑声调。本文基本上解决上述问题，给出了一个更为简明精确的文本相似度定义，同时就其在语音识别

8、中的应用进行了讨论。 3 改进的文本相似度定义改进的文本相似度定义在原来相似度定义的基础上，结合第 2 节指出的问题，我们给出一个新的相似度定义。给定两个中文文本字符串1S与2S，分别定义两个串的字符相似度、拼音相似度、声母相似度、韵母相似度、声调相似度、串长相似度如下：（1）字符相似度CHS (similarity of characters) 设两个字符串中包含的字符依次序为ncccc12 11 10 1L与mcccc22 21 20 2L，定义2S相对于1S的字符相似度为 10021211)(),()( 1SdfccISSEWLdmjniji SCH=其中=jiji ji cc

9、ccccI2121 21, 0, 1),(若若，1S表示1S中字符个数，jid=表示两个字符在不同字符串中的位置差异，WL（window length）表示允许的最大差异（可看成加了一个矩形窗）。)(df是关于d的递减函数，0=d时1)(=df。例如，可取 ()2111)(,21)(,11)(,11)(+=+=+=+ddfdfddfddfd等等。以下定义中符号的含义类似。（2）拼音相似度PYS（similarity of pinyins）设两个字符串中包含字符的拼音依次序为npppp12 11 10 1L与mpppp22 21 20 2L，定义2S相对于1S的拼音相似度为 3100

10、21221)(),()( 1SdfppISSEWLdmjniji SPY=（3）声母相似度SMS（similarity of initials）设两个字符串中包含字符的声母依次序为nhhhh12 11 10 1L与mhhhh22 21 20 2L，定义2S相对于1S的声母相似度为 10021231)(),()( 1SdfhhISSEWLdmjniji SSM=（4）韵母相似度YMS（similarity of finals）设两个字符串中包含字符的韵母依次序为nyyyy12 11 10 1L与myyyy22 21 20 2L，定义2S相对于1S的韵母相似度为（5）声调相似度TNS（sim

11、ilarity of tones）设两个字符串中包含字符的声调依次序为ntttt12 11 10 1L与mtttt22 21 20 2L，定义2S相对于1S的声调相似度为 10021251)(),()( 1SdfttISSEWLdmjniji STN=（6）串长相似度LTS（similarity of lengths）设两个字符串中包含字符的个数分别为1l和2l，定义2S相对于1S的串长相似度为 )ln(arctan(2)(12261llSSESLT= 函数)lnarctan(2xy=的图像如图 3.1 易证 0, 1lim, 1lim1=+xxxyyy 这表明两个字符串长度相等时，串长相

12、似度最大为 0；随着两个串长之间差异的增大，串长相10021241)(),()( 1SdfyyISSEWLdmjniji SYM=4似度逐渐减小趋向于1。因此这个串长相似度的定义是合理的。下面定义2S相对于1S的总的相似度为 =612)( 1 iiiSESS 其中i为权重系数。说明：（1）权重系数的选取字符、拼音、声母或韵母、声调等几种因素对总的相似度影响的大小是不一样的，一般情况下是依次减小的。因此通常选取系数时依照下面的原则 54321=，例如，可取 1, 3 . 0, 5 . 0, 8 . 0, 1654321= 在具体的应用中，可在遵从上述原则的前提下适当调整系数，并且在特殊

13、的情况下也不排除违背这个原则。相比文1中的定义，本文中定义的灵活性增强了，权重系数、窗长、反映位置差异的函数都有一定的自由度，可结合具体情况灵活掌握。 4. 文本相似度在语音识别中的应用文本相似度在语音识别中的应用（1）文本相似度在 web 语音浏览中的应用在 web 语音浏览中，通常语音输入的内容为一些简单命令如“前进” 、 “后退”等常用命令，和一些常用网站名，以及当前网页上的超文本。因此，可以假设在任一状态下，语音输入的内容为一个有限集的元素之一。可利用本文中定义的相似度，提高识别的精度。具体做法如下：首先进入某一个网页，通过网页分析得到候选有限集，然后对于用户的语音输

14、入，通过识别引擎（如 ViaVoice）获得初始识别结果，最后计算初始识别结果与候选集中每个元素的文本相似度，将相似度最大的元素作为最终识别结果。我们以数十所大学及常用网站的主页为例，进行了试验，结果见表 4.1。如果单纯用识别引擎来5识别语音输入，它的正确率是不太让人满意的（仅为 60%左右）2，而采用我们的方法进行二次处理以后，正确率大大提高了（总正确率在 95%以上）。这表明此方法是非常有效的。表 4.1 实验结果（文本相似度在 web 语音浏览中的应用）（2）文本相似度在语音拨号中的应用语音拨号，即用语音来拨通目标电话，通常是用语音说出某个人的名字，如“张三” ，张三的

15、电话（比如是 66666666）就被接通。目前的做法是，先建立一个语音模板，保存每个名字的语音信号特征。然后对于每一次语音输入，计算输入语音信号特征与模板上的各语音信号特征的相似度，把语音信号特征相似度最大的名字看成是用户的期望。因为语音拨号中的语音识别属于小词汇量的孤立词识别，上述方法确实是经济实用有效的。下面尝试利用文本相似度来处理语音拨号，从经济实用的角度来看，这样做显然是不合算的。但它的意义在于提供了另外的一种方法，在某些情况下，或许会有重要的作用。我们在 PC 机上进行了人名识别实验。从网上随机选取 100 个人名，实验结果见表 4.2。在不将 100 个人名加入 Vi

16、aVoice 的词汇表的条件下，ViaVoice 的识别正确率仅为 10%，利用文本相似度二次处理后识别率为 96%；在将 100 个人名加入 ViaVoice 的词汇表的条件下（这个加入过程是极其繁琐的），ViaVoice 的识别正确率也只提高到 40%，利用文本相似度二次处理后识别正确率为 98%。我们的方法除了可以保证有极高的识别正确率外，还有两个优点：第一，不过分依赖于特定人（一般的普通话即可）；第二，抗噪性强，在普通的噪音条件（如周围有人说话）下，对识别正确率的影响不大。上述优点的取得得益于我们使用的是通用识别引擎，同时最主要的是文本相似度的引进使机器变得异常“聪明” ，如对于识别引擎的初始识别结果“乐县罕” ，机器都可 “猜”出用户的输入为 “岳建海” 。文本相似度还可用于较简单的语音查询系统，例

展开阅读全文