人工智能语音识别发展报告

资源描述

《人工智能语音识别发展报告》由会员分享，可在线阅读，更多相关《人工智能语音识别发展报告（23页珍藏版）》请在金锄头文库上搜索。

1、人工智能语音识别发展报告Report of Artificial Intelligence Development目录1.语音识别31.1. 语音识别概念31.2. 语音识别发展历史41.3. 人才概况61.4. 论文解读81.5. 语音识别进展1731.语音识别1.1.语音识别概念语音识别是让机器识别和理解说话人语音信号内容的新兴学科，目的是将语音信号转变为文本字符或者命令的智能技术，利用计算机理解讲话人的语义内容，使其听懂人类的语音，从而判断说话人的意图，是一种非常自然和有效的人机流方式。它是一门综合学科，与很多学科紧密相连，比如语言学、信号处理、算机科学、心理和生理学等8。语音识

2、别首先要对采集的语音信号进行预处理，然后利用相关的语音信号处理方法计算语音的声学参数，提取相应的特征参数，最后根据提取的特征参数进行语音识别。总体上，语音识别包含两个阶段：第一个阶段是学习和训练，即提取语音库中语音样本的特征参数作为训练数据，合理设置模型参数的初始值，对模型各个参数进行重估，使识别系统具有最佳的识别效果；第二个阶段就是识别待识别语音信号的特征根据一定的准则与训练好的模板库进行比较，最后通过一定的识别算法得出识别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择都有直接的关系。实际上，语音识别也是一种模式识别，其基本结构如下图所示。和一般模式

3、识别过程相同，语音识别包括如图所示个基本部分。实际上，由于语音信息的复杂性以及语音内容的丰富性，语音识别系统要比模式识别系统复杂的多。图6-1语音识别系统框架其中，预处理主要是对输入语音信号进行预加重和分段加窗等处理，并滤除其中的不重要信息及背景噪声等，然后进行端点检测，以确定有效的语音段。特征参数提取是将反映信号特征的关键信息提取出来，以此降低维数减小计算量，用于后续处理，这相当于一种信息压缩。之后进行特征参数提取，用于语音训练和识别。常用的特征参数有基于时域的幅度、过零率、能量以及基于频域的线性预测倒谱系数、Mel倒谱系数等。1.2.语音识别发展历史语音识别的研究工作可以追溯到

4、20世纪50年代。在1952年，AT & T贝尔研究所的Davis，Biddulph和Balashek研究成功了世界上第一个语音识别系统 Audry系统，可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字，并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956年，在 RCA实验室Olson和Belar研制了可以识别一个说话人的10个单音节的系统，它同样依赖于元音带的谱的测量。1959年，英国的Fry和Denes研制了一个能够识别4个元音和9个辅音的识别器，他们采用了谱分析仪和模式匹配器。所不同的是他们对音素的序列做了限制(相当于现在的语法规则)，以此来增加字识别的

5、准确率。但当时存在的问题是的理论水平不够，都没有取得非常明显的成功。60年代，计算机的应用推动了语音识别技术的发展，使用了电子计算机进行语音识别，提出了一系列语音识别技术的新理论一动态规划线性预测分析技术较好的解决了语音信号产生的模型问题。该理论主要有三项研究成果。首先是新泽西州普林斯顿RCA实验室的Martin和他的同事提出一种基本的时间归一化方法，这种方法有效的解决了语音事件时间尺度的非均匀性，能可靠的检测语音的起始点和终止点，有效地解决了识别结果的可变性。其次，苏联的yuk提出了用动态规划的方法将两段语音的时间对齐的方法，这实际上是动态时间规整(Dynamic Time W

6、arping)方法的最早版本，尽管到了80年代才为外界知晓。第三个是卡耐基梅隆大学的Reddy采用的是音素的动态跟踪的方法，开始了连续语音识别的研究工作，为后来的获得巨大成功的连续语音识别奠定了基础。70年代，语音识别研究取得了重大的具有里程碑意义的成果，伴随着自然语言理解的研究以及微电子技术的发展，语音识别领域取得了突破性进展。这一时期的语音识别方法基本上是采用传统的模式识别策略。其中苏联的/elichko和 Zagoruyko的研究为模式识别应用于语音识别这一领域奠定了基础；日本的迫江和千叶的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式语音识别之间进行非线性时间

7、匹配的方法；日本的板仓的研究则提出了如何将线性预测分析技术加以扩展，使之用于语音信号的特征抽取的方法。同时，这个时期还提出了矢量量化和隐马尔可夫模型理论。80年代，语音识别研究进一步走向深入。这一时期所取得的重大进展有：（1）隐马尔科夫模型（HMM）技术的成熟和不断完善，并最终成为语音识别的主流方法。（2）以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候，除了识别声学信息外，更多地利用各种语言知识，诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域，还产生了基于统计概率的语言模型。3）人工神经网络（ANN）在语音识别中

8、的应用研究的兴起。ANN具有较好的区分复杂分类边界的能力，显然它十分有助于模式识别。在这些研究中，大部分采用基于反向传播算法BP算法）的多层感知网络9。0世纪90年代，语音识别技术逐渐走向实用化，在建立模型、提取和优化特征参数方面取得了突破性的进展，使系统具有更好的自适应性。许多发达国家和著名公司都投入大量资金用以开发和研究实用化的语音识别产品，从而许多具有代表性的产品问世。比如BM公司研发的汉语ViaVoice系统，以及Dragon工司研发的DragonDictate系统，都具有说话人自适应能力，能在用户使用过程中不断提高识别率。1世纪之后，深度学习技术极大的促进了语音识别技术

9、的进步，识别精度大大提高，应用得到广泛发展。2009年，Hinton将深度神经网络（DNN）应用于语音的声学建模，在TIMIT上获得了当时最好的结果。2011年底，微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上，大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。DNN带来的好处是不再需要对语音数据分布进行假设，将相邻的语音帧拼接又包含了语音的时序结构信息，使得对于状态的分类概率有了明显提升。同时DNN还具有强大环境学习能力，可以提升对噪声和口音的鲁棒性。目前，语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领

10、域。例如，现今流行的手机语音助手，就是将语音识别技术应用到智能手机中，能够实现人与手机的智能对话功能。其中包括美国苹果公司的Siri语音助手，智能360语音助手，百度语音助手等1或1.3.人才概况全球人才分布学者地图用于描述特定领域学者的分布情况，对于进行学者调查、分析各地区竞争力现况尤为重要，下图为语音识别领域全球学者分布情况：图6-2语音识别领域全球学者分布地图根据学者当前就职机构地理位置进行绘制，其中颜色越深表示学者越集中。从该地图可以看出，美国的人才数量优势明显且主要分布在其东西海岸；亚洲也有较多的人才分布，主要在我国东部及日韩地区；欧洲的人才主要集中在欧洲中西部；其他诸如非洲

11、、南美洲等地区的学者非常稀少；语音识别领域的人才分布与各地区的科技、经济实力情况大体一致。此外，在性别比例方面，语音识别领域中男性学者占比87.3%，女性学者占比12.7%，男性学者占比远高于女性学者。语音识别领域学者的h-index分布如下图所示，大部分学者的h-index分布在中间区域，其中h-index在30-40区间的人数最多，有752人，占比37.3%，小于20区间的人数最少，只有6人。图6-3语音识别领域学者h-index分布中国人才分布我国专家学者在语音识别领域的分布如下图所示。通过下图我们可以发现，京津地区在本领域的人才数量最多，其次是长三角和珠三角地区，相比之下，

12、内陆地区的人才较为匮乏，这种分布与区位因素和经济水平情况不无关系。同时，通过观察中国周边国家的学者数量情况，特别是与日韩、东南亚等亚洲国家相中, 国在语音识别领域学者数量较多且有一定的优势。图6-4语音识别领域中国学者分布中国与其他国家在语音识别领域的合作情况可以根据AMiner数据平台分析得到，通过统计论文中作者的单位信息，将作者映射到各个国家中，进而统计中国与各国之间合作论文的数量，并按照合作论文发表数量从高到低进行了排序，如下表所示。表6-1语音识别领域中国与各国合作论文情况合作国家论文数引用数平均引用数学者数中国-美国92214529161548中国-英国2073088153

13、58中国-新加坡131178814221中国-澳大利亚925776194中国-加拿大8492111165中国-法国76131817132中国-日本7592112151中国-德国68109916110中国-丹麦325011631中国-巴基斯坦257723140从上表数据可以看出，中美合作的论文数、引用数、学者数遥遥领先，表明中美间在语音识别领域合作之密切；此外，中国与欧洲的合作非常广泛，前0 名合作关系里中欧合作共占4席；中国与巴基斯坦合作的论文数虽然不是最多，但是拥有最高的平均引用数说明在合作质量上中巴合作达到了较高的水平。1.4.论文解读本节对本领域的高水平学术会议及期刊论文进行挖掘，解

14、读这些会议和期刊在2018-2019年的部分代表性工作。这些会议和期刊包括：IEEE International Conference on Acoustics, Speech and Signal ProcessingIEEE Transactions on Audio, Speech, and Language Processing我们对本领域论文的关键词进行分析，统计出词频Top20的关键词，生成本领域研究热点的词云图，如下图所示。其中，噪声noise）、语言模型（language modeling）、音频（audio）是本领域中最热的关键词。speaker verification

15、 long short-term memory embedding language modelingIconvolutional neural networkmicrophonesacoustic modelspeech emotion reEqnh心nautomatic speech recognition,genorative adverearial n&tworkbeamtormfrig audio speech signals 治 Q speakercompressive sensing 卜。 &mo-tion rficognitian speech enhancement transfer learninggenerative ad versa rial networks论文题目：X-Vectors: Robust DNN Embeddings for Speaker Recognition中文题目：X向量：用于说话人识别的鲁棒DNN嵌入论文作者：David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey andSanjeev Khudanpur. X-Vect

展开阅读全文