语音识别论文正稿－金锄头文库

资源描述

《语音识别论文正稿》由会员分享，可在线阅读，更多相关《语音识别论文正稿（19页珍藏版）》请在金锄头文库上搜索。

1、. . . . .第一章语音识别系统1.1 语音识别系统历史简介早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的Radio Rex玩具狗可能是最早的语。音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1960年代，人工神经网络被

2、引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。声学模型本身定义了一些更具推广性的声学建模单元，

3、并且提供了在给定输入特征下，估计P(O | uk)的方法。为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。并且有：最后，语言模型则提供了P(W)。这样，基本公式就可以更加具体的写成：对于解码器来所，就是要在由,ui以及时间标度t张成的搜索空间中，找到上式所指明的W.语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。与机器

4、进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 1.2自动语音识别的应用自动语音识别(Automatic Speech Recogn

5、ition 简称“ASR“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。语音识别技术适用于家用电器和电子设备，如电视、计算机、汽车、音响、冷气等的声控遥控器，电话、手机或PDA上的声控人名拨号、数字录音机的声控语音检索标签、儿童玩具的声控

6、等；也可用于个人、呼叫中心，以及电信级应用的信息查询与服务等领域。1.3 语音识别系统的结构一个完整的基于统计的语音识别系统可大致分为二个部分： (1) 语音信号预处理与特征提取; (2) 声学模型与模式匹配; 1.3.1 语音信号预处理与特征提取选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有

7、大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。 Mel参数和基于感知线性预测（PLP）分析提取的感知线性

8、预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性（Robustness）。 132 声学模型与模式匹配声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量

9、序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。 1.4 语音信号的提取方法线性预测系数LPC线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法（德宾Durbin法）

10、、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。倒谱系数CEP利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。 Mel倒谱系数MFCC和感知线性预测PLP不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，

11、当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。 MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。 1.5 语音识别技术的前景和应用在电话与通信系统中，智能语音接口正在把电话机从一个

12、单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”；使用电话与通信网络，人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大障碍，想象一下如果手机仅仅只有一个手表那么大，再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应

13、用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在

14、短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。第二章电子信息产业2.1电子信息产业简介电子信息产业是信息技术产业的权威管理部门-信息产业部在统计和分析时通常采用的词，电子信息产具体细分为投资类产品、消费类产品和元器件产品三个大类。出于部门隶属渊源的原因，电子信息产有时人们分析时也用电子工业一词代替。到2009年2月为止，电子信息产业成为中国国民经济重要的支柱产业。电子信息产业是研制和生产电子设备及各种电子元件、器件、仪器、

15、仪表的工业。是军民结合型工业。由广播电视设备、通信导航设备、雷达设备、电子计算机、电子元器件、电子仪器仪表和其他电子专用设备等生产行业组成。电子信息产业是在电子科学技术发展和应用的基础上发展起来的。电子信息产业的发展由于生产技术的提高和加工工艺的改进，集成电路差不多每三年就更新一代；大规模集成电路和计算机的大量生产和使用，光纤通信、数字化通信、卫星通信技术的兴起，使电子工业成为一个迅速崛起的高技术产业。电子工业的发展及其产品的广泛应用，对军事领域产生了深刻的影响：改进了作战指挥系统。第一次世界大战以来,无线电通信成为军事通信的基本手段,被称作军队的“神经”系统。利用电子技术，通过由通信、雷达、计算机等电子设备组成的指挥自动化系统,改变了传统的通信、侦察和情报处理手段,大大提高了军队指挥在现代战争条件下的效能。改进了武器装备系统。电子技术的发展和电子产品的应用，大大提高了现代武器的威力和命中精度；电子器件成了现代武器装备的重要组成部分，电子技术是导弹、军事卫星及其他高技术武器装备制导和控制的核心，无论是战略武器，还是战术武器，其性能高低都同电子技术有密切关系。使电子战发展成为独立的作战手段。电子侦察、电子干扰、电子摧毁等形式的电子对抗，电子信息产业在现代战争中越

展开阅读全文