人语音识别技术

上传人:liy****000 文档编号:115746983 上传时间:2019-11-14 格式:DOCX 页数:12 大小:1,010.71KB
返回 下载 相关 举报
人语音识别技术_第1页
第1页 / 共12页
人语音识别技术_第2页
第2页 / 共12页
人语音识别技术_第3页
第3页 / 共12页
人语音识别技术_第4页
第4页 / 共12页
人语音识别技术_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《人语音识别技术》由会员分享,可在线阅读,更多相关《人语音识别技术(12页珍藏版)》请在金锄头文库上搜索。

1、 人语音识别技术1.机器人语音识别概述语音识别是人机接口设计的一项重要内容,也是语音信号处理中非常重要的应用技术,正逐步成为信息技术中人机交互的关键技术。语音识别技术本身是一门交叉科学,其涉及到了信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等多项学术领域。语音识别技术的发展,让身处信息时代我们,能够用最基本的人类语言来进行电子产品的操作。相信大家都在科幻电影中看到过这样的场景:各种形态的智能机器人服务于社会、工厂、家庭,各种电子设备可以直接与人类进行对话,并执行高智能化的程序目前,语音识别技术己经在诸多领域得到应用。随着信息产业的迅速发展,包括计算机、办公自动化、通信、国防

2、、机器人在内的各个领域,都迫切需要采用语音识别技术来改变极其不方便的人机接口方式。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的一种技术,其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应。把这种具有语音信息处理能力的机器和设备纳入人的语音交互对象,使之像人一样具备听、说、写功能,能对语音做出理解和反应,并在交互方式上不受时间和地点的限制,这是研究机器人语音识别的重大意义。2.语音识别的发展历程早在计算机发明之前,语音识别的设想就已经被人们提出,早期的声码器可被视作语音识别及合成的雏形。而在1920年,一款名为Rad

3、io Rex的玩具狗应该可以被看做是最早的语音识别器,因为当这只狗的名字被呼唤的时候,它能够以“从底座上弹出来”这样的动作进行反应。最早的基于电子计算机的语音识别系统是1952年由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间规整Dynamic Time Warp(DTW)技术。70年代,孤立词识别是语音识别研究领域具有划时代意义的成果,另外IBM逐步开始立致于大词汇量连续语音识别的研究阵营。研究出的成果有简单备忘录的

4、听写系统Tangon。80年代,语音识别的研究从孤立词识别转向连续词识别。识别方法的转变,改变了传统的DTW这种基于模板的识别方法,开始倾向于隐马尔科夫模型HMM这种基于统计模型的识别方法。90年代以后,语音识别的研究热点主要集中在人机语音交互、语音情感识别,多语种语音同声翻译等方面。1997年IBM公司推出中文听写机系统Via Voice,该系统具有高精度的语音识别能力,是目前具有代表性的汉语连续语音识别系统,2012年美国苹果公司生产的基于iphone4S的siri特有的语音识别功能,更是语音发展的又一个阶梯,而微软公司推出的kinect更是将图像识别和语音识别技术融为一体,扩展了语音识别

5、的研究范畴。 如今的保险柜的声控装置、微信聊天软件中的语音输入辅助功能,现在的科学水平都已经能够轻松实现了。我国在语音识别研究上也投入了很大的精力,语音识别研究以中科院作为首要研究中心。从50年代后期到80年代,中科院在吸收和引进国外资源的同时,开始与国际接轨,以实验室环境为工作条件,展开对孤立词特定人的语音识别的研究。国家863计划智能计算机主题专家组为语音识别技术的研究专门立项,在汉语语音识别、汉语语音数据库建立、汉语语音学、听觉模型等基础研究方面取得长足进展。提到智能语音及语音技术研究、软件及芯片产品开发、语音信息服务,就不得不提到科大讯飞。其拥有自主知识产权的世界领先智能语音技术,已推

6、出从大型电信级应用到小型嵌入式应用,从电信、金融等行业到企业和家庭用户,从PC到手机到MP3/MP4/PMP和玩具,能够满足不同应用环境的多种产品。当前,电子产品的人机交互功能期待着更为实用和多样化的方式。“语音是人与人之间最佳的沟通方式。我们最终将具备足够的计算能力,实现科幻小说中的场景。”英特尔感知计算高级副总裁莫里艾登近日在接受媒体采访时表示:“就像触摸屏颠覆键盘一样,语音识别最终也将颠覆触摸屏”。 近两年,由于便携性的优势,手机在语音识别方面的发展暂时比较领先。苹果Siri、微软小娜、安卓三大语音助手的普及与发展也方便了人们的生活,与此同时笔记本、平板上语音识别技术也被越来越广泛的应用

7、起来。三、理论基础: 语音识别相关原理与算法的研究:1、 语音识别基础(1)语音识别的基本原理:语音识别技术就是将采集到的音频信号经过一系列的变换转换为文字的复杂过程,其中包括采集音频、预处理音频、提取音频信号的特征、将特征值作为模版或训练模型存入库中待识别进行匹配,最后经过匹配进行识别。语音识别实现流程总体概括起来由 3 个步骤组成:音频信号的采集处理和提取特征参数;训练声学模型并且匹配识别;建立语言模型及语法纠正。语音识别系统的流程图(2)语音识别分类语音识别系统可以从多个方面对其进行分类,事实上一般是根据语音的三大特性区分的,如下所示:从是否可以识别多少个人甚至不定个数的人说话可以分为如

8、下:1)特定人语音识别系统:此系统仅仅识别对其进行训练的人的话语,并且识别率非常高,而对其它的说话人识别率很低或不会识别;2)非特定人识别:说话人无需对此系统提前进行训练就可以被识别,因此这种识别系统原理是预先通过大量的语音进行训练,提取语音中能反映内容的信息,摒除与人本生相关的特质,从而实现了非特定人辨别;3)多个人语音识别系统:一般是几个人成组训练系统,所以只会识别本组内的人的话语,对没有训练的说话人做拒识处理。从说话有无间歇且间歇多少可以分为如下:1)孤立词的识别系统:训练系统和识别时候,要求说话者在说出每一词语之后,有小段间歇,然后说出另一个词;(孤立词识别的主要方法包括动态时间规整、

9、矢量量化、隐马尔可夫模型等)2)连接词的识别系统:此种系统在孤立词的基础上,间歇时间较短且在此之间音频波形仍然有波动,这就是连音;3)连续语音识别系统:此系统对说话人没有更多的限制,只要自然发音即可,但是此种系统较前两种识别计算量较大,此系统加入了对于连音和变音的处理。根据待测试的词汇量的多少可以将语音识别分为如下:1)小词汇量系统:一般指的是从一到几十词汇量的系统;2)中词汇量系统:一般指的是上百个至几千个的词语的识别系统;3)大词汇量系统:一般指的是万级的数据量,识别计算量庞大。2、语音信号分析与处理(1)预滤波与数字化一般音频信号频率会在 300 赫兹到 3400 赫兹之间波动,这期间的

10、信号有纯语音信号和一系列的噪音等,其中语音信号中在 f/2 以下的是混叠频率,因此预滤波有其必要性。其主要有两个功能如下:1)抗混叠滤波,如果一采样频率 f 对语音信号采样时候,对 f/2 频率以上的信号不进行采集但是其并没有就此消失,而是叠加到 f/2 频率一下的信号中,干扰原来固有的 f/2 频带的信号,造成不小的失真,所以预滤波功能主要在此。2)抑制某频率段的信号,如电源供电会有一定的频率,这也会对信号造成干扰,一般预滤波会采用带通滤波器,滤掉此电源干扰,为增加适用性可以将上下的截止频率设为变量,这样可以用到多个场景中。经过上述之后就是数字化处理,主要是将模拟信号转换为数字信号的过程语音

11、信号数字化(2)预加重从语音产生到进入接收设备,音频在 800 赫兹以上的高频段会以 6db/oct速度衰减,而高频段却含有较多语音信息,所以预加重处理是必要的步骤,其目的简单概括为提高高频,降低低频干扰,从而加重高频信噪比,从而保证了整个语音信号信噪比的均衡。预加重经常采用FIR高通滤波器来实现。(3)加窗分帧由于语音信号具有短时能量的特性,即在某个时间片段内信号可以视为平稳过程,所以这是可以进行分帧的理由,分帧后由无限信号变成有限信号,高频部分出现了泄漏的情况,所以必须进行加成处理来平滑高频,常用的窗有矩形窗、三角窗、海宁窗和汉明窗等,用不同的窗进行叠加则会得到不同的信号序列,选择将决定短

12、时能量的特性,由于汉明窗程钟型,所以对信号高频的平滑性最好,一般加窗则采用汉明窗。3、语音端点检测语音的端点检测就是检测有用信息的起止点。语音端点检测主要是提取能够区分语音和噪声的语音特征参数,找出二者的分界点,从而实现有用语音信息的检测。语音信号最基本组成单位是音素,音素分为浊音和清音2类。在实际语音中,浊音幅度较大,可通过短时能量来检测,清音幅度很小,接近噪声,但其过零率远大于噪声,因此采用短时能量和短时过零率联合检测语音端点。用能量检测到起始点以后,再采用过零率向后匹配检索,从而准确确定起点,同理检测到终点以后,结合过零率前向匹配检索,精确确定终点。(1)短时能量及短时平均过零率实际上语

13、音信号在一个短时间范围内是不会有较大波动的,所以可以暂且认为语音信号在可允许的时间范围内是平稳的,其能量也是可估计的,因而可用短时能量来实现端点检测,其次大部分语音有清音浊音和无音三种组成,浊音是具有一定周期的脉冲串,清音则也有一定频谱曲线特征,而无音段则基本没有表征特征,因此过零率的使用可以将三者区分出来。平均能量E(i)的求法如下:N为帧长,为第 n 点语音信息的振幅能量。过零率为每帧信号穿越零电平的次数,计算公式如下:N为帧长,sgnx是符号函数,X(n)为经处理后的第n点信号。(2)双门限端点检测算法在低噪声情况下,双门限端点检测简单可靠。但在噪声较大的情况下,该方法失去判断能力,所以

14、此方法的抗噪能力较差。对于小批量孤立词语音识别,可以采用双门限端点检测算法。双门限端点检测算法的流程,如图所示语音起始点检测4、语音信号的特征提取采集的音频信号在经过预处理后,接下来就是提取信号中能反映语言信息的特征序列,提取这些样本序列有两个重要的目的:第一是经过特征提取可以更加明确的得到音频中反应语言信息的特征点,摒除掉与识别无关的一些“杂质”,从而可以得到更高的识别率,另一方面则是很有效的对音频文件进行了压缩处理,很大程度上降低了计算时间,节省了存储空间。常用的特征表述有线性预测系数(LPC)、线性预测倒谱系数LPCC和梅尔倒谱系数MFCC。(1)线性预测系数(LPC)语音信号的声道模型

15、如图所示,可以看到,语音中信号通过激励不同形状的声道模型而产生,可以用对声道的形状或模型估测出的参数得出语音信号的特征,完成语音识别。全极点线性预测模型的基本概念是(Linear PredictionCoefficient,LPC):一个语音信号能够用过去若干个语音采样的线性组合来逼近。通过使采用实际语音采样与线性预测采样之间的误差值平方和达到最小,能够唯一决定的一组预测系数称为LPC。声道模型语音信号s(n)为前面p个样本在时刻n的线性组合:其中称为p阶线性预测系数。Gu(n)是一个归一化冲击响应及其增益系数的乘积。系统输出的估为:系统的估计误差是:对该式进行z变换,可得系统转移函数:如果s

16、(n)完全由双门限端点检测系统产生,则:定义起点为n的短时语音和误差信号:则误差平方和为:存在使得的特定的p和,则这组称为最佳预测系数,即为LPC。(2)线性预测倒谱系数(LPCC)LPCC源于LPC并且利用共振的峰值原理经过倒谱计算得到,在理想的自回归假设下,利用线性倒谱分析计算LPC后就很容易得到LPCC,求解流程如图所示:线性预测倒谱系数流程图LPCC参数是一种很重要的参数,由LPC系数递推得到的,其迭代关系如下:实际上就是直流分量,不去计算,得到的即为LPCC参数。p如果没LPCC阶数大,则用第三式,其余用第二式计算。(2)Mel频谱倒谱系数(MFCC)语音有不同的频率和幅度,通过不断的实

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号