[工学]8现代测试技术-语音识别技术

资源描述

《[工学]8现代测试技术-语音识别技术》由会员分享，可在线阅读，更多相关《[工学]8现代测试技术-语音识别技术（44页珍藏版）》请在金锄头文库上搜索。

1、中国石油大学信息与控制工程学院现代测试技术2011.11中国石油大学信息与控制工程学院第五章语音识别技术语音识别技术中国石油大学信息与控制工程学院第一节引言 5.1 引言中国石油大学信息与控制工程学院一、关于声音n声音的三要素 n音质声音的三要素是音调、音色和音强音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不同振幅的混合声音。音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振幅越大，强度越大。对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音

2、质与信号噪声比(SNR)有关。5.1 引言中国石油大学信息与控制工程学院n声音文件数字化的音频文件主要分为4类：波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是“.wav”。 MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名是“.mid”。 CD-DA音频文件。标准激光盘文件，扩展名是 “.cda”。压缩音频文件。在数字音频领域，一种MP3格式的压缩音频文件很流行，该格式的文件简称MP3文件。 5.1 引言中国石油大学信息与控制工程学院n获取声音获得CD中的声音录音声音转换转换成计算机能够处理的数字化声音，这就是“采样”。可以使用Easy CD-

3、DA Extractor、 CoolEdit等音频处理软件对音频进行编辑和处理。要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高的采样频率。可以使用Windows系统自带的“录音机”进行录音。声音的转换只能从高质量向低质量进行，如果要进一步处理，可采用CoolEdit(Adobe Audition）工具软件。5.1 引言中国石油大学信息与控制工程学院二、语音通信人与人之间、人与机器之间的语音信息处理过程人与人之间的语音通信(人)行动意图说话方收听方语言形成发音收听认识理解传输系统 (编码、解码)空间传播文本解析语音合成语音识别文章

4、输入(机器)语音理解计算机处理应答文生成：第一类人机语音通信问题：第二类人机语音通信问题5.1 引言中国石油大学信息与控制工程学院n计算机模拟人类交流信息的过程:(1) 将大脑产生的思想转换成语言(2) 将语言转换成相应的语音(3) 识别表达语言的语音内容(4) 理解语音所表达的语言意义自然语言生成自然语言理解语音合成语音识别5.1 引言中国石油大学信息与控制工程学院第二节语音识别技术概述 5.2 语音识别技术概述中国石油大学信息与控制工程学院一、语音识别技术语音识别（Speech Recognition）主要指让机器听懂人说的话，即在各种情况下，准确地识别出

5、语音的内容，从而根据其信息，执行人的各种意图。n语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。n语音信号处理学科的一个分支。5.2 语音识别技术概述中国石油大学信息与控制工程学院n从广义上讲，语音识别也包括了对说话人的识别，其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征（如：音律特性等），在这里专指有意义、有内容的识别。n语音识别所涉及的学科领域：信号处理、物理学（声学）、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学（研究软硬件算法以便更有效地实现用于识别系统中的各种方法）、心理学等。

6、一、语音识别技术5.2 语音识别技术概述中国石油大学信息与控制工程学院二、语音识别的重要性n计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面，从而对计算机的发展以及推广应用产生深远的影响。n基于电话的语音识别技术，使计算机直接为客户提供金融证券和旅游等方面的信息查询及服务成为可能，进而成为电子商务进展中的重要一环(Voice-Commerce)。n语音识别技术作为声控产业，必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言，语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。5.2

7、语音识别技术概述中国石油大学信息与控制工程学院三、语音识别的基本原理5.2 语音识别技术概述中国石油大学信息与控制工程学院构词规则同音字判决语法语义背景知识预处理声学参数分析测度估计失真测度语音库判决专家知识库训练识别结果反混叠失真滤波器预加重器端点检测噪声滤波器欧氏距离似然比测度语音信号输入语音识别的基本原理框图5.2 语音识别技术概述中国石油大学信息与控制工程学院n语音识别基本原理中的相关概念训练(Training)：预先分析出语音特征参数，制作语音模板 (Template)并存放在语音参数库中。识别(Recognition)：待识语音经过与训练时相同的分析，得到语音

8、参数，将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。失真测度(Distortion Measures)：在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度”。主要识别框架：基于模式匹配的动态时间规整法(DTW:Dynamic Time Warping)和基于统计模型的隐马尔柯夫模型法 (HMM:Hidden Markov Model)等。5.2 语音识别技术概述中国石油大学信息与控制工程学院三、语音识别技术分类分类原则分类结果按识别器的类型孤立单词识别连续单词识别连续语音识别按识别器对使用者的适应情况特定人语音识别非特定人

9、语音识别按语音词汇表的大小有限词汇识别（100,100-1000,1000）无限词汇识别5.2 语音识别技术概述中国石油大学信息与控制工程学院四、语音识别应用举例n嵌入式语音识别：智能玩具：语音对话娃娃、语音声控机器人智能家电：语音识别台灯、语音识别插座智能手机：语音拨号n电话语音识别：语音电话簿：电信增值智能语音总机：企业应用5.2 语音识别技术概述中国石油大学信息与控制工程学院嵌入式语音识别n嵌入式语音识别：5.2 语音识别技术概述中国石油大学信息与控制工程学院语音对话娃娃序号问句应答句1你好3条 2你叫什么名字？3条 3你从哪里来?3条 4你会什么?1条 5背首诗15首诗 6讲个故

10、事6个故事 7我要听笑话4个笑话 8唱首歌5首歌曲 9来首英文歌5首英文歌 10你喜欢玩什么？5条 11你好可爱3条 12我很喜欢你3条5.2 语音识别技术概述语音声控机器人问句回答前进前进后退后退左转左转右转右转跳舞跳舞5.2 语音识别技术概述中国石油大学信息与控制工程学院五、语音识别技术现实难度n连续语音的分割比较困难； n每一个基本的声学识别基元（如音素）受前后音素发音方式的影响（协同发音）使特征变得不稳定 n不同人、不同心理和生理以及在不同的说话环境下说同一词时，声学信号特征会发生变化； n一个词的读音不仅包含了词义特征，而且还包含了说话人性别、年龄、情绪等大量与词义无关的信息

11、，而这些信息的分离是不容易的。 n自然语言的多变性难以借助于一些基本语法规则进行描述（如方言），因而使计算机编程变得困难。 5.2 语音识别技术概述中国石油大学信息与控制工程学院六、语音识别的应用语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译n企业电话簿：会议通知、语音信箱、传真信箱、企业邮箱、信息发布、定向广告。n个人电话簿：个人邮件、数据同步、资讯定制、个人财经、业务定制。n语音门户：天气、股票、航班查询5.2 语音识别技术概述中国石油大学信息与控制工程学院第三节声纹识别技术5.3 声纹识别技术中国石油大学信息与控制工程学院n生物识别技术优势5.3 声纹识别技术

12、中国石油大学信息与控制工程学院n生物识别技术比较错误接受率错误拒绝率容易实用性处理速度/人指纹识别很低较低好2s-5s掌纹识别低5%使用困难5s-10s人脸识别低0.2%非常好5s虹膜识别很低约10%需要培训才能使用，手工操作对虹膜有困难仪器自动对准虹膜需要3s-5s，手工操作需要5s-25s视网膜识别未知未知不好15s-30s声纹识别低低可以1s-3s签名识别低10%一般5s-10s5.3 声纹识别技术中国石油大学信息与控制工程学院一、声纹识别技术定义声纹识别（又称说话人识别）是一项根据语音波形中反映说话人生理和行为特征的语音参数（声纹），并对说话人进行身份验证的生物识

13、别技术5.3 声纹识别技术能够有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定；易于从语音信号中提取；不易被模仿。中国石油大学信息与控制工程学院语音分析身份声明模型产生模型存储特征提取距离测量识别判决声纹识别系统框图输入语音识别确认训练5.3 声纹识别技术中国石油大学信息与控制工程学院谱包络参数语音信息通过滤波器组输出，以合适的速率对滤波器输出抽样，并将它们作为声纹识别特征。基于发声器官如声门、声道和鼻腔的生理结构而提取的参数：基音轮廓、共振峰频率带宽及其轨迹；线性预测系数（与声道参数模型相符合）：如线性预测系数、自相关系数、反射系数、对数面积比

14、、线性预测残差及其组合等参数；反映听觉特性的参数；如美倒谱系数、感知线性预测等；通过对不同特征参量的组合来提高实际系统的性能。n特征提取5.3 声纹识别技术中国石油大学信息与控制工程学院n何谓成功的声纹识别系统一个成功的说话人识别系统应该做到以下几点：能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定，如感冒等情况；不易被他人模仿或能够较好地解决被他人模仿问题；良好的抗噪性；声学环境变化时能够保持一定的稳定性。5.3 声纹识别技术中国石油大学信息与控制工程学院n声纹识别与语音识别的不同声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话

15、人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。声纹识别系统主要包括两部分，即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征，模式匹配的任务是对训练和识别时的特征模式做相似性匹配。 5.3 声纹识别技术中国石油大学信息与控制工程学院n声纹识别的分类类型分类：文本相关(Text-dependent)文本无关(Text-dependent)任务分类：说话人辨认(Speaker Identification)说话人确认(Speaker Verification)5.3 声纹识别技术中国石油大学信息与控制工程学院UBM

16、(Universal Background Model)，通用背景模型GMM(Gaussian Mixture Model)，高斯混合模型背景噪音（环境噪音）信道差异（固定电话，手机，麦克风）身体差异，语速快慢，时间间隔FAR（False Accept Rate），错误接受率；FRR（False Reject Rate），错误拒绝率。EER（Equal Error Rate），等错误率；即FAR=FRR时的错误率。多说话人识别，分割n声纹识别相关术语5.3 声纹识别技术中国石油大学信息与控制工程学院0.1 0.2 0.5 1 2 5 10 20 404020105210.50.20.1错误接受的概率 (%)错误拒绝的概率 (% )等错误率 (ERR)=1%平衡点减少错误接受的可能，提高系统的安全。但是由于错误拒绝率高，会给用户使用带来不便。高安全性高方便性对

展开阅读全文