语音信息处理ppt

上传人:mg****85 文档编号:49800977 上传时间:2018-08-03 格式:PPT 页数:46 大小:1.06MB
返回 下载 相关 举报
语音信息处理ppt_第1页
第1页 / 共46页
语音信息处理ppt_第2页
第2页 / 共46页
语音信息处理ppt_第3页
第3页 / 共46页
语音信息处理ppt_第4页
第4页 / 共46页
语音信息处理ppt_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《语音信息处理ppt》由会员分享,可在线阅读,更多相关《语音信息处理ppt(46页珍藏版)》请在金锄头文库上搜索。

1、语音信号处理 Speech Signal Processing金赟 江苏师范大学物电学院第一讲 绪论1.语音信号处理的概念 2.语音信号处理的学科基础 3.语音信号处理的分支和应用 4.语音信号处理的发展历史 5.本课程的内容和特点 6.参考书目 7.学习要求1.语音信号处理的概念n语音信号处理是研究用数字信号处理技 术对语音信号进行处理的一门学科。n2.语音信号处理的学科基础语音识别声学信息论语音、 语言学 信号处理人工智能模式识别数理统计听写机查询系统电话拨号残疾人 用品 消费 电子实际应用学科基础语音识别的应用背景和学科基础 3.语音信号处理的分支和应用n语音识别n语音合成n语音编码n说

2、话人识别3.1 语音识别 (1)语音识别研究的 目的就是研究出一 种具有听觉功能的 机器,能直接接受 人口呼的命令,理 解人的意图,并做 出相应的反应。语音识别的应用语音识别技术在信息处理领域的首要的 巨大应用将在于提供了一种全新的人机 交互形式。 n苹果的Siri。nSiri恶搞,国人Siri,Siri惊魂,Siri日式 英语。n语音输入法。语音识别的分类n针对说话人:特定说话人语音识别和非 特定说话人语音识别n针对词汇量:小词汇量、中词汇量和大 词汇量的识别n针对说话方式:孤立词识别和连续语音 识别 n针对识别环境:实验室环境语音识别、 电话语音识别和广播语音识别 语音信号和自然语言的多变

3、性和复杂性(1) 连续语音词与词之间没有明显的停顿,词与词之间的分割比较困难; (2) 每一个基本的声学识别基元(如音素)受前后音素发音方式的影响(协同发音)使特征变得不稳定 (3) 不同人、不同心理和生理以及在不同的说话环境下说同一词时,声学信号特征会发生变化; (4) 一个词的读音不仅包含了词义特征,而且还包含了说话人性别、年龄、情绪等大量与词义无关的信息,而这些信息的分离是不容易的。 (5) 自然语言的多变性难以借助于一些基本语法规则进行描述,因而使计算机编程变得困难。 (6)语音信号往往受到其他信号的干扰和信道的影响。特定任意孤立 字词短语句子朗读自然 口语口语 对话小 (几十 )中

4、(几百 )大 (几千 )3.2 语音合成语音合成是将计算机自己产生的、或外部输 入的文字信息转变为可以听得懂的、流利的 口语输出的技术。 (让电脑说话)语音合成的应用1海量信息查询类业务n大部分海量信息如考试查分、征婚启事、人才信息 、电话广告等,由于其内容庞大,往往无法在短期 内完成录音,即使可以事先录音,也需要很长的制 作周期,而且在量大的时候肯定会出现人为错误; 采用语音合成技术可以节约大量人力,缩短开发周 期,而且能够完全保证了所有信息100正确。 2动态信息查询类业务n声讯节目逐渐地由现在娱乐型节目为主的节目构成 转向以应用型的节目为主,而多数的应用类节目对 实时性要求比较高,如证券

5、行情、订票、订房等, 上述应用中动态信息不可能事先录音,需要实时地 从数据库中读取,动态进行语音合成,保证信息的 实时性。 n自动报时、报警、公共汽车或电车自动报站n打印出版过程中的文本校对。n电子函件及各种电子出版物的语音阅读。 n列车惊魂,语音合成配音nTom猫咆哮体n马丁路德金演讲n大脑扫描,语音合成语音合成的例子(霍金)不能说话和做手势,如何演讲写字? 在霍金的眼镜上,约距右颊一英寸处,安装了负责 侦测肌肉活动的红外线发射器及侦测器,譬如他想 打招呼,说声“你好“,他先以眼球控制红外线感应器 ,选定在屏幕上轮流出现的英文字母,当计算机出 现他想要的“H“时,霍金再动眼球,这样计算机就会

6、 不断显示以“H“为字头的英文字,当“HELLO“出现时 ,他又动一下以选定这个字,当他造句完毕后,才 把句子传至合成器发声。因此霍金要说一句话,就 要逐字逐句输入计算机,再由语音合成器将文字化 成声音,一分钟只能处理3-5个字。 科大讯飞语音合成在线演示nhttp:/ honicShow.aspx3.3 语音编码语音编码的研究目 的是如何在尽量减 少失真的情况下高 效率地对模拟语音 信号进行数字表达 。VOIP (Voice Over Internet Protocol)语音编码的应用n数字通信系统n移动无线通信n保密语音通信3.4 说话人识别说话人识别(声纹识别 )可分为两种:l说话人辨认

7、l说话人确认n目前,声纹识别已经在证券交易、银行交易、身 份证、信用卡的认证等领域均有应用。在国外, 声纹识别技术已经取得了较为广泛的应用。美国 已把声纹识别用到保险、银行等行业,迪拜在交 通管理上使用声纹验证来确认驾驶员身份,戴尔 公司已经实施了声纹认证用于网上订购,菲律宾 政府的养老金系统现在也可以通过声纹识别来完 成身份认证。n在国内,声纹识别技术目前已广泛应用于嵌入式 系统,同时其他方面的应用也逐渐兴起,如招商 银行已经于2008年8月开始与以色列的PerSay公 司进行声纹识别方面的项目合作。 n声纹识别已成功应用在司法鉴定领域。利用 声纹识别技术确定犯罪证据,如通过分析电 话录音资

8、料来确定犯罪嫌疑人的身份和犯罪 行为等做法,已在一些刑事案件的侦破中得 到应用。美国在1971年就公开认可使用声纹 鉴定。n在国内,随着各种录音设备的普及,声音材 料的留存十分方便,因此一些案件就可以借 助声纹鉴定来协助案件的侦查和审理。声纹 鉴定已经成为国内司法鉴定机构的一种重要 技术手段,其在司法活动的某些方面已然发 挥出显著的作用。 声纹识别的应用还杰克逊一个“清白”。爆炸新闻 拉登之死。 车臣总统杜达耶夫。4.语音信号处理的发展历史n国外发展历史人们在19世纪就已经发现,元音主要是靠第 一共振峰和第二共振峰来区别,声母的感知 主要靠共振峰的弯曲方向和力度。但是,真 正的语音识别却是始于

9、1952 年,当时贝尔实 验室Davis等人通过提取语音的第一、第二共 振峰作为语音特征参数,采用专用硬件实现 了一台10个英文数字的语音识别系统Audry System。 国外发展历史n 20世纪50年代末60年代初,集成电路出现, 语音信号终端系统从模拟方式演变为全数字 系统方式,语音数字信号处理从此开始。最 早从事此项重要技术变革的 实验室有贝尔电 话实验室、麻省理工学院林肯实验室、IBM Thomas Watson研究实验室、BBN语音研究 小组和得克萨斯仪器公司,以及一些著名的 大学研究小组。n1959年,美国林肯实验室的J.W.Rogie和 C.D.Forgie首次用数字计算机识别

10、出了英语元 音和以摩擦音开头的孤立字,标志着计算机 语音识别时代的开始。 国外发展历史n 20世纪60年代,快速傅立叶变换(FFT)技 术被广泛地采用来进行频谱分析,采用其逆 变换,还可以反求源信号。在傅立叶分析的 帮助下,人们开始研究自然语音产生的内在 机制和本质特征。n瑞典的G.Fant的博士论文语音产生的声学 理论就是这个时期的代表作,对以后的语 音处理的研究工作产生了深刻的影 响。 国外发展历史n 20世纪60年代末70年代初Baum等人首次系 统地阐述了马尔可夫模型(HMM,Hidden Markov Model),并把它引入语音识别。目 前,HMM模型是语音识别的最好算法,它也 广

11、泛应用于经济学上的预测问题。 n与此同时,语音识别的线性预测参数LPC首 次被提出来,采用线性预测进行研究的实践 开始。以后的低速率语音编码技术,很大程 度上都是依靠线性预测进行来实现的。 国外发展历史n同时,动态时间弯曲DTW技术出现,有效的 解决了语音识别过程中,不等音长的匹配问 题。此时的许多系统,都是建立在LPC参数 和DTW匹配技术基础上的孤立词识别系统。n美国国防部高级计划研究局(ARPAR)的语 音识别和理解研究计划,产生了HAPPY, HEARSAY-II和DRAGON等典型的语音识别理 解系统,提出了具有深远意义的知识源黑板 模型,扩充转移网络(ATN)算法等。 国外发展历史

12、n 20世纪80年代贝尔实验室 Rabiner等人对 HMM模型进行了深入浅出的介绍,从此以后 HMM模型在语音识别领域里确立了不可替代 的地位,成为目前世界各国从事语音处理的 最有效 的方法。n矢量量化法VQ也在此时开始应用到语音识别 中。1987年,IBM公司采用VQ/HMM方案实 现了一个具有2000个孤立字的特定人语音识 别模型系统Tangora-2000。1988年CMU同样 采用VQ/HMM实现了一个具有977个词,并且 能构成4200个句子的非特定人连续语音识别 系统 SPHINX。 国外发展历史n20世界90年代,语音识别开始从实验室走向 市场。CMU、BBN、IBM和AT&T

13、都推出自己 的语音识别产品。Microsoft、 Apple、 Toshiba、Philips和Intel不甘落后,也开始致 力于语音识别系统开发。语音识别朝着大词 汇量、非特定人、自然连续语音方向发 展。 目前,Microsoft Office XP以上版本已经集成 了语音识别功能,可以采用语音输入法输入 汉字。国外主要的研究单位:n美国的CMU(卡内基梅隆大学)、MIT(麻 省理工学院)、IBM、美国电报电话公司 AT&Tn英国的 Cambridge (剑桥大学)国内发展历史n 20世界50年代,中科院声学所开始进 行语音识别研究。1972年,俞铁城先 生最早在计算机上研究语音识别。中国

14、语音识别的真正的开端应该是1978年 ,中科院声学所实现的采用带通滤波器 组参数为特征的语音识别系统RTSRS( 01)的产生。 国内发展历史n 20世界80年代,针对汉语单音节的特 点,清华大学、中国科学院、北方交通 大学、东南大学等开发了汉语特定人孤 立字全音节语音识别系统。n清华大学王作英教授提出了DDBHMM模 型。n1986年,国家863项目语音方向设立, 俞铁城先生受命筹备此项研究计划。 国内发展历史n目前,我国语音识别队伍主要有北大、清 华、中科院等。其中中科院声学所的人员 大部分是原Intel资深的工程师,因此在国 内的语音识别领域一直遥遥领先。n国内一些大公司,例如诺基亚、摩

15、托罗拉 、松下电器等, 也致力于语音识别领域 的研究。社科院长期进行实验语音学方面 的研究。 国内发展历史n目前,国际和国内在实验室条件下的识别正确率均 在90以上。实验室条件一般是采用高保真的 Sennheiser麦克风录制的语音信号,信道扭曲非常 小,几乎没有任何背景噪音。标准的数据库有 TIMIT数据库等。1991年2月NIST(National Institute Of Standards And Technology) 的测试报告结果,如果 不考虑语法约束,识别正确率为80多;考虑语法 约束后,识别率提高到90以上。这些都是非常喜 人的成果。n然而,这些结果都是在高质量的实验条件下获

16、得的 。实验证明,当语音数据简单地通过电话线传播后 ,识别正确率将会直线下跌。 国内发展历史n 1995年,林肯实验室将TIMIT数据库 (实验室条件)和NTIMIT数据库( TIMIT数据库通过电话传输录音)作了 一次说话人识别的对比,结果表 明, 当实验对象简单经过电话信道传输后, 识别正确率由原先接近100急速下降 到60多。如何在自然环境下令人满意 的进行语音识别,依旧是国内外语音学 家一个艰巨的任务。 国内发展历史n2003年,从世界主要语音识别机构电 话对话录音识别率基本是保持在70-80 之间。 国内发展历史n 2004年,我国863评测(评测结果可以看 863评测网站)小组对国内主要机构再次进 行评测,测试集取样于马路边嘈杂环境,最 低信噪比大约5分贝。在如此恶劣条件下,在 内容识别方面,中科院声学所和自动化所均 取得了约74的正确率,清华大学取得约50 的正确率,其他院校最差的取得9的正确 率。n其中,中科院的识别水平已经比较

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号