语音信号处理与现代语音通信[zhouzhou]

资源描述

《语音信号处理与现代语音通信[zhouzhou]》由会员分享，可在线阅读，更多相关《语音信号处理与现代语音通信[zhouzhou]（147页珍藏版）》请在金锄头文库上搜索。

1、语音信号处理与现代语音通信杨震博士教授、博导 2005.9,授课内容,【1】绪论【2】声音信号的分类与数字化【3】语音的发声模型和人的听觉特性【4】语音信号的时域和频域分析方法【5】语音信号的线性预测编码(LPC)技术【6】演示实验【7】各种语音处理和通信系统的质量评价体系【8】语音信号的数字压缩标准【9】语音波形编码技术-part one(ADPCM系统) 【10】语音波形编码技术-part two(VQ、SBC、APC系统) 【11】语音参数及混合编码技术-part one,授课内容,【12】语音参数及混合编码技术-part two 移

2、动通信GSM系统中的语音压缩编码技术RPE/LTP 移动通信CDMA系统和多媒体通信系统中的语音编码技术G.723.1 MP-MLQ/ACELP和G.729 CS-ACELP 【13】语音信号VBR编码技术【14】人机通信part one语音识别原理【15】人机通信part two语音合成原理【16】实用系统中的语音增强与消噪技术【17】语音压缩编码、消噪、识别与合成演示实验【18】语音在IP和ATM网络中的通信技术part one 【19】语音在IP和ATM网络中的通信技术part two 【20】语音技术研究热点,参考文献,中文 1、王柄锡 “语音编码”，西安电子科技大学出版社，

3、2002 2、杨行峻, 迟惠生 “语音信号数字处理” 电子工业出版社，1995 3、易克初，田斌，付强“语音信号处理”，国防工业出版社，2000 4、赵力 “语音信号处理”，机械工业出版社，2003 5、拉宾纳,谢佛 “语音信号数字处理” 科学出版社，1978 6、胡航 “语音信号处理”, 哈尔滨工业大学出版社,2000 7、谢依兰 “语音信号数字处理技术” 学苑出版社，1993 8、朱民雄 “计算机语音技术” 北京航空航天大学出版社，2002 9、胡光锐 “语音处理与识别” 上海科学技术出版社，1994 10、姚天任 “数字语音处理” 华中理工大学出版社，1992 11、陈尚勤等 “语言信号

4、数字处理” 电子科技大学出版社，1991 12、陈永彬, 王仁华 “语言信号数字处理” 中国科技大学出版社，1990 13、王柄锡 “变速率语音编码”，西安电子科技大学出版社，2004,参考文献,外文 1、R.P.Ramachandran, R.Mammane “Modern Methods of Speech Processing”, Kluwer Academic Publishers, 1995 2、Gordon E.Pelton “Voice Processing” Mc-Graw-Hill, Inc., 1993 3、D.P.Morgen, C.L.Scofield “Neur

5、al Networks and Speech Processing” Kluwer Academic Publishers, 1991 4、Claudio Becchetti & Lucio Prina Ricotti “Speech RecognitionTheory and C+ Implementation” 5、M.R.Schroeder “Computer SpeechRecognition, Compression, Synthesis”, Springer,1999 6、Robert D.Rodman “Computer Speech Technology”,Artech Hou

6、se,INC,1999 7、Joel Mambretti, Andrew Schmidt “Next Generation Internet:Creating Advanced Networks and Services”, Wiley,1999 8、Renato De Mori “Spoken Dialogues with Computers”,Academic Press, 1998,参考文献,外文 9、Frederick Jelinek “statistical methods for speech recognition”, MIT Press,1997 10、Randy Gol

7、dberg, Lance Riek “A Practical Handbook of Speech Coders”, CRC Press,2000 11、John R. Deller, JR. John G. Proakis, John H.L. Hansen “Discrete Time Processing of Speech Signals”, 1993 12、Rick Beasley, Mike Farley, John Oreilly, Leon Squire “Voice Application Development with VoiceXML” SAMS Publishing,

8、 USA, 2001 13、Proceedings of ICASSP (声学、语音、信号处理国际会议录) 14、IEEE Transactions on Speech and Audio Processing 15、IEEE Transactions on Signal Processing 16、Speech Communications 17、ICSLP（Spoken Language Processing）,绪论,当今世界正处于工业时代向信息时代的飞速转变时刻，在这个过程中，计算机技术、通信技术和电子信息技术的高速发展，是推动人类社会向信息社会不断进步的基础。因特网络的普及、电子购物

9、的兴起、多媒体通信及其应用的蓬勃发展，无一不是人类社会走向信息社会的标志信息的获取、处理、传输和存储，是信息社会技术发展的一个主要任务人类作为社会的主人，一直是接收和发送信息的主体语音,始终是人类互相交流、互相通信的最主要、最方便、最快捷的信息载体,语音信号处理是一门涉及面很广的交叉学科研究内容包括 1、语音特性分析和建模 2、语音数字压缩编码 3、语音识别 4、语音合成 5、语音增强 6、现代语音通信,第一章声音信号的分类与数字化,1.1 声音信号的分类语音(speech) 自然语音窄带语音, 又叫电话频带语音宽带语音非语声音频信号(audio) 广播电视质量声音 CD质量

10、声音高保真HiFi(High Fidelity)和环绕(Surrounded Effect)声音,Dolby AC3 5.1声道音响位置,第一章声音信号的分类与数字化,1.2 声音信号的特征参数 1.2.1声音的传播速度、频率、周期和波长 1.2.2声压、声功率、声强和声级 1.2.3声音三要素,音高与频率间关系,Fletcher-Munson 人耳听觉等响度级曲线,第一章声音信号的分类与数字化,1.3 声音信号的数字化常见采样频率电话通信领域的8千赫兹和16千赫兹。计算机声音处理系统中的11.025千赫兹,22.05千赫兹和44.1千赫兹。广播,影视,娱乐领域的32千赫兹,44

11、.1千赫兹和48千赫兹。,存储一分钟声音信号所需要的存储容量,第一章声音信号的分类与数字化,1.4 声音信号的数字存储格式 WAV：数字音频波形格式，微软公司开发 VOC和DAT：多用于声霸卡等一些声音采集程序的DOS软件环境，新加坡创新公司开发 AU：工作站的UNIX环境下使用 MIDI：数字乐器合成器，多用于合成音乐目前我们遇到的多数为.wav和.mid文件,第一章声音信号的分类与数字化,微软公司与IBM公司共同制定的WAV格式文件的第一个四字节是RIFF，它用来指明文件属于多媒体资源交换文件RIFF(Resource Interactive File Format)的一种. R

12、IFF文件的基本结构是块，第一个块为WAVE类型，指定文件为波形数字音频文件，第二个块为fmt块，定义文件中其它数据的格式。,第一章声音信号的分类与数字化,typedef struct_WaveFmt WORD wFormatTag; /编码方式的标记；PCM时为1 WORD nChnnels; /信道数；单声道等于0，立体声等于2 WORD nSamplesPerSec; /每秒采样数 WORD nAvgBytesPerSec; /每秒平均字节数 WORD nBlockAlign; /数据块的偏移量 fmt,第二章语音信号的产生、特征与人耳的听觉特性,2.1 语音信号的产生,人类发音器官

13、示意图,第二章语音信号的产生、特征与人耳的听觉特性,发音器官： 1)肺和气管 2)咽喉 3)声道(包括口腔、鼻腔等) 4)嘴唇,男声发音“我的语音”的时域波形和语谱图,第二章语音信号的产生、特征与人耳的听觉特性,第二章语音信号的产生、特征与人耳的听觉特性,2.2 语音信号的分类根据激励方式划分：浊音(voiced speech)，又称为有声语音基音（pitch）清音(unvoiced speech)，又称为无声语音爆破音（plosive speech）根据发音通道是否堵塞划分：元音和辅音,第二章语音信号的产生、特征与人耳的听觉特性,2.3 语音信号产生的模型语音生成模型常

14、用的有：声管模型：波动方程描述 LPC模型：数学模型描述共振峰模型：谐振腔描述,语音信号产生的简化数字模型LPC模型,级联型共振峰模型,并联型共振峰模型,混合型共振峰模型,第二章语音信号的产生、特征与人耳的听觉特性,2.4 人耳的听觉特征临界频带和Bark谱人耳的掩蔽(masking)作用指的是耳朵对一个声音的听觉感受，受到另一个声音影响的现象，Fletcher和Munson 1937年发现，一个音调(tone)可被一个以音调频率为中心频率的宽带噪声掩盖而听不见，并且，如果该宽带噪声能量不变而改变其带宽的话，这种掩盖现象不受噪声带宽变化的影响，除非噪声带宽超过一个临界值，这个临界值即称

15、为临界频带(critical band)。换言之，人耳对一个临界频带里的音不易分清。,第二章语音信号的产生、特征与人耳的听觉特性,临界频带这个参数提出的意义是可将人耳当作一个并联的滤波器组，各个滤波器有不同的带宽，分别对听觉作出不同的贡献临界频带的单位一般用Bark来表示以纪念科学家Barkhauseu。1 Bark用来指明一个临界频带的频率宽度若记Bark域的频率变量为b,赫兹(Hertz)域频率变量为f，则有：,第二章语音信号的产生、特征与人耳的听觉特性,2.5 人耳的各种听觉效应掩蔽效应,同时掩蔽（频率掩蔽）：纯音的同时掩蔽现象,第二章语音信号的产生、特征与人耳的听觉特性,非

16、同时掩蔽（时间掩蔽）：纯音的非同时掩蔽现象,第二章语音信号的产生、特征与人耳的听觉特性,2.5 人耳的各种听觉效应哈斯（Hass）效应双耳效应鸡尾酒会效应,第三章语音信号的分析方法,3.1语音信号的统计特性一、概率密度函数：超高斯随机信号；近似Gamma分布，可用 Laplace 或 Gauss分布近似二、零均三、非平稳时变信号；短时平稳：1030ms,第三章语音信号的分析方法,3.2语音信号的短时分析方法短时能量短时平均幅度短时平均过零率短时自相关函数短时傅立叶变换,第三章语音信号的分析方法,一、短时能量En和短时平均幅度Mn 浊音：大清音：较小静默：最小,第三章语音信号的分析方法,二、短时过零率Zn 浊音：较小清音：大静默：最小（如果没有背景噪声），较大（如果存在背景噪声）一般的经验数据是，对于清音语音，在

展开阅读全文