语音教学第4章—数字音频

资源描述

《语音教学第4章—数字音频》由会员分享，可在线阅读，更多相关《语音教学第4章—数字音频（70页珍藏版）》请在金锄头文库上搜索。

1、2019年11月1日,第四章数字音频（二）,2019年11月1日,故事,讲个故事。至于故事与各位的关联，那就请诸位见仁见智吧。,2019年11月1日,故事-草坪上的路,有一位建筑设计师在设计一幢很大的办公大楼时，设计的三个出入口都没有标明连通的道路。大楼竣工之后，他要求工人把大楼四周的空地上都种上草，任人去踩。几个月后，草坪上就分明出现了几条道，有粗有细于是建筑设计师便要求工人沿着人们踩出的路，铺就了通向大楼的道路，也有粗有细,2019年11月1日,故事-草坪上的路,建筑设计师的做法可谓独具匠心，他懂得这其中的一个重要道理：那就是顺其自然。假如一开始就设计好了通道，规定了人们行走的路

2、线，或许会给人们带来不便。最终，草地上仍然会被踩出一条条小道。,2019年11月1日,故事-草坪上的路,在开始的时候，你可以没有明确的目标，只要张开你的所有触角，去看，去读，去感受，你会不自觉地爱看一些东西，那是你的兴趣，也是你的知识结构决定的，日子久了，也会出现几条路，这些路也都可以通向你要追求的目标。学会倾听心音，让心来告诉你如何走，就不会被别人的价值观、流行的热点牵着跑。,2019年11月1日,故事-草坪上的路,同学们在选题过程中可能遇到的几种情况： 1、学生所选择的领域是导师所不熟悉的：这种情况居多，因为通常老师有10多个（有的有三四十个）学生，每个人都是一个领域，导师就很难顾过来，

3、更难给出专家级的指点更多的是给予方法论或同同学们的讨论。,2019年11月1日,故事-草坪上的路,2、老师有现成的项目，学生做力所能及的工作：如果您碰巧遇到了这种情况，祝贺您您很幸运。您避免了选择研究方向的痛苦。但您会遇到新的问题：首先您很难在短期内深入进去，其次老师对项目的认识在短期内也很难传给您，因此也有可能出现不得要领、毕业时感觉学没有学到任何东西的现象。,2019年11月1日,故事-草坪上的路,3、学生根据自己的知识结构选择研究方向，并在此基础上发展。学生自由发挥后，往往有出人意外的结果，师生都会因此欣喜。这是一种较好的方式。,2019年11月1日,故事-草坪上的路,需要强调的一点，由

4、于我们国家研究生培养体制及导师只身能力的问题，研究生期间一般采用宽松管理，导师除了几个重要的时间点以外，其余时间都需要学生自我管理。所以，学生就需要自强自立,2019年11月1日,故事-草坪上的路,研究生期间我们应该做什么 1）建立尽可能合理的知识结构：尽量广地涉猎学科基本知识，尽量深地了解所研究领域的方方面面、过去和现在。 2）掌握独立研究的方法和技能：尽量多的培养做事、学习及研究的正确方法，熟练掌握研究过程和步骤。,2019年11月1日,故事-草坪上的路,研究生期间我们应该做什么 3）学会写论文：写论文不仅是训练表达能力，更是训练思维的逻辑性。论文体例虽是八股，但却是整理思路、与他人沟通的

5、有效结构，不可不尊重。,2019年11月1日,故事从窗口望见的别人的生活,从窗口望见的别人的生活,2019年11月1日,上节回顾,我们都知道，计算机数据的存储是以0、1的形式存取的。语音信号是模拟信号。那么首先将这些电平信号转化成二进制数据保存，这就是数字音频。播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出。相比而言，数字音频具有存储方便、存储成本低廉、存储和传输的过程中失真小、编辑和处理非常方便等特点。,2019年11月1日,采样,音频的数字化过程,上节回顾（二）,2019年11月1日,上节回顾（三）,2019年11月1日,上节回顾（四）,数字音频文件的存储量(假定未经压

6、缩)为:存储量=采样频率量化位数/8声道数时间,例如，用44.1KHz的采样频率进行采样，量化位数选用16位，则录制1秒的立体声节目，其波形文件所需的存储量为多少？ 4410016821=176400(B) 每分钟数据存储量为: 176400(B) 60=10.09MB,2019年11月1日,本章内容,MIDI基本原理语音编码的基本概念语音编码算法的性能评价指标语音编码的分类数字音频的文件格式,作业,2019年11月1日,MIDI基本原理,MIDI是英语Music Instrument Digital Interface 的缩写，翻译过来就是“数字化乐器接口” 。也就是说它的真正涵义是

7、一个供不同设备进行信号传输的接口的名称。我们如今的MIDI音乐制作全都要靠这个接口，在这个接口之间传送的信息也叫MIDI信息。,2019年11月1日,2019年11月1日,2019年11月1日,所以,所谓MIDI文件实质上是指计算机中记录的MIDI信息的数据，MIDI文件的扩展名是*.mid。,它和另外一种计算机中常用的声音波形文件（*.wav文件）有什么不同呢？表面上，两种文件都可以产生声响效果或音乐，但它们的本质是完全不同的。普通的声音文件（*.wav文件）是计算机直接把声音信号的模拟信号经过取样量化处理，变成与声音波形对应的数字信号，记录在计算机的储存介质（硬盘或光盘）中。,2019年1

8、1月1日,通常，声音文件都比较大，如记录一分钟的声音（立体声、CD音质），大概需要10M的储存空间。一首几分钟的歌曲需要几十兆的硬盘，一张CD光盘只能容纳十来首歌曲。为了减少声音文件储存的空间，近年来在计算机技术上采用了压缩技术，把声音文件经过处理，在不太影响播放质量的前提下，把文件的大小压缩到原来的1012分之一，这就是近年流行的Mp3文件格式。,2019年11月1日,而MIDI文件则不是直接记录乐器的发音，而是记录了演奏乐器的各种信息或指令，如用哪一种乐器，什么时候按某个键，力度怎么样等等，至于播放时发出的声音，那是通过播放软件或者音源的转换而成的。因此MIDI文件通常比声音文件小得多，一

9、首乐曲，只有十几K或几十K，只有声音文件的千分之一左右，便于储存和携带。,2019年11月1日,MIDI信号是如何传送的？MIDI信号无论从哪儿传到哪儿都是有时间先后的，就象音乐一样，随时间的推移，音符一一“流”出才能听到完整的曲子，我们称为“MIDI数据流”。每一组MIDI数据都包含自己的时间码，并且所有的时间码都是相对的，只表示谁先走、谁后走，MIDI设备接受、处理时也会绝对遵守“先来后到”的原则。,2019年11月1日,MIDI设备在接收到MIDI数据时，首先会判断：哪些数据是给“自己”的，然后收下，交给内部其它程序处理；如果不是的，就通过MIDIThru或MIDI输出口送出，交给下一台

10、设备,2019年11月1日,对音频文件进行编码是为了（）。 A、解决字符信息的交互问题 B、使声音更动听 C、让声音不失真 D、解决可靠性问题 E、减少存储、处理和传输的成本,以上那个是最根本的出发点？,2019年11月1日,为什么要进行语音编码？,如何进行语音编码？,什么是语音编码？,语音编码的基本概念,2019年11月1日,“编码”是将源对象内容按照一定方法转换为一种标准格式内容的技术。,“解码”是和“编码”对应的，它使用和编码相同的方法将编码内容还原为最初的对象内容。,1、什么是“编码”,什么是语音编码？（一）,2019年11月1日,“编码”大体上分两类，字符编码和数据编码。字符编

11、码：解决字符信息的交互问题，如：加密信息经过加密的内容，不知道编码标准的人很难识别，已经有数千年历史了。如：电报码。信息交换如邮政编码、身份证编码等。通过计算机处理和传输如输入编码、多媒体编码等。,2、 “编码”的分类,什么是语音编码？（二）,2019年11月1日,数据编码包括：信源编码信道编码信源编码：是指将信号源中多余的信息除去，形成一个适合用来传输的信号，主要解决有效性问题。信道编码：为了使处理过的信号在传输过程中不出错或少出错，以及即使出了错也能自动检错或尽量纠错而进行的编码，主要解决可靠性问题。,什么是语音编码？（三）,语音编码属于 “信源编码”,2019年11月1日,

12、语音编码是按照某种数学方法，对原始数字音频信号流，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率的一种数字处理技术,实体,对象,条件,手段,目标,返回,什么是语音编码？（四）,2019年11月1日,语音编码的目的在于压缩数据。在多媒体语音数据的存储和传输中，数据压缩是必须的。,为什么要进行语音编码？（一）,2019年11月1日,数字音频的优势是显而易见的。而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。例如，用44.1KHz的采样频率进行采样，量化位数选用16位，则传输该立体声节目所需的数据率为多少？ 44100162=1411200

13、(bps),1411200(bps)=1411.2kbps,为什么要进行语音编码？（二）,2019年11月1日,是不是所有这些比特都是必需的呢？答案是：否,为什么要进行语音编码？（三）,2019年11月1日,如:播音员的播音语速一般为每分钟180字，由于计算机中用两个字节表示一个汉字，因此，播音员一分钟阅读的汉字共占用360个字节。为了把播音员的声音数字化，需要以高出播音员声音频率一倍的频率进行采样。这就是说，一般播音员的播音频率为3.4KHz，采样频率即为8KHz。,为什么要进行语音编码？（四）,2019年11月1日,当采用8bit的采样精度进行采样时，得到的一秒钟数字音频信号的数据

14、量为： 8KHz8bit64kb/s 则一分钟的数据量为： 64kb/s60s/min=3840kb/min（480KB）比较一下，播音员一分钟阅读的汉字共占用360个字节，两者的数据量相差一千余倍，可见数据冗余现象的严重。,为什么要进行语音编码？（五）,2019年11月1日,为什么要进行语音编码？（六）,静止系数：语音本身就是一种冗余。空间冗余：幅度的非均匀分布统计表明，语音中的小幅度样本比大幅度样本出现的概率要高。时间冗余：样本间的关联从语音波形的分析中可以看出，在相邻样本之间取样数据存在最大的相关性。如果语音信号取样速率提高，样本间相关性更强。,2019年11月1日,为什么要进

15、行语音编码？（七）,人的听觉感知机理人的听觉具有掩蔽效应人耳对不同频段的声音的敏感程度不同，对低频端的比高频端的更敏感。人耳对语音信号的相位变化不敏感。,返回,语音编码不仅必要，而且可行。,2019年11月1日,如何进行语音编码？（一）,通过对数字语音趋势的预测和冗余信息处理，进行语音数据的压缩，这样就可以使我们用较少的资源建立更多的信息。,2019年11月1日, 找出数据中存在的冗余 (重复数据、可忽略数据), 45.1kHz / Stereo 1.3MB, 22.0kHz / Nomo 0.3MB, Stop,如何进行语音编码？（二）, 找出不敏感因素,返回,2019年11月1日,

16、音频编码的主要技术指标（一）,对数字音频信息进行编码的目的是在不影响人们使用的情况下使数字音频信息的数据量最少。通常用如下5个属性来衡量：编码速率（比特率）小；语音质量高；计算复杂度低；延迟少；适应能力（坚韧性，Robustness）强。,2019年11月1日,编码速率,语音质量,计算复杂度,延迟,Robustness,音频编码的主要技术指标（二）,2019年11月1日,音频编码的分类（一）,2019年11月1日,无损压缩编码,无损压缩编码（Lossless compression coding）：又称可逆编码（Reversible Coding），是无损压缩形成的编码，具有可恢复性和可逆性，不存在任何误差。典型的无损压缩编码（可逆编码）有：霍夫曼编码、算术编码、行程编码、LZW编码等。,返回,2019年11月1日,有损压缩编码（Loss compr

展开阅读全文