多媒体课件——第二章音频

资源描述

《多媒体课件——第二章音频》由会员分享，可在线阅读，更多相关《多媒体课件——第二章音频（54页珍藏版）》请在金锄头文库上搜索。

1、联系电话：6503178,主讲教师：信息科学系王兵,Multimedia Technology,第二章音频,音频（声音）是表达思想和情感的一种必不可少的媒体，也是多媒体信息中一个重要组成部分。声音的种类有很多，从人的说话声、乐声到风声、雨声，当它能与文字、图像等结合，一起传递信息时，计算机世界才会变得如此丰富多彩！,目录,数字音频基础,1,MIDI与音乐合成,2,声卡,3,4,音频处理软件CoolEdit,语音识别技术,周期：两个相邻信号波峰之间的时间间隔振幅：波形顶峰（或低点）与基准线的距离频率：每秒钟内波峰的数目或周期数量（单位Hz）,2.1 数字音频基础,声音是通过一定介质传

2、播的一种连续波，可通过振幅(amplitude)、周期(period)与频率(frequency)来表示波形声音。,一、声音的基本概念,声波,声音按频率分类,人类说话声音频率范围：300Hz-3kHz,2.1 数字音频基础,声音三要素,音调：与声音的频率有关,频率高则声音高,频率低则声音低。音强：又称响度，取决于声音的幅度。也即振幅决定声音的大小和强弱。,2.1 数字音频基础,音色：由混入基音的泛音所决定的。每个基音都有其固有频率和不同音强的泛音，因此使得每个声音具有特殊的音色效果。,2.1 数字音频基础,自然界的声音大多属于非周期信号，包含一定频带的所有频率分量，其频谱是连续谱。连续谱的成

3、份使声音听起来饱满、生动。,声音的连续谱,几种常见的声音频宽,声音的方向感,声音的传播是以声波形式进行的。由于人类的耳朵能够判别出声波到达左右耳的相对时差和声音强度，所有能判断出声音的来源方向；同时也由于空间使声音来回反射，造成了声音的特殊空间效果。,声音是时基类媒体声音具有过程性，是强实时，连续的。,二、声音的数字化,2.1 数字音频基础,1.声音信号的类型,模拟信号：把在时间和幅度上都是连续的信号称为模拟信号。数字信号：时间和幅度都用离散的数字表示的信号。,模拟信号,数字信号,2.声音数字化过程,2.1 数字音频基础,采样：在某个特定时刻对模拟量进行测量，每隔一定时间对模拟信号幅

4、值进行测量，即在时间上将模拟信号离散化。,量化：用有限个幅度值近似原来连续变化的幅度值，把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。,编码：按照一定规律，将量化后的值用二进制数字表示，然后转化成二值或多值的数字信号流。,2.1 数字音频基础,2.1 数字音频基础,3.声音数字化三要素,数据量（bytes/s ）采样频率（Hz/s）量化位数（bit）声道数/8,2.1 数字音频基础,采样频率、采样精度、声道数,4.声音数字化计算公式,1.WAV文件WAV是Windows所使用的标准数字音频文件，也称波形文件。因未经压缩，文件数据量很大。特点：声音层次丰富，还原音质好 2.MP3文件M

5、P3(MPEG Audio layer 3)是一种按MPEG标准的音频压缩技术制作的音频文件。特点：高压缩比(1 : 11)，优美音质,2.1 数字音频基础,三、数字音频的文件格式,3.WMA文件WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。特点：在压缩比和音质方面都超过了MP3 4.MIDI文件MIDI(乐器数字接口)是一组声音或乐器符号的集合。特点：数据量很小，缺乏重现自然音,2.1 数字音频基础,2.2 MIDI与音乐合成,一、MIDI简介,MIDI是一种乐器和计算机之间通话的语言。MIDI产生声音的方法与声音波形采样输入的

6、方法有很大不同。它不是将模拟信号进行数字编码，而是把MIDI音乐设备上产生的每个动作记录下来。比如我们在电子键盘上演奏，MIDI文件记录的不是实际乐器发出的声音，而是记录你弹奏时弹的是第几个键，按键按了多长时间等等，我们把这些记录的参数叫做指令，MIDI文件就是记录这些指令。就是因为这个原因，相同时间长度的MIDI音乐文件一般都比常用的波形文件（.wav）小得多。,MIDI是Musical Instrument Digital Interface（乐器数字接口）的缩写，是音乐和计算机结合的产物，用于在音乐合成器、电子乐器、计算机之间交换音乐信息的一种标准协议。,2.2 MIDI与音乐合成,二、

7、MIDI音乐制作系统结构,MIDI输入设备通过MIDI接口与计算机相连，MIDI依靠这个接口传递消息来进行彼此通信。这样，计算机可通过音序器软件来采集MIDl输入设备发出的一系列消息或指令，并记录到以mid为扩展名的MIDI文件中。在计算机上音序器可对MIDI文件进行编辑和修改。最后，将MIDI文件送往音乐合成器，由合成器将MIDI文件进行解释并产生波形，然后通过声音发生器送往扬声器播放出来。,MIDI键盘电子琴虚拟键盘,系统的核心设备按照标准MIDI格式记录曲子；控制MIDI数据转换为音频输出,模拟乐器发声的设备,2.2 MIDI与音乐合成,三、MIDI合成器,合成器是一种电子设备，大

8、多情况装在声音卡上。合成器把以数字形式表示的声音转换回原来的模拟信号波形，再送回喇叭，产生声音效果，它的核心是合成器芯片。利用合成器产生MIDI乐音的主要方法是调频FM(Frequency Modulation)合成法和波形表WT（Wave Table）合成法。,调频合成法,FM合成法是20世纪80年代初由美国斯坦福大学的John Chowning发明的。FM合成法生成乐音的基本原理是，用数字信号来表示不同乐音的波形，然后把它们组合起来，再通过数模转换器（DAC）生成乐音播放。简单来说，FM合成法就是通过多个频率的声音混合来模拟乐器声音的方法。,使用FM合成法来产生各种逼真的乐音是相当困难的，

9、有些乐音几乎不能产生。目前的声卡一般采用乐音样本合成法，即波形表合成法。它把真实乐器发出的声音以数字的形式记录存储起来，播放时根据命令生成各种音阶的音符，产生高质量的声音。,2.2 MIDI与音乐合成,波形表合成法,WAVE和MIDI音乐的比较,2.3 声卡,一、声卡的功能,1声卡简介声音卡或音频卡（Audio Card）是负责录音、播音和声音合成的一种多媒体板卡，也是计算机进行所有与声音相关处理的硬件单元。典型的产品：Creative创新公司的Sound Blaster。 2声卡的功能,录音和播放数字声音文件控制声音的音量对声音文件压缩解压缩语音合成与语音识别声音效果合成,2.3

10、声卡,二、声卡的组成原理,总线接口芯片为声卡的各个部分与系统总线提供握手信号，同时它也是命令和数据的缓冲器，在声卡与系统总线之间传输命令与数据。,音乐合成器负责将数字音频波形数据或MIDI消息合成为声音。,完成声音信号从模拟到数字和从数字到模拟的相互转换。,可以完成各种信号的记录和播放任务，还可以完成许多处理工作，如ADPCM音频压缩与解压缩运算、改变采样频率、解释MIDI指令或符号以及控制和协调直接存储器访问工作。,可以将不同途径，如话筒或线路输入、CD输入的声音信号进行混合。此外，混音器还为用户提供软件控制音量的功能。,三、声卡的I/O接口,2.3 声卡,线性输入接口（Line In）：可

11、与录音机、CD唱机和音响等相连，进行播放或录音。,话筒输入接口（Mic In）：可与话筒相连，进行语音的录入。,线性输出接口（Line out ）：可跳过声卡的内置放大器，而连接一个有源音箱或外接放大器进行音频的输出。,扬声器输出接口（Speak Out ）：从声卡内置功率放大器连接扬声器进行信号输出。,游戏棒/MIDI接口（Joystick/MIDI ）：可将游戏杆或MIDI设备如MIDI键盘连接到声卡上。,2.3 声卡,四、声卡的技术指标,2.3 声卡,3. DSP芯片在一些较高档的声卡上都带有数字信号处理器（DSP）芯片，这是一种专门的数据处理器，可以通过软件编程来完成音频处理和压缩等任

12、务，从而减轻CPU的压力。,5. CD-ROM接口许多声卡提供了CD-ROM接口，使得通过音频卡直接播放CD音乐。,4. 音频压缩声卡应支持几种标准的音频压缩算法。,7. 输出声道数声道数，简言之就是此声卡芯片支持输出的音箱数量。一般可以分为单声道、双声道、4.1声道、5.1声道甚至7.1声道声卡。目前市场上主流的声卡芯片一般都支持2个以上的声道。,2.3 声卡,创新公司的5.1声卡、音箱,6. 软件支持应具有DOS和Windows环境的驱动程序以及功能强大的音频信息处理实用工具。,2.3 声卡,4.1音箱,主音箱背面（低音炮）,放大,卫星音箱与主音箱连接,音箱和声卡连接线,音箱摆放,小知识,

13、如何连接4.1音箱？,2.4 语音识别技术,一、语音识别的发展历史,1952：Bell实验室研制可识别十个英文数字的语音识别器-Audry系统。 60-80:动态规划(DP)、线性预测(LP)、矢量量化(VQ)、隐马尔可夫模型（HMM）、人工神经元网络(ANN) 特定人、孤立词、小词汇量语音识别系统。 1988：卡内基-梅隆大学研制SPHINX系统非特定人、大词汇量、连续语音。 1997：IBM公司开发出汉语ViaVoice语音识别系统。ViaVoice98-地方口音,语音识别分为训练和识别两个阶段。训练阶段是在机器中建立被识别语音的样板或模式库，或者对已存在机器中的样板或模式做特定发音人的

14、适用性修整。在识别阶段，将被识别的语音特征参量提取出来进行模式匹配，相似度最大者即为被识别语音。,2.4 语音识别技术,二、语音识别的基本原理,预处理部分包括语音信号采样，反混叠带通滤波，去除个体发音差异和设备、环境引起的噪声影响等，并涉及语音识别基元的选取和端点检测问题。,特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等。,训练在识别之前进行，通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库。,模式匹配部分是整个语音识别系统的核心，它是根据一定的准则以及专家知识，计算输入特征与库存模式之间的相似度

15、，判断出输入语音的语义信息。,2.4 语音识别技术,三、语音识别系统的分类,语音识别研究的最终目标是要实现大词汇量、非特定人、连续语音的识别。,2.4 语音识别技术,四、语音识别软件ViaVoice,目前汉字输入的方式主要有四种：键盘输入，手写输入，扫描输入和语音输入。键盘输入：键盘输入基本上是基于各种输入法，主要又分为字形输入法和拼音输入法。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高；手写输入：手写输入是最容易上手的输入方法；扫描输入：扫描输入对于硬件要求比较高，主要是适用于资料的整理；语音输入：语音输入对输入人员的键盘操作能力、指法要求很低，几乎可以说你只要会

16、说汉语，就可以进行语音输入。,ViaVoice语音识别系统可用于声控打字和语音导航。只要对着微机讲话，不用敲键盘即可打汉字，每分钟可输入150个汉字，是键盘输入的两倍，是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风，使用便利，特别适合于起草文稿、撰写文章、和准备教案，是文职人员、作家和教育工作者的良好助手。,2.4 语音识别技术,2.5 音频处理软件CoolEdit,Cool Edit 是著名的数字音频软件制作公司Syntrillium开发的一款功能十分强大的数字音频处理软件，它分为Cool Edit Pro 和 Cool Edit 2000 两个版本，前者是全功能的专业版，后者是其简化版。本节以Cool Edit Pro 2.0 中文汉化版为例简要介绍它的功能。Cool Edit Pro 2.0集成了几个相当专业且高效的音频处理工具，功能十分强大。它可以同时处理多达128路音频信号，并且可以对每一路音频信号单独进行编辑处理，加入不同的音效、特效如压缩、扩展、回响、回声、失真、延迟、放大等。它不但能处理多种声音文件的格式，还能直接从CD或VCD中摘录声音，处理后的声音还可以以各种各样的格式输出。,

展开阅读全文

多媒体课件——第二章 音频

最新文档

多媒体课件——第二章音频