多媒体课件——第二章 音频

上传人:飞*** 文档编号:56999058 上传时间:2018-10-18 格式:PPT 页数:54 大小:4.49MB
返回 下载 相关 举报
多媒体课件——第二章 音频_第1页
第1页 / 共54页
多媒体课件——第二章 音频_第2页
第2页 / 共54页
多媒体课件——第二章 音频_第3页
第3页 / 共54页
多媒体课件——第二章 音频_第4页
第4页 / 共54页
多媒体课件——第二章 音频_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《多媒体课件——第二章 音频》由会员分享,可在线阅读,更多相关《多媒体课件——第二章 音频(54页珍藏版)》请在金锄头文库上搜索。

1、联系电话:6503178,主讲教师:信息科学系 王兵,Multimedia Technology,第二章 音频,音频(声音)是表达思想和情感的一种必不可少的媒体,也是多媒体信息中一个重要组成部分。声音的种类有很多,从人的说话声、乐声到风声、雨声,当它能与文字、图像等结合,一起传递信息时,计算机世界才会变得如此丰富多彩!,目 录,数字音频基础,1,MIDI与音乐合成,2,声 卡,3,4,音频处理软件CoolEdit,语音识别技术,周期:两个相邻信号波峰之间的时间间隔 振幅:波形顶峰(或低点)与基准线的距离 频率:每秒钟内波峰的数目或周期数量(单位Hz),2.1 数字音频基础,声音是通过一定介质传

2、播的一种连续波,可通过振幅(amplitude)、周期(period)与频率(frequency)来表示波形声音。,一、声音的基本概念,声波,声音按频率分类,人类说话声音频率范围:300Hz-3kHz,2.1 数字音频基础,声音三要素,音调:与声音的频率有关,频率高则声音高,频率低则声音低。 音强:又称响度,取决于声音的幅度。也即振幅决定声音的大小和强弱。,2.1 数字音频基础,音色:由混入基音的泛音所决定的。每个基音都有其固有频率和不同音强的泛音,因此使得每个声音具有特殊的音色效果。,2.1 数字音频基础,自然界的声音大多属于非周期信号,包含一定频带的所有频率分量,其频谱是连续谱。连续谱的成

3、份使声音听起来饱满、生动。,声音的连续谱,几种常见的声音频宽,声音的方向感,声音的传播是以声波形式进行的。由于人类的耳朵能够判别出声波到达左右耳的相对时差和声音强度,所有能判断出声音的来源方向;同时也由于空间使声音来回反射,造成了声音的特殊空间效果。,声音是时基类媒体 声音具有过程性,是强实时,连续的。,二、声音的数字化,2.1 数字音频基础,1.声音信号的类型,模拟信号 :把在时间和幅度上都是连续的信号称为模拟信号。 数字信号 :时间和幅度都用离散的数字表示的信号 。,模拟信号,数字信号,2.声音数字化过程,2.1 数字音频基础,采样:在某个特定时刻对模拟量进行测量,每隔一定时间对模拟信号幅

4、值进行测量,即在时间上将模拟信号离散化。,量化:用有限个幅度值近似原来连续变化的幅度值,把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。,编码:按照一定规律,将量化后的值用二进制数字表示,然后转化成二值或多值的数字信号流。,2.1 数字音频基础,2.1 数字音频基础,3.声音数字化三要素,数据量(bytes/s )采样频率(Hz/s)量化位数(bit)声道数/8,2.1 数字音频基础,采样频率、采样精度、声道数,4.声音数字化计算公式,1.WAV文件WAV是Windows所使用的标准数字音频文件,也称波形文件 。因未经压缩,文件数据量很大。特点:声音层次丰富,还原音质好 2.MP3文件M

5、P3(MPEG Audio layer 3)是一种按MPEG标准的音频压缩技术制作的音频文件。特点:高压缩比(1 : 11),优美音质,2.1 数字音频基础,三、数字音频的文件格式,3.WMA文件WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。 特点:在压缩比和音质方面都超过了MP3 4.MIDI文件MIDI(乐器数字接口)是一组声音或乐器符号的集合。特点:数据量很小,缺乏重现自然音,2.1 数字音频基础,2.2 MIDI与音乐合成,一、MIDI简介,MIDI是一种乐器和计算机之间通话的语言。MIDI产生声音的方法与声音波形采样输入的

6、方法有很大不同。它不是将模拟信号进行数字编码,而是把MIDI音乐设备上产生的每个动作记录下来。比如我们在电子键盘上演奏,MIDI文件记录的不是实际乐器发出的声音,而是记录你弹奏时弹的是第几个键,按键按了多长时间等等,我们把这些记录的参数叫做指令,MIDI文件就是记录这些指令。就是因为这个原因,相同时间长度的MIDI音乐文件一般都比常用的波形文件(.wav)小得多。,MIDI是Musical Instrument Digital Interface(乐器数字接口)的缩写,是音乐和计算机结合的产物,用于在音乐合成器、电子乐器、计算机之间交换音乐信息的一种标准协议。,2.2 MIDI与音乐合成,二、

7、MIDI音乐制作系统结构,MIDI输入设备通过MIDI接口与计算机相连,MIDI依靠这个接口传递消息来进行彼此通信。这样,计算机可通过音序器软件来采集MIDl输入设备发出的一系列消息或指令,并记录到以mid为扩展名的MIDI文件中。在计算机上音序器可对MIDI文件进行编辑和修改。最后,将MIDI文件送往音乐合成器,由合成器将MIDI文件进行解释并产生波形,然后通过声音发生器送往扬声器播放出来。,MIDI键盘 电子琴 虚拟键盘,系统的核心设备 按照标准MIDI格式记录曲子;控制MIDI数据转换为音频输出,模拟乐器发声的设备,2.2 MIDI与音乐合成,三、MIDI合成器,合成器是一种电子设备,大

8、多情况装在声音卡上。合成器把以数字形式表示的声音转换回原来的模拟信号波形,再送回喇叭,产生声音效果,它的核心是合成器芯片。利用合成器产生MIDI乐音的主要方法是调频FM(Frequency Modulation)合成法和波形表WT(Wave Table)合成法。,调频合成法,FM合成法是20世纪80年代初由美国斯坦福大学的John Chowning发明的。FM合成法生成乐音的基本原理是,用数字信号来表示不同乐音的波形,然后把它们组合起来,再通过数模转换器(DAC)生成乐音播放。简单来说,FM合成法就是通过多个频率的声音混合来模拟乐器声音的方法。,使用FM合成法来产生各种逼真的乐音是相当困难的,

9、有些乐音几乎不能产生。目前的声卡一般采用乐音样本合成法,即波形表合成法。它把真实乐器发出的声音以数字的形式记录存储起来,播放时根据命令生成各种音阶的音符,产生高质量的声音。,2.2 MIDI与音乐合成,波形表合成法,WAVE和MIDI音乐的比较,2.3 声卡,一、声卡的功能,1声卡简介 声音卡或音频卡(Audio Card)是负责录音、播音和声音合成的一种多媒体板卡,也是计算机进行所有与声音相关处理的硬件单元。典型的产品:Creative创新公司的Sound Blaster。 2声卡的功能,录音和播放数字声音文件 控制声音的音量 对声音文件压缩解压缩 语音合成与语音识别 声音效果合成,2.3

10、声卡,二、声卡的组成原理,总线接口芯片为声卡的各个部分与系统总线提供握手信号,同时它也是命令和数据的缓冲器,在声卡与系统总线之间传输命令与数据。,音乐合成器负责将数字音频波形数据或MIDI消息合成为声音。,完成声音信号从模拟到数字和从数字到模拟的相互转换。,可以完成各种信号的记录和播放任务,还可以完成许多处理工作,如ADPCM音频压缩与解压缩运算、改变采样频率、解释MIDI指令或符号以及控制和协调直接存储器访问工作。,可以将不同途径,如话筒或线路输入、CD输入的声音信号进行混合。此外,混音器还为用户提供软件控制音量的功能。,三、声卡的I/O接口,2.3 声卡,线性输入接口(Line In):可

11、与录音机、CD唱机和音响等相连,进行播放或录音。,话筒输入接口(Mic In):可与话筒相连,进行语音的录入。,线性输出接口(Line out ):可跳过声卡的内置放大器,而连接一个有源音箱或外接放大器进行音频的输出。,扬声器输出接口(Speak Out ):从声卡内置功率放大器连接扬声器进行信号输出。,游戏棒/MIDI接口(Joystick/MIDI ):可将游戏杆或MIDI设备如MIDI键盘连接到声卡上。,2.3 声卡,四、声卡的技术指标,2.3 声卡,3. DSP芯片在一些较高档的声卡上都带有数字信号处理器(DSP)芯片,这是一种专门的数据处理器,可以通过软件编程来完成音频处理和压缩等任

12、务,从而减轻CPU的压力。,5. CD-ROM接口许多声卡提供了CD-ROM接口,使得通过音频卡直接播放CD音乐。,4. 音频压缩声卡应支持几种标准的音频压缩算法。,7. 输出声道数声道数,简言之就是此声卡芯片支持输出的音箱数量。一般可以分为单声道、双声道、4.1声道、5.1声道甚至7.1声道声卡。目前市场上主流的声卡芯片一般都支持2个以上的声道。,2.3 声卡,创新公司的5.1声卡、音箱,6. 软件支持应具有DOS和Windows环境的驱动程序以及功能强大的音频信息处理实用工具。,2.3 声卡,4.1音箱,主音箱背面(低音炮),放大,卫星音箱与主音箱连接,音箱和声卡连接线,音箱摆放,小知识,

13、如何连接4.1音箱?,2.4 语音识别技术,一、语音识别的发展历史,1952:Bell实验室研制可识别十个英文数字的语音识别器-Audry系统。 60-80:动态规划(DP)、线性预测(LP)、矢量量化(VQ)、隐马尔可夫模型(HMM)、人工神经元网络(ANN) 特定人、孤立词、小词汇量语音识别系统。 1988:卡内基-梅隆大学研制SPHINX系统 非特定人、大词汇量、连续语音。 1997:IBM公司开发出汉语ViaVoice语音识别系统。ViaVoice98-地方口音,语音识别分为训练和识别两个阶段。训练阶段是在机器中建立被识别语音的样板或模式库,或者对已存在机器中的样板或模式做特定发音人的

14、适用性修整。在识别阶段,将被识别的语音特征参量提取出来进行模式匹配,相似度最大者即为被识别语音。,2.4 语音识别技术,二、语音识别的基本原理,预处理部分包括语音信号采样,反混叠带通滤波,去除个体发音差异和设备、环境引起的噪声影响等,并涉及语音识别基元的选取和端点检测问题。,特征提取部分用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等。,训练在识别之前进行,通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。,模式匹配部分是整个语音识别系统的核心,它是根据一定的准则以及专家知识,计算输入特征与库存模式之间的相似度

15、,判断出输入语音的语义信息。,2.4 语音识别技术,三、语音识别系统的分类,语音识别研究的最终目标是要实现大词汇量、非特定人、连续语音的识别。,2.4 语音识别技术,四、语音识别软件ViaVoice,目前汉字输入的方式主要有四种:键盘输入,手写输入,扫描输入和语音输入。 键盘输入:键盘输入基本上是基于各种输入法,主要又分为字形输入法和拼音输入法。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高; 手写输入:手写输入是最容易上手的输入方法 ; 扫描输入:扫描输入对于硬件要求比较高,主要是适用于资料的整理; 语音输入:语音输入对输入人员的键盘操作能力、指法要求很低,几乎可以说你只要会

16、说汉语,就可以进行语音输入。,ViaVoice语音识别系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入150个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风,使用便利,特别适合于起草文稿、撰写文章、和准备教案,是文职人员、作家和教育工作者的良好助手。,2.4 语音识别技术,2.5 音频处理软件CoolEdit,Cool Edit 是著名的数字音频软件制作公司Syntrillium开发的一款功能十分强大的数字音频处理软件,它分为Cool Edit Pro 和 Cool Edit 2000 两个版本,前者是全功能的专业版,后者是其简化版。本节以Cool Edit Pro 2.0 中文汉化版为例简要介绍它的功能。Cool Edit Pro 2.0集成了几个相当专业且高效的音频处理工具,功能十分强大。它可以同时处理多达128路音频信号,并且可以对每一路音频信号单独进行编辑处理,加入不同的音效、特效如压缩、扩展、回响、回声、失真、延迟、放大等。它不但能处理多种声音文件的格式,还能直接从CD或VCD中摘录声音,处理后的声音还可以以各种各样的格式输出。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号