《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理

上传人:E**** 文档编号:89421264 上传时间:2019-05-25 格式:PPT 页数:54 大小:595KB
返回 下载 相关 举报
《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理_第1页
第1页 / 共54页
《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理_第2页
第2页 / 共54页
《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理_第3页
第3页 / 共54页
《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理_第4页
第4页 / 共54页
《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理》由会员分享,可在线阅读,更多相关《《多媒体计算机技术》-电子教案-任正云 第3章 音频信息的获取与处理(54页珍藏版)》请在金锄头文库上搜索。

1、第3章 音频信息的获取与处理,3.1 信号处理的基本术语,采样与量化 采样长度的选择与频率分辨率 DFT和IDFT 小波变换,采样和量化,信号的数字化处理包括两个步骤,一个是信号在时间上的离散化,即采样;另一个是幅度上的离散化,即量化。 采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t在模拟信号x(t)上逐点采取其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的,t=采样点之间的距离,采样和量化,量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的幅度值是连续的物理量。具体幅度值用舍入法归到靠近的量化电平上。 对模拟信号采样首先要确定采样间隔。如何合理

2、选择t涉及到许多需要考虑的技术因素。,采样定理,采样定理证明,不产生频率混叠的最低采 样频率 应为信号中最高频率 的两倍,,即,2,考虑到计算机二进制表示,=(2.564),方式的要求,一般取,采样长度的选择与频率分辨率,采样长度就是采样时间的长短。对周期信号,理论上采集一个周期信号就可以了。实际上,考虑信号平均的要求等因素,采样总是有一定长度的,为了减少计算量,采样长度也不宜过长。 信号采样要有足够的长度,不但是为了保证信号的完整,而且是为了保证有较好的频率分辨率。设分析频率为,,谱线数为,,则频率分辨率为,改用采样频率表示,式中,,=2.56,为采样点数,,为采样长度。,=l/,可知,对给

3、定的分析频率,采样长度(,由,即分辨率越高。 可见,频率分辨率是与采样长度呈反比的。在信号分析 中,采样点数,一般选为,,使用较多的有512、1024、2048、4096等。,)越大,,就越小,,DFT和IDFT,傅立叶分析是将原始信号分解成不同频率成分的正弦波,将时域信号转变为频域信号的一种数学方法,在信号的分析和处理中有着十分重要的作用 对数字信号,需要采用相关的离散化方法,这就是由傅立叶分析得到的离散傅立叶变换DFT,其逆变换表示为IDFT。,DFT和IDFT,设是连续函数h(t)的N个采样值,则这N个点的宽度为N的DFT定义为 IDFT定义为 称为N点DFT的变换核函数 称为N点IDF

4、T的变换核函数,小波变换,一个小波是一个在有限周期内的波形,它的平均值为零。 比较正弦波形和小波,正弦信号正是Fourier分析的基础,它没有限定的周期,它可以从负无穷扩展到正无穷,正弦信号是平滑并且是可预知的,小波信号是不规则的并且不对称。,小波变换,傅立叶分析是将信号分解为各种频率的正弦信号,类似地,小波分析是将信号分解为滑动的、与母系小波成比例的各种子波。,傅里叶变换的数学表达式为,这个变换的结果称为傅里叶系数,,它表示为信号,被一复指数(复指数可分解为实部和虚部组成的正弦成分)相 乘后在所有时间范围内的积分。,连续小波变换(Continuous Wavelet Transform,CW

5、T)定 义为信号,被小波关于比例、滑移位置函数,在所有时间内的积分。,相乘,CWT的结果包含了许多小波系数,,,position的函数。每个系数乘以合适的标度和滑移位 置小波可得出原始信号不同成分的小波。,是scale和,假定小波函数,=,,当,时,小波图形分别如图3-6所示。,图3-6 标度因素变化的曲线,=1,2,4,小波变换,小波变换可以使得信号的低频长时特性和高频短时特性同时得到处理,具有良好的局部化性质,能有效地克服傅氏变换在处理非平稳复杂信号时存在的局限性,具有极强的自适应性。 由于小波变换能够有效地解决方块效应和基本上解决蚊式噪声,所以小波变换已经成为当今图像压缩编码的主要研究方

6、向。,数字音频基础,模拟音频和数字音频,数字音频的文件格式,在多媒体计算机中,存储声音信息的文件格式主 要有WAV文件、VOC文件、MIDI 文件、AIF文件、 SNO文件及RMI文件等,波形音频,波形音频是多媒体计算机获得声音最直接、最简便的方式。 在这种方式中,通常以麦克风、立体声录音机或CD激光唱盘 等作为声音信号的输入源,声卡以一定的采样频率和量化级 对输入声音进行数字化,将其从模拟声音信号转换为数字信 号(模/数转换) ,然后以适当的格式存在硬盘上。记录下来的 声音重放时,声卡将文件中的数字信号还原成模拟信号(数/模 转换),经混音器混合后由扬声器输出。 波形文件是Windows所使

7、用的标准数字音频文件,文件的扩展 名是.WAV,记录了对实际声音进行采样的数据。 优点:在适当的硬件及计算机控制下,使用波形文件能够 重现各种声音。 主要缺点:是产生的文件太大,不适合长时间记录。,VOC文件,VOC文件是Creative公司波形音频文件格式,也是声卡使用 的音频文件格式。每个VOC文件由文件头块和音频数据块组成。 文件头包含一个标识、版本号和一个指向数据块起始的指针。 VOC格式音频文件的文件头如下: (1) 00H13H字节。文件类型说明。前19个字节包含正文: Creative Voice File。 最后是EOF字节(1AH)。 (2) 14H15H字节。其值为001A

8、H。 (3) 16H17H字节。文件的版本号。 (4) 18H19H字节。是一个识别码。由这个代码可以检验 其文件是否是真正的VOC文件。,MIDI文件,MIDI音频是多媒体计算机产生声音(特别是音乐)的另一种 方式,可以满足长时间音乐的需要。由于MIDI文件记录的不 是声音本身,因此它比较节省空间。与波形文件不同的是, MIDI文件(扩展名为.MID)并不对音乐进行采样,而是将每个 音符记录为一个数字,MIDI标准规定了各种音调的混合及发 音,通过输出装置就可以将这些数字重新合成为音乐。与波 形文件相比,MIDI文件要小得多,例如,同样半小时的立体 声音乐,MIDI文件只有200KB左右,而

9、波形文件(.WAV)则 要差不多300MB。,CMF文件,CMF文件(creative music file)也是随声卡一起诞生的,是它自带的MIDI文件存储格式。,CD音频,CD音频是一种数字化声音,以16位量化级、44. 1kHz 采样 率的立体声存储,可完全重现原始声音,每片CD唱盘能记录约 74min这种质量的音乐节目。在多媒体计算机上输出CD音频信 号一般有两种途径,一种是通过CD-ROM驱动器前端的耳机插孔 输出,另一种使用特殊连线接入声卡放大后由扬声器输出。,音频信号的特点,在多媒体系统中,音频信号可分为两类:语音 信号和非语音信号。,音频信号处理的特点如下: (1)音频信号是时

10、间依赖的连续媒体。因此音频处理 的时序性要求很高。如果在时间上有25ms的延迟,就 会感到断续。 (2)由于人接收声音有两个通道(左耳、有耳) ,因此 为使计算机模拟自然声音,也应有两个声道,即理想的 合成声音应是立体声。 (3)由于语音信号不仅仅是声音的载体,同时还携带 了情感的意向,故对语音信号的处理不仅是信号处理问 题,还要抽取语意等其他信息,因此可能会涉及语言学、 社会学、声学等。,3D音频,随着软、硬件的不断发展,传统的双声道单层面立体声音场,已经不能满足人们的需要。为了得到更好的立体感受和空间感受,科学家借助数字化音频生成了一种全新的声音-模拟3D音频。,DirectSound 3

11、D,Aureal3D,EAX,Sensaura,IAS,声卡的组成与工作原理,声卡的功能,(1)录制、编辑和回放数字声音文件录制、编辑 和回放数字声音文件。,(2)控制声音源的音量,混合后再数字化,(3)记录和回放数字声音文件时进行压缩和解压 缩以节省存储语音文件的磁盘空间,(4)文语转换与语音识别,(5) MIDI接口和音乐合成,声卡的技术指标,采样率与量化位,衡量声卡录制和重放声音质量的主要参数是采样率与量化位 (也称为分辨率或解析度) ,采样率与量化位越大,录制和重放声 音质量与原始声音就越接近。,FM合成与波形表,FM合成法就是通过正弦波相互调制来模拟真实的乐器声音。 这种方法成本较低

12、,但也导致了在游戏或音乐演奏中产生的音效 与实际的乐器明显不同。现今声卡的FM合成通常是使用日本 Yamaha公司生产的OPL-2(老式声卡上的芯片,也叫做M3812, 可合成11种单声道的声音)或OPL-3(也叫做YMF262,可合成11 种单声道的声音)合成芯片。 较好的声卡采用的是波形表合成技术来实现音乐合成(即所谓 的波表卡)。波形表包含有真实乐器声音波形的数字记录,在演 奏时将相应乐器的波形记录播放出来。为了与原有的FM合成声 卡的兼容性,波表卡上的合成芯片能完成FM合成的所有功能, 如Yamaha公司非常流行的OPL-4(可运行为较早的OPL-2和 OPL-3芯片编写的所有程序)就

13、是典型的波表合成芯片。,兼容性,外围接口,音频压缩,DSP芯片,软件支持,声卡的分类,按应用环境分类,按照声卡的应用环境,声卡基本可以分为DOS/GAME和 Windows两种环境。这两种声卡分别以Sound Blaster和 Windows Sound System为代表。前者Sound Blaster是 GAME声卡的事实标准,几乎所有的DOS环境下的游戏 都支持Sound Blaster。,从声卡的技术角度分类,从声卡所采用的技术上来看,声卡主要可分为3类:一是DSP 技术为基础的声卡。二是全硬件声卡。三是结合一类和二类两 种声卡的优点,采用有限可编程控制器,使声卡具有一定能力的 自管理

14、功能,又不至于成本太高、复杂的声卡。,根据总线的不同分类,根据总线的不同,把声卡分为两大类,一类是ISA声卡,另一 类是PCI声卡,由于两种端口不能互相通用,因此在安插声卡时 不能插错。主板上的ISA插槽是黑色的,比PCI 槽长,其中的金 属簧片也比PCI的宽;PCI插槽呈白色,相对较短,其中的簧片很 细,分布密集。,当然还可以按照声卡的组成结构分为普通声卡和集成主板 的声卡。按照声卡取样分辨率的位数不同,可分为8位声卡、准 16位声卡、真16位声卡、32位声卡等。按照声卡功能的不同, 可分为单声道声卡、真立体声声卡、准立体声卡等 。,声卡的组成和布局,MIDI/GAME端口,I/O接口,CD

15、-ROM接口,声音处理芯片,功率放大芯片,跳线和SB-link接口,声卡的组成,I/O接口,声卡的工作原理,音频卡的工作原理的主要组成部分,声音的合成与处理,混合信号处理器及功率放大器,计算机总线接口和控制器,SPDIF数字音频接口,SPDIF是SONY、PHILPS数字音频接口的简 称。,就传输载体而言,SPDIF又分为同轴和光纤两种。,就传输方式而言,SPDIF分为输出(SPDIF OUT)和输入(SPDIF IN)两种。目前大多数的声 卡芯片都能够支持SPDIF OUT。,SPDIF在多媒体声卡上应用的优势和不足,在目前的家用多媒体声卡上,SPDIF同轴电信 号输出主要用来传输Dolby

16、 Digital AC-3信号和连接 纯数字音箱。光纤输出则主要用来连接MD等数码音 频设备,以实现几乎无损的音频录制。SPDIF IN主 要应用于传输数字CD信号,也就是让计算机以数字 方式播放唱片。,SPDIF是传输通道:,数字音箱与数字声卡的关系,唱片数字式播放的问题,音频卡的发展和改进,改善声音质量,统一音频卡标准,简化安装的即插即用音频卡,三维环绕立体声,全双工声音处理,与通信技术的结合,单一芯片,音频编码基础和标准,音频编码的基础,从信息保持的角度讲,只有当信源本身具有 冗余度,才能对其进行压缩。根据统计分析结果, 语音信号存在着多种冗余度,其最主要部分可以 分别从时域和频域来考虑。另外由于语音主要是 给人听的,所以考虑了人的听觉机理,也能对语 音信号实行压缩。,时域信息的冗余度,(1)幅度的非均匀分布,(3)周期之间的相关,(2)样本间的相关,(4)基音之间的相关,(5)静止系数,(6)长时自相关函数,频域信息的冗余度,(1)非均匀的长时功率谱密度,(2)语音特有的短时功率谱密度,人的听觉感知机理,(1)人的听觉具有掩蔽效应,声

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号