音频处理技术课件

上传人:我*** 文档编号:141435361 上传时间:2020-08-08 格式:PPT 页数:60 大小:750KB
返回 下载 相关 举报
音频处理技术课件_第1页
第1页 / 共60页
音频处理技术课件_第2页
第2页 / 共60页
音频处理技术课件_第3页
第3页 / 共60页
音频处理技术课件_第4页
第4页 / 共60页
音频处理技术课件_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《音频处理技术课件》由会员分享,可在线阅读,更多相关《音频处理技术课件(60页珍藏版)》请在金锄头文库上搜索。

1、音频处理技术,昆明理工大学计算中心,内容提要,声音的本质 声音心理学 模拟声音与数字声音 音频信号的数字化 音频处理 音乐合成与MIDI,音频信息的处理,由于人们在接收外界信息以及与他人进行交流的过程中,大约有20%是通过听觉实现的,所以音频(声音)是多媒体计算机技术中一种不可缺少的媒体。也正是由于多媒体计算机具有处理音频媒体的能力,才使得计算机走出无声的世界,像人性化迈进了一步。 音频信号的处理技术是多媒体计算机(MPC)技术的重要组成部分。同时由音频信号处理技术得来的语言、音乐播放功能也是MPC诸功能中最重要的功能之一。,在计算机应用系统中加入声音可以极大地加强计算机处理信息的效果。早期的

2、计算机以处理数值和文字信息为主,简单的声音应用也只是加入一些用扬声器报警的振铃声或者是控制音响设备。在实际应用中存在着种类繁多的声音,且需要对它们进行数值化处理。 人类获取信息的方法主要有“听”和“看”两种。看是通过眼睛读或是观察文字、图形和图像等,听则要用耳朵来接受语音、音乐及其他声音。因而在多媒体系统中加入声音功能是必不可少的,我们希望一个计算机系统既能发音又能记录各种声音,当然还要能对声音进行编辑制作。,音频信息的处理,声音心理学,1.声音的量纲 声音的振动是一种正弦波,声音的变化必须确定三件事:频率(变化的速度)、幅度(产生的压力)、相位(何时开始)。 另外一方面,人们可以感觉到声音的

3、强弱,可以感觉到歌唱家音调的高低。因此,声音的量纲分为声音的物理量纲和心理量纲。 物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象却不容易说明白,因为心理印象要由被测者的经验而定。 声音的心理属性和物理属性不可等同,首先,这些关系不是线性的;其次这些关系不是孤立的;第三这些关系不是不变的。,声音的量纲,声音心理学,2.听觉特性 等响曲线 由于响度与频率和强度有关,所以在不同频率上的强度是不同的。先设一个音为标准音,给予固定的频率、强度和持续时间,例如1000Hz、40分贝、持续0.5秒;再给一个音也持续0.5秒,但频率不同,通过调整使其响度听起来一样,得到的这样一组曲线称之为等响曲

4、线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考虑,对同一响度的声音在频率上和强度上可以有很大的差别,这对声音表现有重要意义。,声音心理学,掩蔽(masking) 声音的响度不仅取决于自身的强度和频率,而且也依赖于同时出现的其它声音。各种声音可以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难于听清。由于声音的掩蔽效果,可以欺骗人的听觉。例如,本来是多种频率的声音的复合,但听众以为是另一种声音。所以,声音的掩蔽特性常常用于声音的压缩。,声音心理学,临界频带 在频率的某一临界区里,各种声音是相互作用的,合成声音的响度由这些频率共同决定。如果超出临界区,声音的响度不再相互作用,声音的

5、响度随频率的改变而改变。这个临界区就是临界频带,其宽度视其中心频率而定。对于临界频带的确定,使得对声音响度的处理能够有的放矢。,声音心理学,相位 从声音的波形来看,声音的起点和方向也要反映声音的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声音就会得到加强。 相位的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统的声音设计上。,声音心理学,自然声音的时变现象 声音的音调分成三个区域:起始区、稳定状态区、延迟区。 研究表明,音调的频谱分量随时间改变。在稳定状态区,频谱保持固定。在起始区,振幅频谱随时间变化。因此自然声音

6、的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器,专家也会觉得较难。时变现象用于数字系统中,说明声音中的某些错误是不太容易发现的,但如果出现停顿就很容易引起人的注意。,声音心理学,听觉空间 人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出听觉空间。 方位的线索是各种声音到达两耳的精确时间和强度。,声音心理学,听觉的频谱特性 声音是时间函数,通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中,元音很少有频谱变速变化的区域。基频改变,人耳是很敏感

7、的。例如:快进的录像,音调会发生变化。 音色非常复杂,目前尚在研究中。音色的处理将使我们能识别音源,音色也代表和声音有关的主观质量。,声音心理学,声音的心理模拟 通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化(audiolization)。用声音可以表达出一些声音的效果。,音频信号处理,从人与计算机交互的角度看,音频信号的处理包括下述3点: 人与计算机通信,也就是计算机接收音频信号。包括音频获取、语音的识别和理解。 计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。 人-计算机-人通

8、信。人通过网络与异地的人进行语音通信,相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。,音频数字化,1音频的数字化与再现 在计算机中,所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保真度好,动态范围大。 数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。,多媒体中的音频信息,声音是由物体振动引发的一种物理现象。例如,讲话时声带的振动、小提琴弦的振动、扬声器纸盆的振动都会造成空气的振动,这种振动会不断地向四周传播,当被人耳接收时,我们就听到了声音。 当一种物体使空气发生振动时就产生了声音。比如

9、讲话时声带的振动、拉琴时琴弦的振动以及扬声器纸盆的振动等都会产生声音。这样的声音可以用声波来表示。声波是一条随时间变化的连续曲线。,声波,图中的基线为时间t,声波有两个基本参数,频率和振幅。 频率f是指声音信号每秒钟变化的次数,以赫兹(Hz)为单位。 与频率有关的一个参数是周期T,它是指两个相邻峰点或谷点之间的时间。周期与频率的关系是互为倒数,即f=1/T。,振幅反映了声音信号的强弱程度。一般是用分贝(dB)来表示声音的强度,它是对声音信号取对数运算后得到的值。人类能听到的声音强度在0分贝至120分贝之间。,声音媒体分为三类,波形声音:实际上已经包含了所有声音形式,这是因为计算机可以将任何声音

10、信号通过采样、量化数字化,在必要的时候,还可以准确地将其恢复。 语音:人的说话声不仅是一种波形, 而且还通过语气、语速、语调携带着比文本更加丰富的信息。这些信息往往可以通过特殊的软件进行抽取。 音乐:音乐是一种符号化了的声音,这种符号就是乐谱,乐谱则是转变为符号媒体形式的声音。,声音媒体具有三个要素,音调:与声音的频率有关,频率越快,音调就越高。,音强:又称为响度,它取决于声音的振幅。振幅越大,声音就越响亮。 音色:音色是由于波形和泛音的不同所带来的一个声音属性。 纯音一般的声音由几种振动频率的波组成,若该声音只有一种振动频率就叫做纯音; 复音由许多纯音组成,复音的频率用组成这个复音的基音频率

11、表示,一般的乐音都是复音; 基音是复音中频率最低部分的声音; 泛音在一个复音中,除去基音外,所有其余的纯音都是泛音。,声音媒体具有三个要素,几种常见的声音频宽,一般说来,覆盖频率越宽则声音质量越好。通常语音信号电话或调幅广播质量的声音已基本可以满足要求,而对于音乐则要求具有调频广播或激光唱片的声音质量。语音常用可懂度、清晰度和自然度来衡量,而音乐则要用保真度、空间感和音响效果等指标来衡量。,声音来源,多媒体中的声音主要有两种来源。 一种是由语言或音乐合成器合成的,把合成器合成的信号还原出来即为我们听到的声音。但能合成的声音总是有限的,不能全部满足我们的要求。 另一种来源是从世界上已有的声音或乐

12、曲中获得的。这里所说的获得是指把已有的音频信号经数据采集、量化后将波形形式的模拟信号转换为数字信号,再经过编码压缩后存入计算机,需要时经过解压和数模转换后还原为声音的全过程。,模拟信号与数字信号,模拟信号是一种连续变化的电信号,它用电信号模拟原有的信息。显然模拟信号的取值可以有无限多个。 数字信号是一种离散信号,它的取值是有限个,像电报系统中那样,只能用“0”和“1”来表示信号的值,数字信号不能像模拟信号那样其取值可直接与信息相对应,它是用数字信号的编码来反映信息。,模拟信号与数字信号,历史上,大多数电信号的处理一直是用模拟元部件(如晶体管、电阻、电容等)对模拟信号进行处理,但是开发一个具有相

13、当精度且不受环境变化影响的模拟信号处理元件相当困难。如果把模拟信号转换为数字信号,用数字量来表示模拟量,那么难点就发生了转移。 在数字域中作信号处理有许多优点,首先,数字信号计算是一种精确的运算方法,它不受时间和环境变化的影响。其次,仅用数学运算去模拟功能部件相对容易实现。此外,欲改变算法或改变某些功能,还可对数字部件进行再编程。 多媒体计算机音频处理技术中的一个重要内容是将声音的模拟信号转换为数字信号并进行相应的一系列计算和处理。,采样与量化,音频信号是一种典型的连续时间信号。这种信号的特点是在一个指定的时间范围内有无穷多个幅值。在某些特定的时刻对这些信号进行测量叫采样,由这些特定时刻采样得

14、到的信号称为离散时间信号。 采样得到的信号幅值是无穷多个值中的一个,这种由有限个数值组成的信号叫离散时间信号。,在时间轴上,每隔一个固定的时间间隔(虚线表示)对波形曲线的振幅进行一次取值,这被称为采样。由于曲线在振幅方向是连续的,所以必须将无限个可能的取值映射到计算机可表示的一个有限取值范围内(通常是一个整型取值范围),这被称为量化。,采样与量化,采样量化的结果将用所得到的数值序列表示原始的模拟声音信号,这就是将模拟声音信号数字化的基本过程。,采样与量化,采样频率,把声音信号自身的最高频率称为样本频率,把采集信号的频率称为采样频率。 根据采样定理,为了正确地重构原信号,采样频率至少要为样本频率

15、的两倍。 对于音频信号的采样频率一般取44.1kHz,这主要是因为音频的最高频率为20kHz。低于此采样频率则会影响声音还原的质量,即会产生失真。,影响数字化声音质量的因素,采样频率:每秒钟采取声音信号振幅数值的次数,单位是Hz。采样频率越高,数字化后的声音越接近原始声音,但需要的存储空间也越多。 量化位数:表示采样数值所使用的二进制位数。二进制位数越多,表示的数值范围越大,量化后振幅的精度越高。 声道数:有单声道和双声道两种。,音频的数字化,与数字音频相关的重要特性: 采样频率 采样频率与声音的质量关系最为紧密。采样频率越高,声音质量越接近原始声音,所需的存储量便越多。标准的采样频率有三个:

16、44.1KHz,22.05kHz,和11.025kHz。 采样位数 存放一个采样点所需的比特数。一般的采样位数为8位或16位,即把声音采集为256等份或65536等分。,数字化声音文件的大小,音频信息的获取形式,利用 Windows的“录音机”录制声音的过程: 1将麦克风插头插入声卡提供的标有“Mic” 的插口,并确认已连接好。 2点击“开始/程序/附件/娱乐/录音机”,以便打开“录音机”窗口。 3在“录音机”窗口中,点击“文件/新建”。 4点击“录音”按钮开始录音。 5点击“停止”按钮停止录音。 6点击“文件/另存为”,将刚刚录制好的声音存成一个声音文件。,“录音”需要注意的几点,1、为了使录制的声音效果更加理想,通常不要让“输入源”的声音强度过大,以避免超过量化器范围,造成大量的失真。 2、为录音选择适当的采样频率、量化位数和声道数。 3、Windows环境中提供的“录音机”,只能录制一分钟以内的声音,若要录制长度超过一分钟的声音信息,就需要选择功能更强的其他音频处理软件。,数字音频的编辑与特效处理,对于数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号