[材料科学]第5章音频技术

上传人:bao****ty 文档编号:118696451 上传时间:2019-12-23 格式:PPT 页数:95 大小:1,003.17KB
返回 下载 相关 举报
[材料科学]第5章音频技术_第1页
第1页 / 共95页
[材料科学]第5章音频技术_第2页
第2页 / 共95页
[材料科学]第5章音频技术_第3页
第3页 / 共95页
[材料科学]第5章音频技术_第4页
第4页 / 共95页
[材料科学]第5章音频技术_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《[材料科学]第5章音频技术》由会员分享,可在线阅读,更多相关《[材料科学]第5章音频技术(95页珍藏版)》请在金锄头文库上搜索。

1、第 5 章 音频技术 音频也是多媒体应用的重要组成部分。 现实世界的声音来源是相当复杂的,声音不仅与时间和 空间有关,还与强度、方向等很多因素有关。在计算机中 创建音频时,所能模拟的声音还必须要符合人类的听觉特 征和听力范围。 数字音频主要分为声波、语音和音乐三类。 要模拟出符合现实世界的数字声音,我们首先得了解 声音的基本特性: 包括声音的物理特性和人们在听觉方面的心理特性.以 便创建出一定格式的数字声音编码,满足人们对模拟声音在 采集、处理、质量等各方面的需求。 5.1 声音 5.1.1 声音的物理特征 声音是纵波。决定声波的物理特性有振幅、频率和相位。 一个声源每秒钟可产生成百上千个波,

2、我们把每秒钟波峰所发生的数目称之 为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度是从信号的基线 到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对 音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。 1.声音的强度 在1kHz频率的正弦波中,能被人耳察觉的最弱声压大约是2.8310- 4dyn(达因)/cm2,这个最弱音已经作为国际标准的参照声。 描述声音强度的量值是采用分贝表示: 分贝是指两个相同的物理量(例A1和A0)之比,取以10为底的对数并乘 以10(或20)。 N = 10lg(A1/A0) 分贝符号为“dB”。 N是被量度量的“级

3、”。,这也被称为 声压级。 A1是被量度量 。 A0是基准量 如果2.8310-4dyn/cm2被看作0dB 那么在特别安静的环境中,单独检测:动物的呼吸声大约 20 dB,人们正常的谈话声约60dB,汽车的喇叭声约 100dB,飞机起飞的声音约120 dB 120dB以上的强度可使人产生痛苦的感觉。 一般人的听力范围是 20Hz20kHz。这个频率区域称为可闻 声段,大致可分为低频、中频和高频 低频的频率约在250500 Hz(如鼓声) 中频的频率约在10002000 Hz, 高频的频率约在30004000 Hz(如哨子声)。 2.频率是指物体每秒钟振动的次数。 我们听到的声音都是物体振动后

4、会产生声波 不同的振动频率将会产生不同的声波。 低于20Hz和高于20kHz的频率段分别称为次声和超声。 瞬时T 3.相位是波形的变化方向,如果是多个波形组合,起始 相位可以相同或不同。 在某一个瞬时T,不同波形的相位都可以是不同的。 右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波 形。 规则音频是一种连续变化的模拟信号,可用一条连续的曲线 来表示,称为声波。因声波是在时间和幅度上都连续变化的量 ,我们称之为模拟量。 5.1.2 声音的听觉心理特性 对于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和 语言声学内。 听觉心理的主观感受主要有:响度、音高、音色、音量、密度、 谐

5、和、噪声、掩蔽效应、高频定位。 响度、音度、音色:可以在主观上用来描述任何复杂的声音 而对于多种音源场合:人的耳掩蔽效应等特性尤为重要。 1)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高, 反之亦然。 当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音 的音调提高了。同样,在使用音频处理软件对声音的频率进行调整时,也可明显感到音 调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音 调,则声音会发生质的转变,使人们无法辨别声源本来的面目。 2)音色:即特色的声音。 声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复

6、音则是具 有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低 频率的声音是“基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音。 基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐 器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。 3)音强:声音的强度,也被称为声音的响度,常说的“音量”也是指音强 。 音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其 他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变 聆听时的响度。 等响曲线 响度表示人们所感觉到的声音能量的强弱,主要取

7、决于声波振幅的大 小,物理上声压级的值一般不等于响度级的值。 声音的感知响度1 sone 相当于40分贝的音调在1kHz下的响度。 响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响 度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强 到一定程度,人耳都无法听到。 实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图所示,闻阈和痛 阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围。 声压级 可闻阈的分 贝值 频 率 Hz 就是说,小于0dB闻阈和大于140dB痛阈时为不可听声。 这些等响度曲线表明了听觉在有些频率下较为灵敏。 所谓“等响” 就是对于1kHz以外的可

8、听声,在同一级等响度曲线上有无数个等效 的声压频率值, 例如,200Hz的30dB的声音和1kHz的10dB的声音在人耳听起来具有 相同的响度。 高频段的响度变化与声压级增量基本一致,低频段声压级的微小变化会导 致响度的较大变化。 在较低的声压级上,等响上曲线各频率声音的声压级相差很大, 较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。 这说明:在响度级较小时,高、低频声音灵敏度降低较明显,而低频 段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。 听觉觉的掩蔽效应是一个较为较为 复杂杂的心理和生理现现象,包括人耳的频域 掩蔽效应应和时域掩蔽效应应。而且人耳对对声音源方向

9、的辨别别能力,也与 频频率的高低有关。 由于对对于2KHZ以上的高频频声音信号,人耳很难难判断其方向性,因而在 数字处处理时时,就可以不必重复存贮贮立体声广播的高频频部分。 屏蔽是指 一个弱声音被另一个强声音所遮盖。 当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被火车声 所遮盖。当两个声音在时间和频率上很接近的时候,屏蔽效应就会较很强。当 强声音的频率与弱声音相同或更高时,屏蔽效应最有效。 屏蔽 如果同时存在的是两个纯音 实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其频率附 近,另一种是低频的纯音可以有效地掩蔽高频的纯音。 如果同时存在的是噪音和纯音 情况

10、较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。 临界频带 当某个纯音被以它为中心频率且具有一定带宽的连续噪声所屏蔽 时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功 率,那么这个带宽就称为临界频带宽度。 但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与 表中跨越多个临界频带的声音感知程度是不相同的。 可以说明人类的听觉对声音的感知特性。 表5-1列出的是在20Hz16kHz范围内,通常可分出的24个子临界 频带。 人耳对同一个临界频段内频率的听觉和感知是较接近的。 5.1.3 声音的数字原理 模拟声音的信号是个连续量,由许多具有不同振幅和频率的正弦波组成

11、 。实际声音信号的计算机获取过程就是声音的数字化的处理过程。 声音的模/数转换(ADC),首先需对声波采样,用数字方式记录声音。图中 横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实 现这个过程的装置就被称为模/数转换器。 声音的数/模转换(DAC)即由数字声音变成模拟的波形。 音频系统是将声波波形转换成的连续的二进制数据来还原声音的 。实现这个过程的装置被称为数/模转换器。 3.1.2 模拟音频的数字化过程 数字化的声音易于用计算机软件处理,现在几乎所有的专业 化声音录制、编辑 器都是数字方式。对模拟音频数字化过程涉及 到音频频的采样样、量化和编码编码 。 采样和量化的过程

12、可由A/D转换器实现。A/D转换器以固定的频率 去采样,即每个周期测量和量化信号一次。经采样和量化后声音信 号经编码后就成为数字音频信号,可以将其以文件形式保存在计算 机的存储介质中,这样的文件一般称为数字声波文件。 信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的 序列可以完全代表一个连续函数,这是采样定理的基本内容。 为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法 称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的 波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。 该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机 每秒

13、钟采集多少个声音样本。 1. 采样 采样频率与声音频率之间有一定的关系,根据奈奎斯特( Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才 能把数字信号表示的声音还原成为原来的声音。 采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形 切成若干个等分的数字化问题,但是还需要用某种数字化的方法来 反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低 。我们把对声波波形幅度的数字化表示称之为“量化”。 量化的过程是先将采样后的信号按整个声波的幅度划分成有限 个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的 量化值。如何分割采样信号的幅度呢? 我们还是采取二进制

14、的方式, 以位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为 记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其 幅度大小。 2. 量化 以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为 1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10 个量化等级,并将其采样的幅度值取最接近0 9之间的一个数来表示,如 下图所示。图中每个正方形表示一次采样。 D/A转换器从上图得到的数值中重构原来信号时,得到下图中 蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形( 红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的

15、信 号波形有较大的失真。 失真在采样过程中是不可避免的,如何减少失真呢?可以直观地 看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高 的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减 少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍, 分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等 级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看 出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真 明显减少,信号质量得到了提高。 模拟信号量经过采样和量化以后,形成一系列的离散信号 脉冲数字信号。这种脉冲数字信号可以一定的方

16、式进行编码, 形成计算机内部运行的数据。所谓编码,就是按照一定的格式 把经过采样和量化得到的离散数据记录下来,并在有用的数据 中加入一些用于纠错、同步和控制的数据。在数据回放时,可 以根据所记录的纠错数据判别读出的声音数据是否有错,如在 一定范围内有错,可加以纠正。 编码的形式比较多,常用的编码方式是PCM脉冲调制。 脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调 制方式,即把连续输入的模拟信号变换为在时域和振幅上都离 散的量,然后将其转化为代码形式传输或存储。 3. 编码 5.1.4 数字声音质量的主要因素 影响数字化声音质量的因素主要有三个,即采样频率,采样精度和通道个数。 1.声音的采样精度 采样精度,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的 位数。换句

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号