多媒体信息处理技术音频处理技术

资源描述

《多媒体信息处理技术音频处理技术》由会员分享，可在线阅读，更多相关《多媒体信息处理技术音频处理技术（13页珍藏版）》请在金锄头文库上搜索。

1、1、媒体和多媒体媒体（Media）是人与人之间实现信息交流的中介，简单地说，就是信息的载体，也称为媒介。多媒体就是多重媒体的意思，可以理解为直接作用于人感官的文字、图形、图像、动画、声音和视频等各种媒体的统称，即多种信息载体的表现形式和传递方式。其实在传播学中，使用媒价来表示传递信息的手段、方式或载体，用媒体来表示传播活动的组织、机构或人员，但人们在计算机中已经约定俗成的使用多媒体来表示信息的手段、方式或载体，比如视频，音频等。2、多媒体的特点：（ 1）集成性能够对信息进行多通道统一获取、存储、组织与合成。（2）控制性多媒体技术是以计算机为中心，综合处理和控制多媒体信息，并按人的要

2、求以多种媒体形式表现出来，同时作用于人的多种感官。（3）交互性交互性是多媒体应用有别于传统信息交流媒体的主要特点之一。传统信息交流媒体只能单向地、被动地传播信息，而多媒体技术则可以实现人对信息的主动选择和控制。（4）非线性多媒体技术的非线性特点将改变人们传统循序性的读写模式。以往人们读写方式大都采用章、节、页的框架，循序渐进地获取知识，而多媒体技术将借助超文本链接（Hyper Text Link）或其他方法，把内容以一种更灵活、更具变化的方式呈现给读者。（5）实时性当用户给出操作命令时，相应的多媒体信息都能够得到实时控制。（6）信息使用的方便性用户可以按照自己的需要、兴趣、任务要

3、求、偏爱和认知特点来使用信息，任取图、文、声等信息表现形式。（7）信息结构的动态性 “多媒体是一部永远读不完的书”，用户可以按照自己的目的和认知特征重新组织信息，增加、删除或修改节点，重新建立链。3、多媒体系统的组成多媒体硬件系统、多媒体操作系统、媒体处理系统工具和用户应用软件。（1）多媒体硬件系统：包括计算机硬件、声音 /视频处理器、多种媒体输入/输出设备及信号转换装置、通信传输设备及接口装置等。其中，最重要的是根据多媒体技术标准而研制生成的多媒体信息处理芯片和板卡、光盘驱动器等。（2）多媒体操作系统：或称为多媒体核心系统（Multimedia kernel system），具有实

4、时任务调度、多媒体数据转换和同步控制对多媒体设备的驱动和控制，以及图形用户界面管理等。（3）媒体处理系统工具：或称为多媒体系统开发工具软件，是多媒体系统重要组成部分。（4）用户应用软件：根据多媒体系统终端用户要求而定制的应用软件或面向某一领域的用户应用软件系统，它是面向大规模用户的系统产品。4、多媒体计算机具有多媒体信息处理能力的计算机，早期的计算机一般只支持文字和数字，信息的交流方式比较单一。现在的计算机包括PC机都已经具备了多媒体信息的处理能力。5、媒体播放器在WEB中的应用由于声音点播和影视点播应用还没有完全直接集成到现在的 Web 浏览器中，所以需要一个单独的应用程序来帮助，

5、通常我们使用媒体播放器（Media player）来播放声音和影视。典型的媒体播放器要执行好几个功能，包括解压缩、消除抖动、错误纠正和用户播放等功能。现在可以使用像插件这种技术把媒体播放器的用户接口放在 Web 客户机的用户界面上，浏览器在当前 Web 页面上保留屏幕空间，并且由媒体播放器来管理。目前，大多数客户机使用如下几种方法来读取声音和影视文件：（1）通过Web浏览器把声音/影视从Web服务器传送给媒体播放器；（2）直接把声音/影视从Web服务器传送给媒体播放器；（3）直接把声音/影视从多媒体流放服务器传送给媒体播放器；在这个过程中，媒体播放器的主要功能表现在如下四个方面：（1

6、）解压缩：几乎所有的声音和电视图象都是经过压缩之后存放在存储器中的，因此无论播放来自于存储器或者来自网络上的声音和影视都要解压缩。（2）去抖动：由于到达接收端的每个声音信息包和电视图象信息包的时延不是一个固定的数值，如果不加任何措施就原原本本地把数据送到媒体播放器播放，听起来就会有抖动的感觉，甚至对声音和电视图象所表达的信息无法理解。在媒体播放器中，限制这种抖动的简单方法是使用缓存技术，就是把声音或者电视图象数据先存放在缓冲存储器中，经过一段延时之后再播放。（3）错误处理：由于在因特网上往往会出现让人不能接收的交通拥挤，信息包中的部分信息在传输过程中就可能会丢失。如果连续丢失的信息

7、包太多，用户接收的声音和图象质量就不能容忍。采取的办法往往是重传。（4）用户可控制的接口：这是用户直接控制媒体播放器播放媒体的实际接口。媒体播放器为用户提供的控制功能通常包括声音的音量大小、暂停/重新开始和跳转等等。1、声音的物理特征声音一般可能通过连续的波形来表示，波形的最大位移也就是振幅反映音量（音高、响度或强度）。波形中连续两个波峰或波谷之间的时间距离称为周期，周期的倒数称为频率。频率用 Hz 表示，用来反映声音的音调。另外，由于不同材质，不同的环境，所产生的声音所伴随的泛音也不同，所以也就产生了声音的音色特征。响度的大小决定于发声体振动的振幅,音调的高低决定于发声体振动的频

8、率,音色的不同取决于不同的泛音，每一种乐器、不同的人以及所有能发声的物体发出的声音，除了一个基音外,还有许多不同频率的泛音伴随,正是这些泛音决定了其不同的音色,使人能辨别出是不同的乐器甚至不同的人发出的声音。（1）低于20 Hz的声音称为次声（2）频率范围在20 Hz20 kHz范围的可听声称为音频（3）频率高于20 kHz的称为超音频（或超声）人的发音器官发出的声音频段在80Hz到3400Hz之间,人说话的信号频率在300到3000Hz, 有的人将该频段的信号称为语音信号。音质是指声音的品质,主要是衡量声音的上述三方面是否达到一定的水准。即相对于某一频率或频段的音高是否具有一定的强度

9、,并且在要求的频率范围内、同一音量下,各频点的幅度是否均匀、均衡、饱满,频率响应曲线是否平直,声音的音准是否准确,既忠实地呈现了音源频率或成分的原来面目,频率的畸变和相移又符合要求。声音的泛音适中,谐波较丰富,听起来音色就优美动听。用声音信号的带宽来衡量,分为五级。客观质量度量：用信噪比（signal to niose ratio, SNR）衡量，建立在度量均方误差的基础上，计算简单,但不能完全反映人对语音质量的感觉。主观质量度量：用平均意见得分（mean opinion score, MOS）评价分数质量级别失真级别5优(Excellent)无察觉4良(Good)（刚）察觉但不讨

10、厌3中(Fair)（察觉）有点讨厌2差(Poor)讨厌但不反感1劣（Bad）极讨厌（令人反感声音按频率可分为三类：2、音频（1）音频（Audio）是指频率在20Hz20kHz范围内的可听声音，是多媒体信息中的一种媒体类型一一听觉类媒体。目前多媒体计算机中的音频主要有波形音频、CD音频和MIDI 音乐3 种形式（这3 种形式全部都是数字音频，因为计算机所能处理的只有数字信号，所以只能以数字化的方式存储音频数据，如果是模拟式的声音，要首先经过抽样、量化和压缩编码等过程形成数字化音频，再由计算机进行存储及其他操作等）。反映数字化音频的质量的因素有采样频率、量化位数和声道数3 个参数决定。声道个

11、数是指记录声音时，如果每次生成一个声波的数据，称为单声道；每次生成二个声波数据，称为双声道（立体声）；每次生成二个以上声波数据，称为多声道（环绕立体声）。数字音频等级信号娄型频率范围釆样率迸KHJ量化精度（采样位数电话话音2003400S13-16宽带话音5070001616调频广播2O.-15lJ|3216高质量音频20-201: |44.116（2）声音的数字化和编码计算机处理音频信号之前，必须将模拟的声音信号数字化，产生数字音频。具体过程包括采样、量化、编码。数字化音频的过程如TS所示。1I J核拟音频唱1卽号（b）音频信母的采样ZX一n(c）采样信号的量化采样是每间隔一段时间读取

12、一次声音信号幅度，使声音信号在时间上被离散化。采样频率：是指将模拟声音波形数字化时，每秒钟所抽取声波幅度样本的次数，其计算单位是kHz（千赫兹）。一般来讲，采样频率越高声音失真越小，用于存储数字音频的数据量也越大。奈奎斯特（Nyquist）采样定律：采样频率不应低于声音信号最高频率的两倍，就能把以数字表达的声音还原成原来的声音。例如，电话话音的信号频率约为3.4kHz,采样频率就选为8kHz；高质量声音采样频率为44.1kHz。量化：就是把采样得到的声音信号幅度转换为数字值，是声音信号在幅度上被离散化。量化位数是每个采样点能够表示的数据范围，常用的有8位、 12位和16位。编码：音

13、频数据压缩编码的方法有多种，可分为无损压缩和有损压缩两大类。无损压缩主要包含各种熵编码；而有损压缩则可分为波形编码、参数编码、感知编码和同时利用多种技术的混合编码，图4-4 给出了音频数据压缩编码的主要方法。波形编码是在模拟音频数字化（抽样和量化）的过程中，根据人耳的听觉特性进行编码，并使编码后的音频信号与原始信号的波形尽可能匹配，实现数据的压缩。参数编码把音频信号表示成某种模型的输出，利用特征提取的方法抽取必要的模型参数和激励信号的信息，且对这些信息编码，最后在输出端合成原始信号。混合编码介于波形编码和参数编码之间，集中了这两种方法的优点，可在较低的码率上得到较高的音质。音频采样

14、的数据量有两方面因素决定：（1）音质因素，由采样频率、量化位数和声道数 3 个参数决定。（2）时间因素，采样时间越长，数据量越大。3、音频卡多媒体计算机系统中都有音频信号处理功能，但实现方法各不相同。美国苹果公司的 Macintosh 计算机一开始就被设计成具有音频处理能力的多媒体计算机，而使用 Windows 平台的 PC 系列机，起初没有声音处理能力，而是通过扩充一个专门的音频处理部件音频卡来实现其声音处理的。音频卡的功能：（1）录制和播放数字声音文件（2）控制音量和混音效果（3）声音文件的压缩与解压缩（4）MIDI 接口与音乐合成音频卡的组成和工作原理有的音频卡不再提供 Li

15、ne-Out 插孔，一些新的音频卡产品追求功能的简单和较好的音效，所以简化了原来声卡上的 MIDI 和游戏杆功能，使之成为专门的声音处理部件。4、音频采集在Wind2K系统中，提供了录音参数的选择设置功能，其中的音质选择分为CD音质、电话质量、收音质量和 Default Quality4 种。还可以选择不同的采样频率、位宽和声道。为了防止录音过程中出现失真，可通过 “音量控制”对话框来检测、调节进入计算机的音源强度。 windows 中的录音机只能录 60s 的音频数据，可以借助专业的音频处理软件进行音频录入，不但能够提供不限时长的录入功能，还可以使用不同的编码进行压缩存储。获取音频数据的另外一个方法是从不同的多媒体产品中直接抓取音轨信息，转换并压缩成自己所需的音频格式。一般的音频工具软件都具有直接抓取音乐 CD 的能力，而另一些软件则可以从更多媒体格式中抓取音轨。音频编辑一般包括音频内容剪切、合成以及音质和效果的编辑等方面（1）多音轨（Multiple Tracks）（ 2）切边（ Trimming）（ 3）拼接和组合（ Splicing and Assembly（ 4）音量调节（ Volume Adjus

展开阅读全文