多媒体音频技术剖析

资源描述

《多媒体音频技术剖析》由会员分享，可在线阅读，更多相关《多媒体音频技术剖析（68页珍藏版）》请在金锄头文库上搜索。

1、1.合理的运用各种声音会产生不同凡响的效果 2.声音与我们的生活息息相关 3.声音治疗的运用越来越普遍化,这段音频最大的缺点是什么？,本章目录,一、数字音频基础,本章目录,1、声音的概念,产生:物理现象形式：声波传播:空气等介质接受对象:人耳,本章目录,2、音频信号的分类,本章目录,2、声音按频率分类,人耳对在20004000HZ的声音最敏感,本章目录,3、常用的采样频率,本章目录,二、声音的文件格式,本章目录,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,WAV是Windows 所用的标准数字音频文件，称为波形文件，扩展名是wav，它记录了

2、对实际声音进行采样的数据，由于没有采用压缩算法，因此无论进行多少次修改和剪辑都不会失真，而且处理速度也相对较快。特点：声音层次丰富，还原音质好表现力强，但产生的文件数据量很大。,本章目录,MP3文件指的是MPEG音频层(MPEG Audio Layer 3)，是一种有损压缩，具有高达12：1的压缩率，一分钟CD音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。MP3凭借其优美的音质和高压缩比成为网上最为流行的音乐格式。,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,本章目录,WMA文件是Wi

3、ndows Media Audio的缩写，是Windows Media音频文件，它可以保证在只有MP3文件一半大小的前提下，保持相同的音质。现在大多数MP3播放器都支持WMA文件。,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,本章目录,MIDI（作曲家最爱）它与波形文件不同，记录的不是声音本身，而是将每个音符记录为一个数字，因此是所有音频格式中最小的。 MIDI音乐的音色比较单调，层次感稍差，表现力不够，因此适用于手机铃声等对音质要求不高且对存储空间有严格限制的场合。,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OG

4、G、FLAC,本章目录,RealAudio是RealNetworks公司开发的一种新型流式音频文件格式；主要有RA、RM、RAS文件格式，会因网络带宽的不同而改变声音的质量。对于28.8kb/s的连接，可以达到广播级的声音质量；如果拥有ISDN或更快连接，可获得CD音质的声音。,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,本章目录,大家都很熟悉CD 这种音乐格式了，扩展名CDA，其取样频率为44.1kHz，16 位量化位数，跟WAV一样，但CD 存储采用了音轨的形式，又叫“红皮书”格式，记录的是波形流，是一种近似无损的格式。,WAV、MP3、WM

5、A、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,本章目录,APE本质上是一种无损压缩音频格式，被压缩后的APE文件容量要比WAV源文件小一半以上，可以节约传输所用的时间，是MP3（128Kbps）文件的5倍，是现在网上比较流行的音频文件格式。APE格式受到了许多音乐爱好者的喜爱，特别是对于希望通过网络传输音频CD的朋友来说，APE可以帮助他们节约大量的资源。,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,本章目录,OGG文件：相同码率编码的OGG文件比MP3音质更好一些，文件也更小一些。另外，MP3格式是受专利保护的。发布或

6、者销售MP3编码器、MP3解码器、MP3格式音乐作品，都需要付专利使用费，而OGG就完全没有这个问题。目前，OGG虽然还不普及，但在音乐软件、游戏音效、便携播放器、网络浏览器上都得到广泛支持。OGG支持VBR和ABR编码方式，具有比特率缩放功能，还支持多声道模式,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,本章目录,FLAC文件是自由无损音频格式，它不会破坏任何原有的音频资讯，可以还原音乐光盘音质。FLAC是免费的并且支持大多数的操作系统（Windows，Linux， *BSD，Solaris，OSX，IRIX，BeOS，OS/2，Amiga）并

7、且FLAC提供了在开发工具autotools，MSVC，Watcom C，ProjectBuilder上的build系统。,WAV、MP3、WMA、MIDI、RealAudio、CD-DA、APE、OGG、FLAC,本章目录,三、声音的采集,本章目录,1.自行录制 windows录音机 2.从CD、VCD等媒体中获取 EAC、Audition、超级解霸、豪杰解霸 3.从网站或素材库中获取百度、谷歌、酷狗、千千静听,本章目录,如何通过计算机进行录音？,本章目录,录音失败的处理?,本章目录,转换采样频率?,本章目录,四、语音识别技术,本章目录,以语音为研究对象，让机器通过识别和理解，将语音信号转

8、变为相应的文本或命令，它是语音信号处理和模式识别的重要分支，涉及生理学、心理学、语言学、计算机科学以及信号处理等领域，甚至还涉及到人的体态语言（如表情、手势等），其最终目标是实现人与机器进行自然语言通信。,本章目录,1、语音识别系统的分类,本章目录,2、语音识别软件ViaVoice,一种在windows上使用的中文普通话语音识别听写系统及相应的开发工具，识别率可达95%以上，多种主题选择提高对专有名词的识别准确度。,Via voice语音中心任务栏,本章目录,3、文本-语音转换（Text-to-Speech）,文本信息转换成自然语音，最终目标是使计算机能够以清晰自然的声音和各种语言，甚至是各种

9、表情来朗读任意的文本。也就是说，要使计算机具有象人一样、甚至比人更强的说话能力，涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。,本章目录,五、Adobe Audition软件,本章目录,Adobe Audition 是由Adobe公司推出一款专业级音频工具，具有高级混音、编辑、控制和特效处理能力（音频合成、导出、剪辑、加快、慢放、降噪音、回声等多种声音特效，最多可混128个声道）,本章目录,文件列表区,显示范围区,波形显示区,选择查看区,声音播放工具,水平垂直缩放工具,本章目录,（一）、操作界面,又称视图，共有三种：单轨视图、多轨视图、CD方案视图。多轨与单轨的

10、区别是：多轨视图波形显示区显示多个音频文件轨道，其他的和单轨视图类似,本章目录,（二）、相关概念,淡入效果：声音从无到有，从弱到强，由远渐进淡出效果：从有到无，从强到弱，由进到远重叠：把剪贴板上的波形与由插入点开始的相同长度原有的波形混合替换：用剪贴板上的波形替换由插入点开始的相同长度原有的波形。,本章目录,会话：就是一个文件，可以记录在编辑过程中的各状态。回声：增加音源的数量，每几秒之后，把音源再放一次。延迟时间越大回声就越明显。回馈越大，回声的数量就越多。标准化：按原始的比例对音量进行放大或缩小。消除环境噪声：在语音停顿的地方选取一段环境噪声，让系统记录这个噪声特性，然后自动

11、消除所有的环境噪声,本章目录,（三）、Adobe Audition音频波形的处理,1获取音频波形,2. 为多媒体课件录制旁白,3波形基本编辑操作,4. 音频特效制作,编辑模式,本章目录,1获取音频波形的三种方式, “文件/打开” ，打开后编辑区直接出现文件波形。文件面板，“导入文件” 。导入后，在文件面板出现该音频文件，双击文件，在编辑区出现文件波形。在文件面板空白处双击。,本章目录,2. 音频特效制作,本章目录,倒转处理：时间上反向播放,反转处理：反相播放，波形纵向翻转,静音处理：选区波形清零,（1）最简单的音效,本章目录,（2）音量的增减和渐变,本章目录,左增益：决定左声道增益大小

12、。右增益：决定右声道增益大小。链接左右：将左右声道关联，关联后若调整左声道振幅增益情况，右声道也将随之变化。电源开关：点亮此开关后呈绿色，代表振幅增益处理起作用，关闭此开关后呈灰色，代表振幅增益处理不起作用。,预览播放/停止按钮,本章目录,预览（preview）：单击它可以听到处理后的效果，再单击它则停止预听。旁路（bypass）：指音频信号不经过效果处理而直接输出，选中此选项后，在预览操作中只能听到音乐原始效果。预设（preset）：audition中预制的效果。,本章目录,（3）降噪处理,本章目录,预设中给出三种不同级别的Hiss降躁标准，分别相应于不同的参数设置，降躁处理时

13、根据不同的情况选择不同的标准。,选择左或右决定咝声降低情况显示窗中显示左声道或右声道的咝声降低情况。,嘶声抑制该方法主要针对“咝咝”声进行降噪处理选中有“咝咝”声噪音音频文件。执行“效果”/“恢复”/“咝声抑制”命令,本章目录,“自动清除喀喇或爆音”此方法主要针对类似“咔嗒”声、“噼啪”声以及“嘭嘭”声之类的短时间突发爆破音进行降噪处理选中有“咔嗒”声、“噼啪”声以及“嘭嘭”声等噪音音频文件。执行“效果”/“恢复”/“自动清除喀喇或爆音”命令,噪音阈门：该值决定了查找并消除的噪音量的多少。数值越小则代表查找并消除的噪音越多。值得注意的是，过小的数值会对音乐造成损伤。复杂度：该值代表着降噪

14、处理的精细复杂程度。数值越大则代表处理程度越精细复杂。但过大的数值会对音乐造成损伤。,本章目录,采样降噪处理针对的躁音大多是连续的、稳定的、不会有明显变化的。如录音环境中的走路声、扫地声、远处的人声等躁音选择含有噪音的音频波形，执行“效果”/“恢复” /“采集降噪预置噪声”（采集噪音样本）命令，采集当前的噪音样本并作为采样降噪的样本依据。选中全部音频波形，执行“效果”/“恢复” /“降噪”命令,噪音样本显示窗：以频率为横坐标显示出噪音样本各频段的电平情况,降噪曲线：决定着高、中、低频的降噪程度,重置：将降噪曲线重置为平直线，代表高、中、低频均匀降噪。,本章目录,记录比例（Log显示方式）

15、：勾选则以对数为横坐标显示,实时更新：勾选显示窗将会随着降噪程度改变而实时改变。,降噪电平：决定降噪的程度。越靠右，降噪程度越大,本章目录,采集预置文件：将把选中音频作为噪音样本进行采集。,采用样本值（快照）：降噪所使用的样本数量。值越大去除的噪音越多，对音乐本身影响也越大。一般情况下，我们可设置在4000左右。,读取已保存的噪音样本文件,保存当前采集噪音样本,本章目录,衰减度（降为）：降噪衰减声压级，通常设置为6dB-40dB。精度系数：该值对失真情况产生影响，通常设置在5以上。平滑量：决定着降噪中各频率段之间的连接程度，通常设置为l比较合适。过渡宽度；该参数在实际中较少使用，通常设置在数值O。频谱衰减率：决定声音低于噪音电平时的频率衰减程度，通常设置在40%-75间。,本章目录,（4）均衡处理是指对声音内的不同频率成分做不同的音量增减处理,本章目录,主控增益对经过EO均衡器处理后的音频总体音量进行提升或衰减。,EO均衡器,本章目录,（5）混响效果,声波经过建筑墙壁、天顶等的多次漫反射后形成的一系列音场效果称之为混响。混响效果器是为录制的“干声”添加音场感，使之饱满动

展开阅读全文