第2章数字音频处理第二次课

上传人:公**** 文档编号:587212814 上传时间:2024-09-05 格式:PPT 页数:89 大小:1.26MB
返回 下载 相关 举报
第2章数字音频处理第二次课_第1页
第1页 / 共89页
第2章数字音频处理第二次课_第2页
第2页 / 共89页
第2章数字音频处理第二次课_第3页
第3页 / 共89页
第2章数字音频处理第二次课_第4页
第4页 / 共89页
第2章数字音频处理第二次课_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《第2章数字音频处理第二次课》由会员分享,可在线阅读,更多相关《第2章数字音频处理第二次课(89页珍藏版)》请在金锄头文库上搜索。

1、 第第2章章 数字音频处理数字音频处理 本章重点本章重点: :n模拟音频与数字音频的概念模拟音频与数字音频的概念n数字音频的获取数字音频的获取n音频信号压缩编码标准音频信号压缩编码标准n音乐合成和语音识别音乐合成和语音识别 第第2章章 数字音频处理数字音频处理n2.1概述概述n2.2数字音频的获取数字音频的获取n2.3音频信号压缩编码标准音频信号压缩编码标准n2.4音乐合成和音乐合成和MIDIn2.5语音识别语音识别n2.6实例实例 VC+播放声音的实现播放声音的实现n2.7本章小结本章小结2.12.1概述概述声音是携带信息的重要媒体。研究表明,人类从声音是携带信息的重要媒体。研究表明,人类从

2、外部世界获取的信息中,外部世界获取的信息中,10%10%是通过听觉获得的是通过听觉获得的, ,因此声音是多媒体技术研究中的一个重要内容。因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的,这种振动引起周围空声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。气压强的振荡,从而使耳朵产生听觉的印象。声音的种类繁多,人的语音是最重要的声音。此声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。雷声等自然声音,以及机器合成产生的声音等。

3、2.12.1概述概述幅幅值值t一个周期一个周期+空气压强空气压强图图2.1 空气压强振荡的波形示意图空气压强振荡的波形示意图0 人耳能识别的声音频率范围大约在人耳能识别的声音频率范围大约在202020kHz20kHz,通常称为音频(通常称为音频(audioaudio)信号。信号。 2.12.1概述概述 声音包含三个要素:音调、音强和音色。声音包含三个要素:音调、音强和音色。基频与音调:一个声源每秒钟可产生成百上基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹信号的频率,单位用赫兹(Hz)或千赫兹或千

4、赫兹(kHz)表表示。示。 人对声音频率的感觉表现为音调的高低,在人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率音乐中称为音高。音调正是由频率所决定的。所决定的。 2.12.1概述概述 音乐中音阶的划分是在音乐中音阶的划分是在频率频率的对数坐标的对数坐标(20log)上取等分而得的。如表所示上取等分而得的。如表所示, 20log261=48.3,20log293=49.3等。等。音阶音阶C CD DE E F FG GA AB B简谱符号简谱符号1 12 23 34 45 56 67 7频率频率(H(HZ Z) )26126129329333033034934939239

5、2440440494494频率频率( (对数对数) )48.348.349.349.350.350.350.850.851.851.852.852.853.853.82.12.1概述概述谐波与音色:谐波与音色:no称为基波称为基波o的的n次谐波分量次谐波分量(n就是高次谐波的方次,就是高次谐波的方次,n o就是基波就是基波o的的n次次谐波谐波),也称为泛音。音色是由混入基音的泛音所决,也称为泛音。音色是由混入基音的泛音所决定的定的 。幅度与音强:信号的幅度是从信号的基线到当前波幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。峰的距离。幅度决定了信号音量的强弱程度。幅度越幅度决定了信号音量

6、的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:大,声音越强。一般用动态范围定义相对强度: 动态范围动态范围20log(信号的最大强度信号的最大强度/信号的最小强度信号的最小强度) (dB) 2.12.1概述概述音宽与频带:频带宽度,也称为带宽,它是描音宽与频带:频带宽度,也称为带宽,它是描述组成复合信号的频率范围。述组成复合信号的频率范围。 客观上,通常用频带宽度、动态范围、信噪比客观上,通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。宽,所包含的音频信号分量越丰富,音质

7、越好。动态范围越大,信号强度的相对变化范围越大,动态范围越大,信号强度的相对变化范围越大,音响效果越好。音响效果越好。 CD-DA数字音乐、FM广播、AM广播和电话的带宽10 20 50 200 3.4 K 7K 15K 22K f(Hz)电话AM广播CDDAFM广播图2.3 几种音频业务的频带宽度10 20 50 200 3.4K 7K 15K 22K f(Hz)电话AM广播CDDAFM广播图2.3 几种音频业务的频带宽度2.12.1概述概述 声音的质量可以通过信噪比来度量。信噪比声音的质量可以通过信噪比来度量。信噪比(SNR,Signal to Noise Ratio)是有用信号与噪声是有

8、用信号与噪声之比的简称,定义为:之比的简称,定义为: 信噪比越大,声音质量越好。信噪比越大,声音质量越好。2.22.2数字音频的获取数字音频的获取n2.2.1采样采样n2.2.2量化量化n2.2.3数字音频的技术指标数字音频的技术指标n2.2.4数字音频的文件格式数字音频的文件格式音频信息处理结构框图 2.2.12.2.1采样采样图2.5 模拟信号的采样 所谓采样就是在某些特定的时刻对模拟信号进所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间间间隔在模拟声音的波形上取一个幅值,

9、把时间上的连续信号变成时间上的离散信号。上的连续信号变成时间上的离散信号。2.2.12.2.1采样采样 采样时间间隔称为采样周期采样时间间隔称为采样周期t,其倒数为采样频其倒数为采样频率率fs=1/t。一般来讲,采样频率越高,则在单位时一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。储音频的数据量越大。 根据奈奎斯特定理,只有采样频率高于声音信根据奈奎斯特定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的

10、声号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。音还原为原来的声音。2.2.22.2.2量化量化 每个采样值在幅度上进行离散化处理的过程称每个采样值在幅度上进行离散化处理的过程称为量化为量化 。 量化可分为均匀量化和非均匀量化。均匀量化量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以类,并赋于相同的量化值。以8bit或或16bit的方式来的方式来划分纵轴为例,其纵轴将会被划分为划分纵轴为例,其纵

11、轴将会被划分为28个和个和216个个量化等级,用以记录其幅度大小。量化等级,用以记录其幅度大小。均匀量化 2.2.22.2.2量化量化 非均匀量化是根据信号的不同区间来确定量化非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。反之,量化间隔就大。 量化会引入失真,并且量化失真是一种不可逆量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。失真,这就是通常所说的量化噪声。 模拟信号经过采样和量化,形成一系列离散信号。这种数字信号可以以一定方式进行编码,形成计算机内部存储运行的数据,经

12、过编码后的声音信号就是数字音频信号。2.2.32.2.3数字音频的技术指标数字音频的技术指标 衡量数字音频的主要指标包括:衡量数字音频的主要指标包括:采样频率采样频率量化位数量化位数 通道通道(声道声道)个数个数 数据传输率是计算机处理时基本参数。未经压数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算:缩的数字音频数据传输率可按下式计算: 数据传输率数据传输率= =采样频率采样频率量化位数量化位数声道数声道数 2.2.32.2.3数字音频的技术指标数字音频的技术指标例例:假定语音信号的带宽是50 Hz10kHz,而音乐信号的是15Hz 20 kHz。采用奈奎斯特频率,

13、并用12bit表示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解:语音信号:取样频率210kHz20kHz; 比特率=20k12240 kbit/s 音乐信号:取样频率220kHz40kHz; 比特率40kl6bit/s21280kbits(立体声-双声道) 所需存储空间1280k 600896MB2.2.42.2.4数字音频的文件格式数字音频的文件格式WAVWAV文件格式简介文件格式简介 WAVWAV是是Microsoft WindowsMicrosoft Windows提供的音频格式。这个提供的音频格式。这

14、个格式是目前通用音频格式,它通常用来保存一些没格式是目前通用音频格式,它通常用来保存一些没有压缩的音频。目前所有的音频播放软件和编辑软有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式。件都支持这一格式。 WAVWAV文件由三部分组成:文件头文件由三部分组成:文件头( (标明是标明是WAVWAV文件、文件、文件结构和数据的总字节数文件结构和数据的总字节数) )、数字化参数、数字化参数( (如采样如采样频率、声道数、编码算法等频率、声道数、编码算法等) ),最后是实际波形数据,最后是实际波形数据。一般来说,声音质量与其。一般来说,声音质量与其WAVWAV格式的文件大小成正格式的文件大小

15、成正比。比。nWAVE(Waveform Audio File Format)文件是多媒体中使用的声音文件格式之一,它以RIFF格式为基础,每个WAVE文件的头四个字节为“RIFF”。WAVE文件的扩展名为“.WAV”。WAVE 文件格式WAVE 文件格式Format 块块Sound 数据块数据块 RIFF WAVE Chunk WAVE文件由文件头和数据两部分组成。最小的 WAVE文件结构 _|RIFFWAVEChunk|groupID=RIFF|riffType=WAVE|_|FormatChunk|ckID=fmt|_|_|SoundDataChunk|ckID=data|_|_|RIF

16、F WAVE 块头块标志 RIFF块大小 (32-bits)Wave类型标志 WAVEThe Format (fmt) Chunk格式块(fmt)是WAVE文件必选项,描述波形文件的基本参数,如采样率、位分辨率以及通道数等。#defineFormatIDfmt/*chunkIDforFormatChunk.*/typedefstructIDchunkID;longchunkSize;shortwFormatTag;/*currently PCM */unsignedshortwChannels;/*numofchannels*/unsignedlongdwSamplesPerSec;/*sam

17、ple rate in Hz */unsignedlongdwAvgBytesPerSec;/*xxxBytes/s*/unsignedshortwBlockAlign;/*1/2/4-8/16mono/stereo*/unsignedshortwBitsPerSample;/*bitsinasample*/*根据wFormatTag不同,可以有附加字段.*/FormatChunk;Data Chunk数据块包含实际的波形数据:#defineDataIDdata/*chunkIDfordataChunk*/typedefstructIDchunkID;longchunkSize;unsigne

18、dcharwaveformData;DataChunk; Offset Description-Offset Contents-0x00 chunk id RIFF0x04 chunk size (32-bits)0x08 wave chunk id WAVE0x0C0x0C format chunk id format chunk id fmtfmt 0x10 0x10 format chunk size (32-bits)format chunk size (32-bits)0x14 format tag ( currently PCM )0x16 number of channels 1

19、=mono, 2=stereo0x18 sample rate in Hz0x1C average bytes per second-Offset Contents- 0x20 number of bytes per sample 1 =8-bit mono 2 =8-bit stereo or 16-bit mono 4 = 16-bit stereo 0x22 number of bits in a sample 0x240x24 data chunk id datadata chunk id data 0x280x28 length of data chunk (32-bits)leng

20、th of data chunk (32-bits) 0x2C Sample data -2.2.42.2.4数字音频的文件格式数字音频的文件格式MP3MP3文件格式简介文件格式简介 MP3MP3是第一个实用的有损音频压缩编码技术。在是第一个实用的有损音频压缩编码技术。在MP3MP3出现之前,一般的音频编码即使以有损方式进出现之前,一般的音频编码即使以有损方式进行压缩,能达到行压缩,能达到4:14:1的压缩比例已经非常不错了。的压缩比例已经非常不错了。但是,但是,MP3MP3可以实现可以实现12:112:1的压缩比例。的压缩比例。 衡量衡量MP3MP3文件的压缩比例通常使用比特率来表示文件的压

21、缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐中。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。获得保留的成分就越多,音质就越好。 2.2.42.2.4数字音频的文件格式数字音频的文件格式MIDI MIDI 文件格式简介文件格式简介 MIDIMIDI最初应用在电子乐器上用来记录乐手的弹最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。随着在电脑里面引入了支持奏,以便以后重播。随着在电脑里面引入了支持MIDIMIDI合成的声音卡之后,合成的声音卡之后,MIDIMIDI才正式地成为了一才正式地成为了一种音频格式。种音频格式。MIDIMIDI的内容

22、除了乐谱之外还记录了的内容除了乐谱之外还记录了每个音符的弹奏方法。每个音符的弹奏方法。2.2.42.2.4数字音频的文件格式数字音频的文件格式 各种文件格式与各种文件格式与WAVWAV格式之间可以进行转换。格式之间可以进行转换。最简单的方法就是使用最简单的方法就是使用WINAMPWINAMP。只要只要WINAMPWINAMP能播能播放某种格式的音乐,就可以通过它的放某种格式的音乐,就可以通过它的Output Output PluginPlugin中的中的Disk Writer Disk Writer PluginPlugin 来输出为来输出为WAVWAV文文件。目前件。目前WINAMPWINA

23、MP支持的格式包括:支持的格式包括:VOCVOC、WAVWAV、 MIDMID、MP3MP3、MP2MP2、MP1MP1、CDCD、ITIT、XMXM、S3MS3M、STMSTM、MODMOD、DSMDSM、FARFAR、ULTULT、MTMMTM、669669、ASAS、WMAWMA、MJFMJF。 2.32.3音频信号压缩编码音频信号压缩编码n2.3.12.3.1概述概述n2.3.32.3.3音频数据的标准音频数据的标准为什么要进行语音编码?随着对音质要求的增加,信号频率范围逐渐增随着对音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而加,要求描述信号的数据量也就

24、随之增加,从而带来处理这些数据的时间和传输、存储这些数据带来处理这些数据的时间和传输、存储这些数据的容量增加,因此多媒体音频压缩技术是多媒体的容量增加,因此多媒体音频压缩技术是多媒体技术实用化的关键之一。技术实用化的关键之一。2.3.12.3.1概述概述根据解压后数据是否有失真可以将音频压缩根据解压后数据是否有失真可以将音频压缩分为无损压缩(无失真压缩)和有损压缩(有失分为无损压缩(无失真压缩)和有损压缩(有失真压缩)。真压缩)。无损压缩的压缩效率低,但是可以无失真地重现无损压缩的压缩效率低,但是可以无失真地重现原始数据。原始数据。无损压缩的压缩效率较高,但有数据丢失。无损压缩的压缩效率较高,

25、但有数据丢失。 2.3.12.3.1概述概述 音频信息编码技术主要可分为三类音频信息编码技术主要可分为三类 。波形编码:这种方法主要基于语音波形预测,波形编码:这种方法主要基于语音波形预测,它力图使重建的语音波形保持原有的波形状态。它力图使重建的语音波形保持原有的波形状态。常用的波形编码技术有增量调制常用的波形编码技术有增量调制(DM)(DM)、自适应差自适应差分脉冲编码调制分脉冲编码调制(ADPCM)(ADPCM)、子带编码子带编码(SBC)(SBC)和矢量和矢量量化编码量化编码(VQ)(VQ)等等。等等。 2.3.12.3.1概述概述 波形编码的特点是在高码率的条件下获得高波形编码的特点是

26、在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。号的压缩技术。 它的优点是编码方法简单、易于实现、适应能它的优点是编码方法简单、易于实现、适应能力强、语音质量好等,缺点是压缩比相对来说较力强、语音质量好等,缺点是压缩比相对来说较低,需要较高的编码速率。低,需要较高的编码速率。 2.3.12.3.1概述概述参数编码:参数编码的方法是将音频信号以某参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重信号进行编码;声

27、音重放时,再根据这些参数重建即可。显然参数编码压缩比很高,但计算量建即可。显然参数编码压缩比很高,但计算量大。它主要用于在窄带信道上提供大。它主要用于在窄带信道上提供4.8kb/s4.8kb/s以下以下的低速语音通信和一些对延时要求较宽的应用场的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线合(如卫星通信等)。最常用的参数编码法为线性预测(性预测(LPCLPC)编码。编码。 2.3.12.3.1概述概述混合编码:这种方法克服了原有波形编码与参混合编码:这种方法克服了原有波形编码与参数编码的弱点,并且结合了波形编码的高质量和数编码的弱点,并且结合了波形编码的高

28、质量和参数编码的低数据率,取得了比较好的效果。混参数编码的低数据率,取得了比较好的效果。混合编码是指同时使用两种或两种以上的编码方法合编码是指同时使用两种或两种以上的编码方法进行编码的过程。由于每种编码方法都有自己的进行编码的过程。由于每种编码方法都有自己的优势和不足,若是用两种或两种以上的编码方法优势和不足,若是用两种或两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。而达到高效数据压缩的目的。2.3.32.3.3音频数据的标准音频数据的标准 从数据通信的角度,音频编码标准主要有三种从数据通信的角度,音频编码标准主

29、要有三种 :在电话传输系统中应用的电话质量的音频压缩编码在电话传输系统中应用的电话质量的音频压缩编码技术标准技术标准 ,如如PCMPCM(ITU G.711ITU G.711)等等 。在窄带综合服务数据网传送中应用的调幅广播质量在窄带综合服务数据网传送中应用的调幅广播质量的音频压缩编码技术标准的音频压缩编码技术标准, ,如如G.722G.722等。等。在电视传输系统、视频点播系统中应用的音频编码在电视传输系统、视频点播系统中应用的音频编码标准,如标准,如MPEGMPEG音频标准等。音频标准等。 2.3.32.3.3音频数据的标准音频数据的标准l电话质量的音频压缩编码技术标准电话质量的音频压缩编

30、码技术标准G.711G.711标准是标准是19721972年年CCITTCCITT(现称为现称为ITU-ITU-T T)制定的制定的PCMPCM语音标准,采样频率为语音标准,采样频率为8kHz8kHz,每个样本值用每个样本值用8 8位二进制编码,因此输出位二进制编码,因此输出的数据的数据率率64kb/s.64kb/s.2.3.32.3.3音频数据的标准音频数据的标准l调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 调幅广播质量音频信号的频率在调幅广播质量音频信号的频率在50Hz50Hz7kHz7kHz范范围。围。CCITTCCITT在在19881988年制定了年制定了G.

31、722G.722标准。标准。G.722G.722标准标准是采用是采用16kHz16kHz采样,采样,14bit14bit量化,信号数据速率为量化,信号数据速率为224kbit/s224kbit/s。2.3.32.3.3音频数据的标准音频数据的标准l 高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是高保真立体声音频信号频率范围是50Hz50Hz20kHz20kHz,采用采用44.1kHz44.1kHz采样频率,采样频率,16bit16bit量化进行数字化转换,其数据速量化进行数字化转换,其数据速率每声道率每声道705kbit/s705kbit/s。为了制定一套通用的视频和声音编

32、码方案,为了制定一套通用的视频和声音编码方案,ISO/IECISO/IEC标标准组织成立了准组织成立了ISO/IEC/JTC1/SC29/WG11,ISO/IEC/JTC1/SC29/WG11,即运动图像专家即运动图像专家组(组(Moving Picture Experts Moving Picture Experts Group,MPEGGroup,MPEG),它开发了),它开发了一系列标准,如一系列标准,如MPEG-1MPEG-1,MPEG-2MPEG-2,MPEG-4MPEG-4,MPEG-7MPEG-7,MPEG-21MPEG-21等。等。MPEG-1MPEG-1于于19921992年

33、年1111月完成,其中月完成,其中ISO11172.3ISO11172.3作为作为“MPEGMPEG音频音频”标准,成为国际上公认的高保真立体声音频标准,成为国际上公认的高保真立体声音频压缩标准。压缩标准。2.3.32.3.3音频数据的标准音频数据的标准nMPEG-2MPEG-2也定义了音频标准,由两部分组成,即也定义了音频标准,由两部分组成,即MPEG-2MPEG-2音频(音频(ISO/IEC 13818-3ISO/IEC 13818-3)和)和MPEG-2 AACMPEG-2 AAC(先进的音频(先进的音频编码,编码,ISO/IEC 13818-7 ISO/IEC 13818-7 )。)。

34、 MPEG-2MPEG-2音频编码标准是音频编码标准是对对MPEG-1MPEG-1向后兼容的、支持二至五声道的后继版本。向后兼容的、支持二至五声道的后继版本。nMPEG-4MPEG-4的音频部分国际标准号是的音频部分国际标准号是ISO/IEC 14496-3ISO/IEC 14496-3,可,可集成从话音到高质量的多通道声音,从自然声音到合集成从话音到高质量的多通道声音,从自然声音到合成声音。合成部分的组合工具可以实现对音乐和语音成声音。合成部分的组合工具可以实现对音乐和语音按符号进行定义,它包括按符号进行定义,它包括MIDIMIDI系统和文本系统和文本- -语音转换系语音转换系统。此外,它还

35、包括对声音的三维空间定位工具,可统。此外,它还包括对声音的三维空间定位工具,可以利用人工音源和自然音源人为地制造出声音。以利用人工音源和自然音源人为地制造出声音。nMPEG-7 AudioMPEG-7 Audio标准提供了音频描述工具。标准提供了音频描述工具。2.3.32.3.3音频数据的标准音频数据的标准nAAC(Advanced Audio Coding),中文称为“先进音频编码”,出现于1997年,最初是基于MPEG-2的音频音频编码技术。由Fraunhofer IIS、Dolby Laboratories (杜比实验室)、AT&T(美国电话电报公司)、Sony(索尼)等公司共同开发,目

36、的是取代MP3格式。2000年,MPEG-4标准出台,AAC重新集成了其特性,加入了SBR技术和PS技术,为区别于传统的MPEG-2 AAC,故含有SBR或PS特性的AAC又称为MPEG-4 AAC。 2.3.32.3.3音频数据的标准音频数据的标准n作为一种高压缩比的音频压缩算法压缩算法,AAC压缩比通常为18:1,远胜mp3;在音质方面,由于采用多声道,和使用低复杂性的描述方式,使其比几乎所有的传统编码方式在同规格的情况下更胜一筹。不过直到2006年,使用这一格式储存音乐的并不多,可以播放该格式的mp3播放器更是少之又少,目前所知仅有苹果iPod、Sony Walkman(NWZ-A、NW

37、Z-S、NWZ-E、NWZ-X系列)、任天堂NDSi,此外计算机上很多音乐播放软体都支持AAC(前提是安装过AAC解码器),如苹果iTunes。但在移动电话领域,AAC的支持度已很普遍,Nokia、Sony Ericsson、Motorola 等品牌均在其中高端产品中支持 AAC。 2.42.4音乐合成和音乐合成和MIDIMIDIn2.4.1概述n2.4.2计算机上合成音乐的产生过程n2.4.3MIDI音乐合成器2.4.12.4.1概述概述 数字音频实际上是一种数字式录音数字音频实际上是一种数字式录音/ /重放的过重放的过程,它需要很大的数据量。在多媒体系统中,除程,它需要很大的数据量。在多媒

38、体系统中,除了用数字音频的方式之外,还可以用采样合成的了用数字音频的方式之外,还可以用采样合成的方式产生音乐。音乐合成的方式是根据一定的协方式产生音乐。音乐合成的方式是根据一定的协议标准,采用音乐符号记录方法来记录和解释乐议标准,采用音乐符号记录方法来记录和解释乐谱,并合成相应的音乐信号,这也就是谱,并合成相应的音乐信号,这也就是MIDIMIDI(Musical Instrument Digital InterfaceMusical Instrument Digital Interface)方方式。式。 2.4.12.4.1概述概述 MIDIMIDI是乐器数字接口的缩写,泛指数字音乐是乐器数字

39、接口的缩写,泛指数字音乐的国际标准,它是音乐与计算机结合的产物。的国际标准,它是音乐与计算机结合的产物。MIDIMIDI不是把音乐的波形进行数字化采样和编码,不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器弹奏过程记录下来,如按而是将数字式电子乐器弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等。当需要播了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。合成器生成音乐声波,经放大后由扬声器播出。2.4.12.4.1概述概述 音乐合成器生成音乐采用音乐合成器生成音

40、乐采用MIDIMIDI文件存储。文件存储。MIDIMIDI文件是用来记录音乐的一种文件格式,文件后缀文件是用来记录音乐的一种文件格式,文件后缀是是“.mid.mid”或者或者“.midi.midi”。这种文件格式非常这种文件格式非常特殊,其中记录的不是音频数据,而是演奏音乐特殊,其中记录的不是音频数据,而是演奏音乐的指令,不同的指令与不同的乐器对应,就像乐的指令,不同的指令与不同的乐器对应,就像乐队演奏交响曲一样,每一种乐器发出不同的声音队演奏交响曲一样,每一种乐器发出不同的声音,合在一起组成了听众听到的音乐。,合在一起组成了听众听到的音乐。 2.4.12.4.1概述概述 一个一个MIDIMI

41、DI文件包括一个头块和若干个轨迹块。文件包括一个头块和若干个轨迹块。每个轨迹块中可以包含若干个指令,每个指令的每个轨迹块中可以包含若干个指令,每个指令的基本格式是一样的,在基本格式的基础上各个指基本格式是一样的,在基本格式的基础上各个指令有所差别,指令可以用来记录一个声音、一个令有所差别,指令可以用来记录一个声音、一个系统命令等内容。系统命令等内容。2.4.22.4.2计算机上合成音乐的产生过程计算机上合成音乐的产生过程MIDI音乐的产生过程如图音乐的产生过程如图 :图图2.12 MIDI音乐的产生过程示意图音乐的产生过程示意图MIDI指令指令MIDI乐器乐器MIDI接口接口合成器合成器扬声器

42、扬声器音序器音序器MIDI文件文件音频卡音频卡PC机机2.42.4音乐合成和音乐合成和MIDIMIDI 把把MIDI指令送到合成器,由合成器产生相应指令送到合成器,由合成器产生相应的声音的声音。MIDI标准提供了标准提供了1616个通道。按照所用通个通道。按照所用通道数的不同,合成器又可分成基本型和扩展型两道数的不同,合成器又可分成基本型和扩展型两种,如下表所示。种,如下表所示。合成器类型 旋律乐器通道 打击乐器通道 基本合成器 1315 16 扩展合成器 19 10 2.42.4音乐合成和音乐合成和MIDIMIDI MIDI合成的产生方式有两种:合成的产生方式有两种:FM(frequency

43、 Modulation)合成和波形表合成和波形表(wavetable)合成。合成。FM是使高频振荡波的频率按调制信号规律变化的一是使高频振荡波的频率按调制信号规律变化的一种调制方式。种调制方式。FM频率调制合成是通过硬件产生频率调制合成是通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起。波形组合在一起。 2.42.4音乐合成和音乐合成和MIDIMIDI 目前较高级的音频卡一般都采用波形表合成方目前较高级的音频卡一般都采用波形表合成方式。波形表的原理是在式。波形表的原理是在ROM中已存储各种实际乐中已存储各种实际乐器的声音采样,当需要

44、合成某种乐器的声音时,器的声音采样,当需要合成某种乐器的声音时,调用相应的实际声音采样合成该乐器的乐音。显调用相应的实际声音采样合成该乐器的乐音。显然,然,ROM存储器的容量越大,合成的效果越好,存储器的容量越大,合成的效果越好,但价格也越贵。但价格也越贵。2.52.5语音识别语音识别n2.5.1文本-语音TTS技术n2.5.2语音识别系统实例-IBM Via Voice2.5.12.5.1文本文本- -语音语音TTSTTS技术技术TTSTTS的基本概念的基本概念 文语转换(文语转换(Text-to-SpeechText-to-Speech)是将文本形式的是将文本形式的信息转换成自然语音的一种

45、技术,其最终目标是信息转换成自然语音的一种技术,其最终目标是力图使计算机能够以清晰自然的声音,以各种各力图使计算机能够以清晰自然的声音,以各种各样的语言,甚至以各种各样的情绪来朗读任意的样的语言,甚至以各种各样的情绪来朗读任意的文本。也就是说,要使计算机具有像人一样、甚文本。也就是说,要使计算机具有像人一样、甚至比人更强的说话能力。因而它是一个十分复杂至比人更强的说话能力。因而它是一个十分复杂的问题,涉及到语言学、韵律学、语音学、自然的问题,涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。语言处理、信号处理、人工智能等诸多的学科。2.5.12.5.1文本文本- -语

46、音语音TTSTTS技术技术 TTSTTS分为综合的和连贯的两种类型。综合的语分为综合的和连贯的两种类型。综合的语音就是通过分析单词,由计算机确认单词的发音音就是通过分析单词,由计算机确认单词的发音,然后这些音素就被输入到一个复杂的模仿人声,然后这些音素就被输入到一个复杂的模仿人声音并发声的算法,这样就可以读文本了。通过这音并发声的算法,这样就可以读文本了。通过这种方式,种方式,TTSTTS就能读出任何单词,甚至自造的词就能读出任何单词,甚至自造的词,但是它发出的声音不带任何感情,带有明显的,但是它发出的声音不带任何感情,带有明显的机器语音味道。机器语音味道。2.5.12.5.1文本文本- -语

47、音语音TTSTTS技术技术 连贯语音系统分析文本从预先备好的文库里抽连贯语音系统分析文本从预先备好的文库里抽出单词和词组的录音。数字化录音是连贯的,因出单词和词组的录音。数字化录音是连贯的,因为声音是事先录制的语音,听起来很舒服。遗憾为声音是事先录制的语音,听起来很舒服。遗憾的是,如果文本包含没有录的词和短语,的是,如果文本包含没有录的词和短语,TTSTTS就就读不出来了。连贯读不出来了。连贯TTSTTS可以被看成是一种声音压可以被看成是一种声音压缩形式,因为单词和常用的短语只能录一次。连缩形式,因为单词和常用的短语只能录一次。连贯贯TTSTTS会节省开发时间并减少错误,使软件增加会节省开发时

48、间并减少错误,使软件增加相应的功能。相应的功能。 2.5.12.5.1文本文本- -语音语音TTSTTS技术技术TTS系统的组成与工作过程系统的组成与工作过程 汉语汉语TTS系统有系统有3 3个主要的组成部分:文本分个主要的组成部分:文本分析模块、韵律分析模块、语音生成模块。析模块、韵律分析模块、语音生成模块。 TTS的基本工作过程是:输入的汉字文本经语的基本工作过程是:输入的汉字文本经语言学和语音学处理,得到语流的控制参数,然后言学和语音学处理,得到语流的控制参数,然后读取语音数据库,再经语音信号处理,输出连续读取语音数据库,再经语音信号处理,输出连续的语音。的语音。 2.5.12.5.1文

49、本文本- -语音语音TTSTTS技术技术TTSTTS的应用领域的应用领域 文语转换在各种计算机相关领域中有着广泛的文语转换在各种计算机相关领域中有着广泛的应用前景。除了人应用前景。除了人-机交互外,机交互外,TTS系统在医疗、系统在医疗、教育、通信、信息、家电等领域也具有相当广泛教育、通信、信息、家电等领域也具有相当广泛的用途。的用途。2.5.22.5.2语音识别系统实例语音识别系统实例-IBM Via Voice-IBM Via Voice 语音识别是把输入的语音信号经过数字信号语音识别是把输入的语音信号经过数字信号处理后得到一组特征参数,然后将这组特征参数处理后得到一组特征参数,然后将这组

50、特征参数与预存的模板进行比较,从而确定说话者所说内与预存的模板进行比较,从而确定说话者所说内容的一门新的声音识别技术。容的一门新的声音识别技术。2.5.22.5.2语音识别系统实例语音识别系统实例-IBM Via Voice-IBM Via Voice 语音识别系统可根据不同的分类方式及依据,语音识别系统可根据不同的分类方式及依据,分为以下三类分为以下三类:根据对说话人说话方式的要求,可以分为孤立字根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。续语音识别系统。根据对说话人的依赖程度可以分为特定人

51、和非特根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。定人语音识别系统。2.5.22.5.2语音识别系统实例语音识别系统实例-IBM Via Voice-IBM Via Voice根据词汇量大小,可以分为小词汇量、中等词根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。汇量、大词汇量以及无限词汇量语音识别系统。 语音识别技术主要包括特征提取技术、模式匹语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。到语音识别单元的选取。2.5.22.5.2语音识别系统实

52、例语音识别系统实例-IBM Via Voice-IBM Via Voice 在语音识别领域,在语音识别领域,IBM在世界上一直处于领先在世界上一直处于领先地位。迄今为止,共有十三种语言的连续语音识地位。迄今为止,共有十三种语言的连续语音识别产品。别产品。19971997年年9 9月,月,IBM推出了推出了ViaVoice中文连中文连续语音识别系统续语音识别系统, ,它成功地解决了汉语同音字多、它成功地解决了汉语同音字多、有声调、口音复杂等难题。在有声调、口音复杂等难题。在19991999年底推出的年底推出的ViaVoice中文语音识别系统,除了具有非特定人中文语音识别系统,除了具有非特定人、无

53、限词汇量、连续语音识别、高识别率、专业、无限词汇量、连续语音识别、高识别率、专业文章智能分析、理解等强大的语音功能外,还为文章智能分析、理解等强大的语音功能外,还为上网用户提供了轻松上网的功能。上网用户提供了轻松上网的功能。 2.5.22.5.2语音识别系统实例语音识别系统实例-IBM Via Voice-IBM Via Voice IBM ViaVoice改变了传统模式,可以用语音向计改变了传统模式,可以用语音向计算机发出命令、录入汉字、标点符号。算机发出命令、录入汉字、标点符号。ViaVoice的的功能是在称之为功能是在称之为“语音中心语音中心”的选项下,通过一个的选项下,通过一个下拉式菜

54、单来实现的。主要包括:听写输入和命令下拉式菜单来实现的。主要包括:听写输入和命令导航。导航。 ViaVoice只是一个普及型产品,它可以满足人们只是一个普及型产品,它可以满足人们日常的要求。如果再进一步发展日常的要求。如果再进一步发展ViaVoiceViaVoice所采用的所采用的技术,可以以技术,可以以ViaVoiceViaVoice系统为平台,继续发展。系统为平台,继续发展。2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现 实现音频分析的基础是对音频文件的解析。尽实现音频分析的基础是对音频文件的解析。尽管音频文件的存储格式很多,但基本原理是一致管音频文件的存储格式很多,但基本

55、原理是一致的,因此,本节以的,因此,本节以wav文件为例,介绍文件为例,介绍VC+环境环境中如何实现声音文件的播放。中如何实现声音文件的播放。 在在VC+VC+中可以根据不同的应用要求,用不同的中可以根据不同的应用要求,用不同的方法实现声音的播放。第一种方法可以直接调用方法实现声音的播放。第一种方法可以直接调用声音播放函数。第二种方法可以把声音作为资源声音播放函数。第二种方法可以把声音作为资源加入可执行文件中。第三种方法是对声音播放的加入可执行文件中。第三种方法是对声音播放的高级处理,这种方法在播放之前可以对声音数据高级处理,这种方法在播放之前可以对声音数据进行处理。进行处理。2.62.6实例

56、实例 VC+VC+播放声音的实现播放声音的实现直接调用声音播放函数直接调用声音播放函数 如果只需要简单的播放声音文件,在如果只需要简单的播放声音文件,在VC+中的中的多媒体动态链接库中提供了一组与音频设备有关多媒体动态链接库中提供了一组与音频设备有关的函数。利用这些函数可以方便地播放声音。最的函数。利用这些函数可以方便地播放声音。最简单的播放声音方法就是直接调用简单的播放声音方法就是直接调用VC+VC+中提供的中提供的声音播放函数:声音播放函数: BOOL sndPlaySound(LPCSTR lpszSound,UINT fuSound) 2.62.6实例实例 VC+VC+播放声音的实现播

57、放声音的实现 或BOOL PlaySound( LPCSTR lpszSound, HMODULE hmod, DWORD fuSound ) 其中参数lpszSound是需要播放声音的.WAV文件的路径和文件名, hmod在这里为NULL,fuSound是播放声音的标志。例如播放C:soundmusic.wav可以用: sndPlaySound (“c:soundmusic.wav”,SND_ASYNC)或PlaySound(c:soundmusic.wav,NULL, SND_ASYNC|SND_NODEFAULT ); 如果没有找到music.wav文件,第一种格式将播放系统默认的声音,

58、第二种格式不会播放系统默认的声音。2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现声音文件作为资源进行播放声音文件作为资源进行播放 第一种播放方法是在播放时调用下面的语句:第一种播放方法是在播放时调用下面的语句: PlaySound(MAKEINTRESOURCE(IDR_WAVE1),AfxGetResourceHandle(),SND_ASYNC|SND_RESOURCE|SND_NODEFAULT|SND_LOOP); 其中其中MAKEINTRESOURCE()宏将整数资源标识符转变宏将整数资源标识符转变为字符串,为字符串,AfxGetResourceHandle()函数返

59、回包含资源函数返回包含资源的模块句柄,的模块句柄,SND_RESOURCE是必须的标志。是必须的标志。 2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现 第二种播放方法是把资源读入内存后作为内存第二种播放方法是把资源读入内存后作为内存数据播放。具体步骤如下:数据播放。具体步骤如下: (1)获得包含资源的模块句柄)获得包含资源的模块句柄: HMODULE hmod=AfxGetResourceHandle(); (2)检索资源块信息:检索资源块信息: HRSRC hSndResource=FindResource(hmod,MAKEINTRESOURCE (IDR_WAVE1),

60、_T(WAVE); (3)装载资源数据并加锁:装载资源数据并加锁: HGLOBAL hGlobalMem=LoadResource(hmod,hSndResource); LPCTSTR lpMemSound=(LPCSTR)LockResource(hGlobalMem);2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现(4 4)播放声音文件:)播放声音文件: sndPlaySound(lpMemSound,SND_MEMORY);(5 5)释放资源句柄释放资源句柄: FreeResource(hGlobalMem); 2.62.6实例实例 VC+VC+播放声音的实现播放声音的

61、实现对声音处理后播放对声音处理后播放 首先介绍几个要用到的数据结构。首先介绍几个要用到的数据结构。WAVEFORMATEXWAVEFORMATEX结构定义了结构定义了WAVWAV音频数据文件的格式。音频数据文件的格式。WAVEHDRWAVEHDR结构结构定义了波形音频缓冲区。读出的数据首先要填充此定义了波形音频缓冲区。读出的数据首先要填充此缓冲区才能送音频设备播放。缓冲区才能送音频设备播放。WAVEOUTCAPSWAVEOUTCAPS结构描述结构描述了音频设备的性能。了音频设备的性能。MMCKINFOMMCKINFO结构包含了结构包含了RIFFRIFF文件文件中一个块的信息。中一个块的信息。

62、2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现 下面给出程序源代码清单,在下面给出程序源代码清单,在VC+VC+环境下可直环境下可直接使用:接使用: 源程序清单如下:LPSTR szFileName;/声音文件名MMCKINFO mmckinfoParent;MMCKINFO mmckinfoSubChunk;DWORD dwFmtSize;HMMIO m_hmmio;/音频文件句柄2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现 DWORD m_WaveLong; HPSTR lpData;/音频数据 HANDLE m_hData; HANDLE m_hForm

63、at; WAVEFORMATEX * lpFormat; DWORD m_dwDataOffset; DWORD m_dwDataSize; WAVEHDR pWaveOutHdr; WAVEOUTCAPS pwoc; HWAVEOUT hWaveOut;2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现/打开波形文件if(!(m_hmmio=mmioOpen(szFileName,NULL,MMIO_READ|MMIO_ALLOCBUF)/File open Error Error(Failed to open the file.);/错误处理函数 return false;/检

64、查打开文件是否是声音文件mmckinfoParent.fccType =mmioFOURCC(W,A,V,E);if(mmioDescend(m_hmmio,(LPMMCKINFO)&mmckinfoParent,NULL,MMIO_FINDRIFF)/NOT WAVE FILE AND QUIT2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现/寻找 fmt 块mmckinfoSubChunk.ckid =mmioFOURCC(f,m,t, );if(mmioDescend(m_hmmio,&mmckinfoSubChunk,&mmckinfoParent,MMIO_FINDCH

65、UNK)/Cant find fmt chunk/获得 fmt 块的大小,申请内存dwFmtSize=mmckinfoSubChunk.cksize ;m_hFormat=LocalAlloc(LMEM_MOVEABLE,LOWORD(dwFmtSize);if(!m_hFormat)/failed alloc memory2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现lpFormat=(WAVEFORMATEX*)LocalLock(m_hFormat);if(!lpFormat)/failed to lock the memoryif(unsignedlong)mmioRe

66、ad(m_hmmio,(HPSTR)lpFormat,dwFmtSize)!=dwFmtSize)/failed to read format chunk2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现/离开 fmt 块mmioAscend(m_hmmio,&mmckinfoSubChunk,0);/寻找 data 块mmckinfoSubChunk.ckid=mmioFOURCC(d,a,t,a);if(mmioDescend(m_hmmio,&mmckinfoSubChunk,&mmckinfoParent,MMIO_FINDCHUNK)/Cant find data chu

67、nk/获得 data块的大小m_dwDataSize=mmckinfoSubChunk.cksize ;m_dwDataOffset =mmckinfoSubChunk.dwDataOffset ;2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现if(m_dwDataSize=0L)/no data in the data chunk/为音频数据分配内存lpData=new charm_dwDataSize;if(!lpData)/faileif(mmioSeek(m_hmmio,SoundOffset,SEEK_SET)0)/Failed to read the data ch

68、unk2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现m_WaveLong=mmioRead(m_hmmio,lpData,SoundLong);if(m_WaveLong0)/Failed to read the data chunk/检查音频设备,返回音频输出设备的性能if(waveOutGetDeVCaps(WAVE_MAPPER,&pwoc,sizeof(WAVEOUTCAPS)!=0)/Unable to allocate or lock memory2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现/检查音频输出设备是否能播放指定的音频文件if(waveO

69、utOpen(&hWaveOut,DevsNum,lpFormat,NULL,NULL,CALLBACK_NULL)!=0)/Failed to OPEN the wave out devices/准备待播放的数据pWaveOutHdr.lpData =(HPSTR)lpData;pWaveOutHdr.dwBufferLength =m_WaveLong;pWaveOutHdr.dwFlags =0;if(waveOutPrepareHeader(hWaveOut,&pWaveOutHdr,sizeof(WAVEHDR)!=0)/Failed to prepare the wave data

70、 buffer2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现/播放音频数据文件if(waveOutWrite(hWaveOut,&pWaveOutHdr,sizeof(WAVEHDR)!=0)/Failed to write the wave data buffer/关闭音频输出设备,释放内存waveOutReset(hWaveOut);waveOutClose(hWaveOut);LocalUnlock(m_hFormat);LocalFree(m_hFormat);delete lpData; 2.62.6实例实例 VC+VC+播放声音的实现播放声音的实现几点说明:几点说明

71、:以上使用的音频设备和声音文件操作函数的声明包含在以上使用的音频设备和声音文件操作函数的声明包含在mmsystem.hmmsystem.h头文件中,因此在程序中必须用头文件中,因此在程序中必须用#include #include “mmsystem.hmmsystem.h”语句加入头文件。同时在编译时要加入动语句加入头文件。同时在编译时要加入动态连接导入库态连接导入库winmm.libwinmm.lib,具体实现方法是从具体实现方法是从Developer Developer StudioStudio的的ProjectProject菜单中选择菜单中选择Settings,Settings,然后在然

72、后在LinkLink选项卡选项卡上的上的Object/Library ModulesObject/Library Modules控制中加入控制中加入winmm.libwinmm.lib。在在pWaveOutHdr.lpDatapWaveOutHdr.lpData中指定不同的数据,可以播放音中指定不同的数据,可以播放音频数据文件中任意指定位置的声音。频数据文件中任意指定位置的声音。以上程序均在以上程序均在VC+6.0VC+6.0中调试通过,在文中省略了对错误中调试通过,在文中省略了对错误及异常情况的处理,在实际应用中必须加入。及异常情况的处理,在实际应用中必须加入。2.72.7本章小结本章小结

73、声音是多媒体信息的一个重要组成部分,也是表声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。无论其应用目达思想和情感的一种必不可少的媒体。无论其应用目的是什么,只要进入多媒体领域,总是希望合理使用的是什么,只要进入多媒体领域,总是希望合理使用语音信息,使多媒体应用系统变得更加丰富多彩。在语音信息,使多媒体应用系统变得更加丰富多彩。在多媒体系统中,音频可被用做输入或输出。输入可以多媒体系统中,音频可被用做输入或输出。输入可以是自然语言或语音命令,输出可以是语音或音乐,这是自然语言或语音命令,输出可以是语音或音乐,这些都会涉及到音频处理技术。些都会涉及到音频处理技术。2.

74、72.7本章小结本章小结 本章介绍了音频信号的特点,继而分析对音频信本章介绍了音频信号的特点,继而分析对音频信号的两种处理方式,然后介绍音频卡、音频信号处号的两种处理方式,然后介绍音频卡、音频信号处理、音频数字压缩编码、电子乐器数字接口、理、音频数字压缩编码、电子乐器数字接口、MPEGMPEG音频与音频与PCMPCM编码、音频数据文件格式、语音识别等技编码、音频数据文件格式、语音识别等技术。术。编程练习:n使用DirectShow开发包,实现一个简单系统-包括音频的采集、存储、播放功能。n编程工具VC+6.0.n参考资料: VisualC+视频技术方案宝典宋坤 人民邮电出版社 第4章音频采集方案4.4节DirectShow音频采集方案

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号