多媒体技术第三讲－金锄头文库

资源描述

《多媒体技术第三讲》由会员分享，可在线阅读，更多相关《多媒体技术第三讲（70页珍藏版）》请在金锄头文库上搜索。

1、第三讲音频媒体信息处理技术基本概念音频文件格式音频信号编码语音信号的处理、识别、理解数字音乐The frequency scope of voiceSpeech: 300-3000HZThe persons vocal organ: 80-3400HZ高保真: 10-20000HZ声音信号数字化time, amplitude: continuous to discretesampling and quantization数字信号质量取决于: 采样频率和量化精度Nyquist theorem: uniform sampling量化精度:每个声音样本的表达位数/信噪比linear qu

2、antizationnonlinear quantization 数字声音的质量分级:质量采样率/ KHZ 量化精度声道数据率KB/ S 频率范围 Telephone 8 8 1 8 200-3400AM 11.025 8 1 11.0 50-7000FM 22.050 16 stereo 88.2 20-15000CD 44.1 16 stereo 176.4 20-20000DAT 48 16 stereo 192.0 20-20000Common Sound File FormatsMulaw (Sun, NeXT) .auRIFF Wave (MS WAV) .wavMPEG A

3、udio Layer (MPEG) .mp2 .mp3AIFC (Apple, SGI) .aiff .aif HCOM (Mac) .hcomSND (Sun, NeXT) .sndVOC (Soundblaster card proprietary standard) .vocAND MANY OTHERS!Whats in a Sound File FormatHeader InformationMagic CookieSampling RateBits/SampleChannelsByte OrderEndianCompression typeDataExample File Form

4、at (NIST SPHERE)NIST_1A1024 sample_rate -i 16000 channel_count -i 1 sample_n_bytes -i 2 sample_byte_format -s2 10 sample_sig_bits -i 16 sample_count -i 594400 sample_coding -s3 pcm sample_checksum -i 20129 end_headWAVe file format (Microsoft) RIFFA collection of data chunks. Each chunk has a 32-bit

5、Idfollowed by a 32-bit chunk length followed by the chunk data. 0x00 chunk id RIFF0x04 chunk size (32-bits)0x08 wave chunk id WAVE0x0C format chunk id fmt 0x10 format chunk size (32-bits)0x14 format tag (currently pcm)0x16 number of channels 1=mono, 2=stereo0x18 sample rate in hz0x1C average bytes p

6、er second0x20 number of bytes per sample1 = 8-bit mono2 = 8-bit stereo or16-bit mono4 = 16-bit stereo0x22 number of bits in a sample0x24 data chunk id data0x28 length of data chunk (32-bits)0x2C Sample data三种常用语音编码方法通信容量: 带宽, 数据压缩1) 波形编译码器不利用生成语音信号的任何知识来产生一种重构信号,特点是复杂度低,在数据速率16kb/s以上时,质量很好Time doma

7、in approach: PCM (pulse code modulation),DPCM, ADPCM Frequency domain approach: SBC(sub-band coding), ATC(adaptive transform coding) 2) 音源编译码器试图在话音波形信号中提取生成话音的参数,通过这些参数和话音生成模型重构出语音.声码器 (vecoder) 时变滤波器 (time-varying filter) 命令基本激励它的音质很低,增加数据率对提高音质基本无用,广泛用于军事保密通讯.3) 混合编译码器试图填补波形编码和音源编码的间隔:waveform c

8、oding不能解决低于16kb/s下的音质问题source coding可压缩到2.4kb/s或更低,但音质不自然时域合成-分析编码器(analysis-by-synthesis, ABS)它和音源编码器的主要区别:不使用2个状态(有声/无声)的模型来寻找滤波器的输入激励信号,而是要寻找这样一种激励信号,使得这种信号产生的波形尽可能接近原始话音波形.ABS编译码器的结构:激励生成合成滤波器-话音输入加权误差误差最小化激励生成合成滤波器重构话音ABS把输入话音信号分为以帧(20ms)为单位来确定滤波器激励参数,使重构信号和原始信号误差最小.合成滤波器一般选用全极点短期线形滤波器.理论上可以

9、选择产生最小加权误差的激励信号,但计算量太大,因此提出折中方案: 多脉冲激励(multi-pulse-excited, MPE),在一帧中脉冲位置和幅度由编码器决定,每帧脉冲数目固定. 等间隔脉冲激励(regular-pulse-excited, RPE),采用等间隔后只要第一个脉冲位置确定,就不需要后续脉冲位置,因此脉冲数目比MPE多,但质量好. 码激励线性预测(code excited linear predictive, CECP)采用量化矢量作为位置和幅度编码方法,码书设计包含了长期和短期预测.PCM模拟信号低通防失真滤波器波形编码器PCM样本量化器采样: 均匀采样量化:

10、均匀量化,非均匀量化(大信号采用大间隔,小信号小间隔 ) PCM在通信中主要用于时分多路复用和频分多路复用.给定一个信号如何设计最优(均方误差最小)的量化方法.DM and ADM (Adaptive Delta Modulation) DM只采用0,12个值作为每个样本的量化值,又称为“1 位系统”.它对实际采样信号和预测采样信号之差的极性编码. DM存在2个问题:1) 斜率过载(slope overload): 反映滞后原因: 量化阶大小固定2) 粒状噪声(granular noise): 0附近震荡这种噪声无法消除 ADM: 为了克服斜率过载,根据斜率变化自动调整量化阶大小.一般A

11、DM采用的方法: 在检测到斜率过载时增大;在检测到斜率减小时减小. 如: 连续出现3个相同,量化阶增加一个增量;连续出现3个不同,量化阶减小一个增量.DPCM and ADPCMDPCM利用相邻样本之间的冗余度来进行编码:差值信号实际信号预测信号ADPCM综合了DPCM和APCM的概念,自适应确定量化阶的大小(如果差值大,用大量阶,反之亦然),即选用量化阶适配器. ADPCM广泛用于压缩要求中等,语音质量中等的场合.SBC(Sub-Band Coding) and SB-ADPCM基本过程: 1)用一组带通滤波器(band-pass filter)把输入音频信号分解成若干个连续频段,

12、每个频带称为子带.2)对每个子带中的音频信号采用单独的编码方案进行编码. 3)在信道上传送时将每个子带的代码复合起来. 4)在接受端译码时将每个子带单独译码,并把它们组合起来还原成原始信号.如果采用ADPCM作为每个子带的编码器,就是SB-ADPCM.X(n)BPF1BPF2BPFn编码器编码器编码器复合器分解器译码器译码器X(n)+SBC的优点:1) 每个子带情况不同,所用的编码参数可以有区别.2) 每个子带重要性不同,量化精度也不同.LPC (Linear Predictive Coding)LPC通过分析话音波形来产生声道激励和转移函数的参数,然后对参数进行编码,它可以达到极高的压

13、缩率.LPC使用过去 p 个样本来预测现时刻的采样值.如果线性预测系数作为激励参数并激励滤波器,就形成模拟原始声音的合成声音.Speech recognition, understanding and conversational interfacesAlexander Rudnicky School of Computer Science http:/www.cs.cmu.edu/airOutline Speech Types of speech interfaces Speech systems and their structure Designing speech interface

14、s Some applications SpeechWear CommunicatorSpeech as a signal The difference between speech and sound “CD” quality vs. intelligible quality high-quality is 44.1 / 48 kHz desirable speech bandwidth: 0-8kHz, 16bits at 16bits/sample: 256kbps (tethered mic) telephone: 64kbps (and lower) Compression: MPEG: 64kbps/channel and up (but not speech- optimal) CELP: 16kbps 2.4kbps (optimized for speech)Speech for communication The difference between speech and language Speech recognition and speech understandingComputers and speech Transcription dictation, information retrie

展开阅读全文

多媒体技术第三讲

最新文档