多媒体技术第三讲

上传人:mg****85 文档编号:49767080 上传时间:2018-08-02 格式:PPT 页数:70 大小:347.50KB
返回 下载 相关 举报
多媒体技术第三讲_第1页
第1页 / 共70页
多媒体技术第三讲_第2页
第2页 / 共70页
多媒体技术第三讲_第3页
第3页 / 共70页
多媒体技术第三讲_第4页
第4页 / 共70页
多媒体技术第三讲_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《多媒体技术第三讲》由会员分享,可在线阅读,更多相关《多媒体技术第三讲(70页珍藏版)》请在金锄头文库上搜索。

1、第三讲 音频媒体信息处理技术 基本概念 音频文件格式 音频信号编码 语音信号的处理、识别、理解 数字音乐The frequency scope of voiceSpeech: 300-3000HZThe persons vocal organ: 80-3400HZ高保真: 10-20000HZ声音信号数字化time, amplitude: continuous to discretesampling and quantization数字信号质量取决于: 采样频率和量化精度Nyquist theorem: uniform sampling量化精度:每个声音样本的表达位数/信噪比linear qu

2、antizationnonlinear quantization 数字声音的质量分级:质量 采样率/ KHZ 量化精度 声道 数据率KB/ S 频率范围 Telephone 8 8 1 8 200-3400AM 11.025 8 1 11.0 50-7000FM 22.050 16 stereo 88.2 20-15000CD 44.1 16 stereo 176.4 20-20000DAT 48 16 stereo 192.0 20-20000Common Sound File FormatsMulaw (Sun, NeXT) .auRIFF Wave (MS WAV) .wavMPEG A

3、udio Layer (MPEG) .mp2 .mp3AIFC (Apple, SGI) .aiff .aif HCOM (Mac) .hcomSND (Sun, NeXT) .sndVOC (Soundblaster card proprietary standard) .vocAND MANY OTHERS!Whats in a Sound File FormatHeader InformationMagic CookieSampling RateBits/SampleChannelsByte OrderEndianCompression typeDataExample File Form

4、at (NIST SPHERE)NIST_1A1024 sample_rate -i 16000 channel_count -i 1 sample_n_bytes -i 2 sample_byte_format -s2 10 sample_sig_bits -i 16 sample_count -i 594400 sample_coding -s3 pcm sample_checksum -i 20129 end_headWAVe file format (Microsoft) RIFFA collection of data chunks. Each chunk has a 32-bit

5、Idfollowed by a 32-bit chunk length followed by the chunk data. 0x00 chunk id RIFF0x04 chunk size (32-bits)0x08 wave chunk id WAVE0x0C format chunk id fmt 0x10 format chunk size (32-bits)0x14 format tag (currently pcm)0x16 number of channels 1=mono, 2=stereo0x18 sample rate in hz0x1C average bytes p

6、er second0x20 number of bytes per sample1 = 8-bit mono2 = 8-bit stereo or16-bit mono4 = 16-bit stereo0x22 number of bits in a sample0x24 data chunk id data0x28 length of data chunk (32-bits)0x2C Sample data三种常用语音编码方法通信容量: 带宽, 数据压缩1) 波形编译码器不利用生成语音信号的任何知识来产生一种重构信 号,特点是复杂度低,在数据速率16kb/s以上时,质量很好Time doma

7、in approach: PCM (pulse code modulation),DPCM, ADPCM Frequency domain approach: SBC(sub-band coding), ATC(adaptive transform coding) 2) 音源编译码器试图在话音波形信号中提取生成话音的参数,通过 这些参数和话音生成模型重构出语音.声码器 (vecoder) 时变滤波器 (time-varying filter) 命令 基本激励它的音质很低,增加数据率对提高音质基本无用,广泛用于军事保密通讯.3) 混合编译码器试图填补波形编码和音源编码的间隔:waveform c

8、oding不能解决低于16kb/s下的音质问题source coding可压缩到2.4kb/s或更低,但音质不自然时域合成-分析编码器(analysis-by-synthesis, ABS)它和音源编码器的主要区别:不使用2个状态(有声/无声)的模型来寻找滤波器的 输入激励信号,而是要寻找这样一种激励信号,使得这 种信号产生的波形尽可能接近原始话音波形.ABS编译码器的结构:激励生成合成滤波器-话音输入加权误差误差最小化激励生成合成滤波器重构话音ABS把输入话音信号分为以帧(20ms)为单位来确定滤 波器激励参数,使重构信号和原始信号误差最小.合成滤波器一般选用全极点短期线形滤波器.理论上可以

9、 选择产生最小加权误差的激励信号,但计算量太大,因此 提出折中方案: 多脉冲激励(multi-pulse-excited, MPE),在一帧中脉冲位 置和幅度由编码器决定,每帧脉冲数目固定. 等间隔脉冲激励(regular-pulse-excited, RPE),采用等间隔 后只要第一个脉冲位置确定,就不需要后续脉冲位置,因 此脉冲数目比MPE多,但质量好. 码激励线性预测(code excited linear predictive, CECP)采 用量化矢量作为位置和幅度编码方法,码书设计包含了 长期和短期预测.PCM模拟信号低通防失真滤波器波形编码器PCM样本量化器采样: 均匀采样量化:

10、 均匀量化,非均匀量化(大信号采用大间隔,小信号小间隔 ) PCM在通信中主要用于时分多路复用和频分多路复用.给定一个信号如何设计最优(均方误差最小)的量化方法.DM and ADM (Adaptive Delta Modulation) DM只采用0,12个值作为每个样本的量化值,又称为“1 位系统”.它对实际采样信号和预测采样信号之差的极性 编码. DM存在2个问题:1) 斜率过载(slope overload): 反映滞后原因: 量化阶大小固定2) 粒状噪声(granular noise): 0附近震荡这种噪声无法消除 ADM: 为了克服斜率过载,根据斜率变化自动调整量化 阶大小.一般A

11、DM采用的方法: 在检测到斜率过载时增大;在检测到斜率减小时减小. 如: 连续出现3个相同,量化阶增加一个增量;连续出现3个不同,量化阶减小一个增量.DPCM and ADPCMDPCM利用相邻样本之间的冗余度来进行编码:差值信号 实际信号 预测信号ADPCM综合了DPCM和APCM的概念,自适应确定量化阶 的大小(如果差值大,用大量阶,反之亦然),即选用量化阶适 配器. ADPCM广泛用于压缩要求中等,语音质量中等的场合.SBC(Sub-Band Coding) and SB-ADPCM基本过程: 1)用一组带通滤波器(band-pass filter)把输入音频信号分 解成若干个连续频段,

12、每个频带称为子带.2)对每个子带中的音频信号采用单独的编码方案进行 编码. 3)在信道上传送时将每个子带的代码复合起来. 4)在接受端译码时将每个子带单独译码,并把它们组合 起来还原成原始信号.如果采用ADPCM作为每个子带的编码器,就是SB-ADPCM.X(n)BPF1BPF2BPFn编码器编码器编码器复合器分解器译码器译码器X(n)+SBC的优点:1) 每个子带情况不同,所用的编码参数可以有区别.2) 每个子带重要性不同,量化精度也不同.LPC (Linear Predictive Coding)LPC通过分析话音波形来产生声道激励和转移函数的参数,然后 对参数进行编码,它可以达到极高的压

13、缩率.LPC使用过去 p 个样本来预测现时刻的采样值.如果线性预测系数作为激励参数并激励滤波器,就形成模拟原始 声音的合成声音.Speech recognition, understanding and conversational interfacesAlexander Rudnicky School of Computer Science http:/www.cs.cmu.edu/airOutline Speech Types of speech interfaces Speech systems and their structure Designing speech interface

14、s Some applications SpeechWear CommunicatorSpeech as a signal The difference between speech and sound “CD” quality vs. intelligible quality high-quality is 44.1 / 48 kHz desirable speech bandwidth: 0-8kHz, 16bits at 16bits/sample: 256kbps (tethered mic) telephone: 64kbps (and lower) Compression: MPEG: 64kbps/channel and up (but not speech- optimal) CELP: 16kbps 2.4kbps (optimized for speech)Speech for communication The difference between speech and language Speech recognition and speech understandingComputers and speech Transcription dictation, information retrie

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号