语音编码关键技术及应用课件

资源描述

《语音编码关键技术及应用课件》由会员分享，可在线阅读，更多相关《语音编码关键技术及应用课件（66页珍藏版）》请在金锄头文库上搜索。

1、中、低速率语音编码关键技术及应用,电子工程系崔慧娟 10.4.15,各种压缩编码算法重建语音实例,原始: 8 kHz采样，16bit/样点，128kb/s,国际标准 ITU-T G.728 16 kb/s ITU-T G.729 8 kb/s ITU-T G.723.1 5.3 kb/s CVSD 16 kb/s 4.75 kbps AMR 4.8 kbps EVRC,我们的声码器 MPD-ACELP 4 kb/s SELP 2.4 kb/s SELP 1.2 kb/s SELP 0.8 kb/s SELP 0.6 kb/s SELP 0.3 kb/s,B,3,内容,音频编码性能评价F 目前

2、水平F 音频压缩依据F 人耳听觉特性F 现有标准F 语音生成模型及参数编码F Adaptive Predictive Coding-APCF Analysis-by-Synthesis Coding of SpeechF Perceptually Weighted FilterF The DOD 4.8 kb/s Standard-CELPF,音频编码性能评价,1.编码速率（kb/s）信号带宽 3003400HZ 507000HZ 2015000Hz 1020000HZ 采样速率 8KHZ 16KHZ 32KHZ 44.1/48KHZ 编码位数R（b/ps）总速率 I（kb/s）可懂度、

3、自然度、透明度影响重建质量、存储容量、传输带宽,音频编码性能评价2,2.重建语音质量客观评价：信噪比 (15dB以上较好，20dB以上相当好) 分段信噪比 PESQ : Perceptual evaluation of speech quality,6,PESQ,Perceptual evaluation of speech quality, ITU-T Recommendation P.862 An objective method for end-to-end speech quality assessment of narrow-band telephone networks an

4、d speech codecs The closeness of the fit between PESQ and the subjective scores may be measured by calculating the correlation coefficient. Normally this is performed on condition averaged scores, after mapping the objective to the subjective scores.,音频编码性能评价3,PESQ,The correlation coefficient is cal

5、culated with Pearsons formula: In this formula, xi is the condition MOS for condition i, and is the average over the condition MOS values, xi yi is the mapped condition-averaged PESQ score for condition i, and is the average over the predicted condition MOS values yi . For 22 known ITU benchmark exp

6、eriments, the average correlation was 0.935. For an agreed set of eight experiments used in the final validation . experiments that were unknown during the development of PESQ . the average correlation was also 0.935.,音频编码性能评价4,2.重建语音质量主观评价-1 MOS分（Mean Opinion Score） 51分： Excellent Good Fair Poor B

7、ad,音频编码性能评价5,2.重建语音质量主观评价-2 DRT（Diagnostic Rhyme Test=(正确错误)/总100 例如：为（wei）、费（fei） 95%以上优秀 85%94% 良好 75%84% 中等 65%74% 差 65% 以下不能接受判断可接受度测试DAT（Diagnostic Acceptability Test）多维因素测试调制噪声参考单位MNRU（Modulated Noise Reference Unit）量化失真单位QDU（Quantization Distortion Unit）一次PCM编解码,音频编码性能评价6,3. 编解码延时（ms）

8、公众网（25ms）、点对点、广播、存储回声控制或回声抵消正常通话秩序与重建质量关系 4. 算法复杂度硬件、成本浮点、定点 MIPs、RAM、ROM 5. 其他抗随机误码和突发误码能力抗丢包和丢帧能力对不同信号编码能力级联或转接能力B,音频编码性能评价7,11,目前水平,目前发展水平,宽带音频、宽带语音高质量：2b/ps 下一步：1b/ps 电话语音高质量：1b/ps 下一步：0.5b/ps,B,音频压缩依据,时域样点之间相关（短时、长时）F；频域谱的非平坦性（谱包络、谱离散）；统计特性：语音信号的统计特性；F 熵编码。,1. 冗余度,2. 人耳听觉特性,人耳对不同频

9、段声音的敏感程度不同，通常对低频比对高频更敏感；人耳对语音信号的相位不敏感；人耳掩蔽效应 Masking Effect ；对人耳听不到或感知极不灵敏的声音分量都不妨视为冗余。可利用听觉心理特性感觉加权、量化、去除多余分量、后滤波、； B,语音信号是非平稳随机过程时变性短时平稳性 (1020ms，分帧处理),语音信号的特点,B,语音信号的统计特性,短时平稳段分类无话（信息最少）清音（信息较少）浊音（信息较多）起始（信息最多）,B,人耳听觉特性1,正常人的听域和听阈正常人可以听见的频率范围为 0.016 16kHz；强度范围 0 120dB SPL（声压级），这里的基准声

10、压（0dB SPL）是或。自由场听阈是指人进入声场以后能听到的最低声压级。纯音听阈是一个与频率有关的量， 1000Hz时，约为4dB左右；而在40Hz时，上升为50dB左右；在15kHz时，上升为24dB左右。感觉阈代表可以容忍的最高声压。在声压高到一定的程度时，耳朵会出现不适的感觉，或者具有痒、压迫及痛感。对正常人而言一般取 120dB为不适阈； 140dB为痛阈，而且认为其与频率无关。,16,人耳听觉特性2,音调（Pitch）音调是在分辨声音频率高低时，用于描述这种感受的一种特征。对于频率低的声音，听起来感觉它的音调“低”；反之，听起来感觉它的音调“高”。但是音调与频率并

11、不是成正比的关系，它还与声音的强度和波形有关。音调用美（Mel）标度高于听阈40dB，频率为1000Hz的纯音产生的音调定为1000Mel；音调与频率的近似公式：人耳对不同频段声音的敏感程度不同，通常对低频比对高频更敏感；人耳对语音信号的相位不敏感。,17,人耳听觉特性3,掩蔽效应（Masking effect）当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率低的声音在内耳耳蜗基底膜上传播的距离远于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较难。掩蔽会造成因一个声音的存

12、在，而使另一个声音的听阈上升。,18,人耳听觉特性4,临界带宽(Critical band) 噪声的存在会影响到纯音的接收，即对纯音产生掩蔽。为了描述这种掩蔽效果，引入了临界带宽的概念。一个纯音可以被以它为中心频率，且具有一定频带宽度的连续噪声所掩蔽。这个纯音处于刚刚能被听到的临界状态，在这一频带内的噪声功率等于该纯音的功率，即称这一带宽为临界带宽；可以通过实验测得；临界带宽的单位可以用 Bark 来表示；在20Hz-16kHz范围内的声音可以划分为 24个 Bark；粗略地讲，一个临界带宽大约相当于耳蜗基底膜上1.5mmc长，或对应大约1200根听神经纤维；临界带宽编号Z（Bar

13、k）与频率f（Hz）之间的关系可以近似表示为：,B,21,现有标准,宽带音频 ISO/MPEGI（1991),SB：Sub-Band DBA：Dynamic Bit Allocation ISO/MPEG 2（1993）：将采样率扩充到16、22.05、24KHZ，带宽分别为7.5、10.3、11.25KHz。,22,PASCMPEG1 Layer 1,Precision Adaptive Sub-band CodingPASC (MPEG1, Layer 1) 飞利浦公司用于DCC (Digital Compact Cassette) 的算法直接量化需要的数据率采样频率：32kHz, 4

14、4.1kHz, 48 kHz, 16bit/Sampling 编码速率：48 *16=768 kb/s 立体声1536 kb/s DCC标准最高记录频率为48 kHz，可用8条轨迹记录信号，允许的传输速率：384 kb/s,23,PASC Coding,将全频带信号划为32个子带将输入序列中连续512个样点数据滤波，输出32个子带样点分块，当每子带中的数据达到12个，即作为一个数据处理单元进行处理。总共3212384数据。选择比例因子，找出每一子带12个数据中的最大值，作为本子带的比例因子，用6比特量化编码输出。计算各子带内信号的能量，据以确定相应的量化比特数利用人的听觉感知特性，更

15、经济合理地分配好有限的编码比特，以免做“即使编码了，人耳也听不见”的无用功。对子带中的每个样点进行 PCM 编码,24,PASC 编码原理,按以上PASC在384 kb/s的码率下具有很高的质量，实测钢琴、吉它的重建波形与原始波形之间看不出差别；而频率较低的鼓声也只有轻微的差异。,MPEG Layer III,现有标准,宽带语音,MLT：Modulated Lapped Transform The algorithm is based on transform technology, using a modulated lapped transform (MLT). It operates

16、on 20 ms frames (320 samples) of audio. Because the transform window (basis function length) is 640 samples and a 50% (320 samples) overlap is used between frames, the effective look-ahead buffer size is 20ms. Hence the total algorithmic delay of 40ms is the sum of the frame size plus look-ahead. All other delays are due to computational and network transmission delays.,27,现有标准,嵌入式语音编码,现有标准,嵌入式语音编码 G.729EV,TDBWE: Time Domain Bandwidth Extension TDAC: Ti

展开阅读全文