语音质量评价－金锄头文库

资源描述

《语音质量评价》由会员分享，可在线阅读，更多相关《语音质量评价（6页珍藏版）》请在金锄头文库上搜索。

1、通常，人既是语音的发送主体，也是语音的接收主体。语音所具备的自然届性和社会届性决定了人对语音的感知涉及到语音信号的物理特征、听觉器官对语音的听觉表征及听觉心理等诸多方面，因此难以对语音质量这个概念做出全面、精确的定义。一般说来，语音质量至少包括三个方面内容：活晰度、可懂度和自然度。活晰度是指语音中语言单元为意义不连贯的如音素、声母、韵母等单元的活晰程度；可懂度是指语音中有意义的语言单元如单词、单句等内容的可识别程度；自然度那么与语音的保真性密切相关。目前对语音可懂度、活晰度的主观评测己有国际和国内标准，对语音自然度还缺乏公认的评价准那么。语音质量受到个人区别、可理解性、语音特征、周围

2、环境、背景噪声传输、网络状况和人的期望等复杂的因素影响.用于评价输出语音质量的方法分为主观评价和客观评价两种 1主观评价法主观评价方法以人为主体在某种预设原那么的根底上对语音的质量作出主观的等级意见或者作出某种比拟结果，它反映听评者对语音质量好坏的主观印象。不同的主观评价方法对语音质量考察的侧重点不同，常见的主观评价方法有平均意见分Mean Opinion Score ,MOS法、判断韵字测试Diagnostic RhymeTest, DRT海法、失真平均意见分Degradation MeanOpinion Score, DMOS判断满意度测试Dignostic Acceptabi

3、lity Measure, DAM方法和汉语活晰度测试。ITU-T推荐用于传输性能的主观评价有以下几种14:1. 绝对等级评价Absolute Category Rating, ACRACM要通过平均意见分MOS对音质进行主观评价。这种情况下没有参考语音，听音人只听失真语音，然后对该语音作出1-5分的评价。AC价方法不需要参考音，比拟灵活，然而由于人对不同声音的喜好不同，这种灵活性会导致一定的不公平性。2. 失真等级评价Degradation Category Rating , DCRDC眼要通过失真平均意见分DMOS来实现音质的主观评价。这种评价方法要求听音人在给失真语音打分前，先熟悉

4、原始语音参考语音,再将失真语音与原始语音的差异按一定标准来描述。咐用于评价诸如汽车噪声、街道噪声或其他说话人十扰等为背景噪声情况下的音质。噪声的类型和数量将直接影响评定的失真等级。3. 相对等级评价Comparison Category Rating , CCRCCR方法主要采用相对平均意见分CMOS对音质进行主观评价。CCR类似于 DCR不同的是，在CCRJ法中，原始语音和失真语音的播放次序是随机的，听音人不知道哪是原始音、哪是失真音。听音人只是在上一个音的根底上，评定出当前音相对于上一音的好坏。CCR方法允许对处理后语音失真语音的评价高丁原始音的评价，因此，它可以用来评价具有噪声

5、抑制和语音增强功能的编码器，也可以用来比拟两种未知编码器的性能优劣。MOS分方法是由CCITT隹荐的主观评价方法，现已广泛作为不同系统之间的比拟标准。它采用五级评分制MOS分语音质量失真觉察程度收听注意力等级5优(excellent)小察竟可完全放松，不需要汪息力4良(Good)刚有发觉需要注息，但不需明显集中3F (Fair)有发觉且刚觉可恶中等程度的注意力2差(Poor)明显发觉且可厌但可忍受需要集中注意力1劣(Unacceptable)不可忍受即使努力去听，也很难听懂MOS分中质量优表示重建语音和原始语音只有很少的细节差异，且假设不进行对照听比就觉察不出这种差异质量良表示

6、重建语音的畸变或失真不明显，不注意听感觉不到；质量一般表示重建语音有比拟明显可感知的畸变成失真，但语音自然度和活晰度仍很好，且听起来没有疲劳感；质量差表示重建语音有较强的畸变或失真，听起来已有疲劳感；质量极差表示重建语音的质量极差，听觉无法忍受。在数字语音通信中，通常认为MOS为4.0 4.5%高质量数字化语音，到达长途电话网的质量要求，接近丁透明信道编码，也常称之为网络质量。MOS为3.5分左右称为通信质量，这时能感到重建话音质量有所下降，但不阻碍正常通话，可以满足多数语音通信系统使用要求。MO粉3.0以下常称为合成语音质量，指一些声码器合成的语音所能到达的质量。它虽然有较

7、高的可懂度，但自然度较差 MOS分法的优点是：由丁编码系统的质量是按数值大小等级排列，所以不同失真类型的编码系统就可以相互比拟；评测者只需实现进行简单训练，就可直接参与评测，因而容易完成.其缺点是：它把不同种类的失真混为一谈，没有指出失真的原因，不利丁算法的改良。另外，测试条件的选择及其他一些因素会影响 MOS法的结果判断韵字测试DRT判断韵字测试是反映语音活晰度或可懂度的一种测试方法，它主要用丁低速率语音编码的质量测试，因为这时可懂度已成为主要问题。这种测试方法使用假设干对通常是96对同韵母进行测试，例如中文的“为和“费，英文的fast 和vast等。让受试者每次听到一对韵字中的

8、某个音，然后让他判断所听到的音是哪一个字，全体实验者判断正确的白分比就是 DR-W分，通常认为DRT95% 以上时活晰度为优，85%-94洌良，75%-84洌中，65%-75洌差而65恕下为不可接受。在实际通话中，活晰度为50%寸，整句的可懂度大约为80%这是因为整句中具有较高的冗余度，即使个别字听不活楚，人们也能理解整句话的意思。当活晰度为90%寸，整句话的可懂度已接近100%所以对于低速率语音编码，一般要求其活晰度能到达90%以上诊断满意度测量(Diagnostic Acceptability Measure)DAM!对语音质量的综全评估，它是在多种条件下对话音质量的接受程度的一

9、种度量。这种评分体系相当全面，也相当复杂主观评价的优点在于直接、易于理解，真实反映语音质量的实际情况。然而，主观评价不但对听评条件、听评流程有严格要求，为了防止个别听评者的感知偏差，还需要对大量的听评者的评价结果做统计，因此主观评价费时费力，本钱高，灵活性差，重复性不好，难以应用于实时性场合。2客观评价法音质的客观评价是指用机器自动判别语音质量，按是否需要使用输入语音的角度可分为两类：基于输入一输出方式的客观评价和基于输出方式的客观评价。基于输入一输出的客观评价比拟输出和输入语音之间的差异(失真)程度，将差异量值作为语音质量的衡量依据；基于输出的客观评价那么仅由输出语音就可对语音

10、的质量做出评估。在应用中，输入语音也常称为原始语音或者参考语音，通过系统的输出语音常称为失真语音。以往的音质客观评价研究大多集中于输入一输出方式，随着技术开展、对通信效劳质量的关注等，基于输出的音质评价技术正得到越来越多的关注。客观评价不受人为主观因素的影响，本钱低廉，灵活性好，效率高，具有可重复性，且可实时使用，例如对VoIP网络中语音传输质量的实时监控和用于指导系统中设备参数调整等。尽管科学家对人类的感官感知和神经信息处理机制做了大量的研究并取得一定的成果，但人们对人类感知的机理和大脑活动的运作方法仍处在一知半解的初级阶段，因此我们还无法建立一个能完全模仿人类音质感知过程的客观评

11、价系统，只能根据所获得的信息作出尽可能正确的评价，所建立的客观评价系统也与人类所具有的感知评价能力相差其远。因此，客观评价并不能完全取代主观评价。在实际应用中，通常将主观评价和客观评价结合使用。客观评价常用于系统的设计、调整以及现场实时监控阶段，主观评价作为实际效果的最终检验，两者相辅相成，用于不同的场合。其次，客观评价系统的优劣取决于由它得到的客观评价结果与主观评价结果是否具有统计意义上高相关性以及小的偏差，因此客观评价系统的设计必须以主观评价为根底，并借鉴主观评价主体的感知功能和智能特性。合格的客观评价系统可在一定使用范围内中代替主观评价对语音质量做出根本正确的判断。3 客观评价

12、原理基丁输入一输出的客观评价是在信号特征表示的根底上对失真语音和原始语音进行比拟。下列图为基丁输入一输出的客观评价的模块原理图，从流程上分为预处理、语音信号特征提取、客观失真量计算和质量等级映射四大模块。预处理包括输入一输出语音信号的同步处理、电平规整、分帧等处理步骤。同步处理是为了保证所比拟的输入和输出语音单元之间有正确的对应关系，否那么将对客观评价结果产生巨大的偏差；为了消除语音信号幅度差异对主观听觉的影响，必须通过电平规整保证输入和输出语音的声压级根本相同；虽然语音是时变的非平稳信号，但是在一个短时间范围内(1Oms-30ms),其特性相对稳定，因此可以将连续语音信号分割为短时间范

13、围的时间片序列以便丁后续的特征参数分析。这样，对丁整体的语音信号，通过预处理环节后，语音信号被分割为以帧为单位、加窗处理过的短时信号。语音信号分析是语音信号处理的前提和根底，分析的目的是提取需要的信息, 获取特征表小参数。曾有语音处理专家在论文中表小：语音信号的表小是人类近代科学研究中很少碰到的难题之一 18。虽然语音信号是一维波形信号，但仅从时域上描述其特性是远远不够的，特别是在音质评价中，两个时域波形差异很大的语音信号的主观音质感觉可能根本相同，因此需要使用频域分析及其它信号分析方法表示语音信号的特征。对于语音帧序歹0 ,语音信号特征提取模块使用适当的分析方法，得到表示语音

14、信号的特征参数。特征参数对音质评价效果有极其重要的影响，音质评价的特殊性对所使用的语音特征参数有着独特的要求。客观失真量计算模块用于计算失真量。所谓失真量是指原始语音和输出语音特征参数之间的总体差异量，该量值反映语音通过系统后的质量变化，即输出语音对于原始语音的失真程度。由于尚不活楚人类听觉系统、感知神经系统以及大脑思维在判断语音质量过程中的相互作用, 无法建立人类感知语音失真程度的真实数学模型，因此常采用Lp,范数形式计算客观失真量。为了与主观评价等级一致，通常将客观评价所得到的失真量映射为主观评价的尺度表示，如MOSJ 5级表示，映射模块即完成此功能。映射模块可按二次或者三次多项式函数拟合形式建立客观失真量与主观等级分之间的对应关系。使用基于输入一输出的客观评价时要求原始语音和失真语音之间做到严格同步，而在实际应用中，严格同步的要求并不容易得到满足，同时在某些应用场合中难以或者不便于采集到原始语音材料，这就要求开展基于输出语音的客观评价方法。基于输出的客观评价方法仅对输出语音进行处理，因此在预处理中不再需要端点同步处理步骤，其他处理模块的功能等同于基于输入一输出的客观评价方法，但在模块具体实现中，如特征提取等，必须使用适合基于输出评价方式的方法和技术手段。下列图为基于输出方式的客观评价的模块原理图。

展开阅读全文