第一部分基本理论

上传人:博****1 文档编号:486226869 上传时间:2023-07-17 格式:DOC 页数:7 大小:148KB
返回 下载 相关 举报
第一部分基本理论_第1页
第1页 / 共7页
第一部分基本理论_第2页
第2页 / 共7页
第一部分基本理论_第3页
第3页 / 共7页
第一部分基本理论_第4页
第4页 / 共7页
第一部分基本理论_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《第一部分基本理论》由会员分享,可在线阅读,更多相关《第一部分基本理论(7页珍藏版)》请在金锄头文库上搜索。

1、个仝资料整覺,仅_限个人学卫使用请 勿商用 第一部分:基本理论:语音信号处理方法细则解释备注时域处理语音数字化和预处理数字化:取样- 量化预处理目的:提升语音信号的高频部分,使信号的频谱变得平坦。以 便于进行频谱分析或声道参数分析。短时平均能量和短时 平均幅度短时平均能量主要用途:可以从清音中区分出浊音可以用来确定声母与韵母,无声与有声,连字等的分界。 可以作为一种超音段信息用于语音识别。短时平均幅度:因为短时平均能量对于高电平信号处理过于灵敏,所以采用短时平局幅度。短时过零分析如果信号按段分割,就称为短时,把各段信号的过零率作统计平均, 就是短时平均过零率。短时自相关函数和平 均幅度差函数短

2、时自相关函数具有自相关函数所有的性质,是语音信号时域分析的一个重要参量。短时平均幅度差函数与短时自相关函数类似的功效,但运算量和对硬件的要求可以降低许多,相对来说,这种技术应用广泛。高阶统计量一般指高阶矩、高阶累积量、高阶矩谱、高阶累积量谱。时频处理短时傅里叶变换是个一个二维函数,也称时频函数。物理意义:函数将窗函数的中心移至某处截取信号,再做傅里叶变换。矩形窗具有较窄的主瓣,因而具有较咼的频率分辨率,但它具有较咼 的旁瓣,且会产生 破碎”的频谱;采用哈明窗得到的短时频谱却要平 滑的多,因而应用的比较普遍。短时傅里叶变换以固定的滑动窗对信号进行分析,从而可表征信号的局域频率特性。小波变换时域等

3、宽的分析方法并不是对所有信号都合适,例如:在信号的低频 端具有很咼的频率分辨率,而在咼频端的频率分辨率较低。所以出现 了小波变换。分析的目的:既要看到森林(信号的概貌),又要看到树木(信号的细节)。倒谱同态处理复倒谱和倒谱无论对于语音通信、语音合成还是语音识别,倒谱参数所含的信息都 比其他参数多,其缺点是运算量较大。尽管如此,倒谱分析仍是一种 有效的语音信号分析方法。语音信号的倒谱分析 与同态解卷积将语音信号中的激励信号与声道响应分离,并且只需用十几个倒谱系数就能相当好地描述语音信号的声道响应。避免相位卷绕的算法缘由:在复倒谱分析中,Z变换后得到的是复数,所以取对数时进行的是复对数运算,这时存

4、在相位的多值性问题,称为相位卷绕”由于相位卷绕使后面求复倒谱、以及由复倒谱恢复语音等运算均存在不确定性而产生错误。解决方法:最小相位信号法第二部分:语音识别系统项目细节解释备注语料库基本特征理论语言学原则指导构成和取样按照明确的语言学原则并采取随机抽样方法收集语料,而非简单堆积。作为自然语言运用的样本,具有代表性。 以电子文本形式存储且通过计算机自动处理。 基于语料库的研究以量化研究为基石,以概率统计为基本手段,以数据驱动”为基本理念。语料文本是一连续的文本或话语片断,而不是孤立的句子和词汇。类型以不冋层面来考虑可以划分为不冋的类型。语音语料库建立、收集和标注。 语音特性描述。863汉语普通话

5、合 成语料库语音识别 的预处理语音识别单元的选 取1、选择原则:首先,对于不同的语言,基兀选择的考虑是不同的,例如:汉语,可用声母一韵母”也可用音节字、词、等作为识别单兀。 第二,识别基元选择具有灵活性,用它可以组成其他的语音或语法单位, 具有稳定性。灵活性希望基兀尽可能地小,如音素;而稳定性则希望基兀尽可能地大,如词甚至词组。第三,基元的选择还需要考虑搜索时间模型存储开销。基元选择愈 小、存储量愈小,算法愈复杂,正识率愈低。第四,基元选择也与实际用途有关,有限词汇量的识别基元可以选 的大一点(如词或短语等);而无限词汇量则应选的小一点(如音素、 声母一韵母等)。这是语音 识别中非 常重要的

6、环节自动分段一端点检 测技术作用:用数字处理技术来找出语音信号中的各种段落(如音素、音节、 词素、词等)的始点和终点的位置。方式:基于能量的端点检测基于LPC-10声码器的端点检测。 基于信息熵的语音端点检测基于频带方差的端点检测基于倒谱特征的带噪语音信号端点检测基于HMM的端点检测方法 基于分形技术的端点检测基于自相关相似距离的端点检测 基于迟滞编码的端点检测10、实时端点检测算法在汉语中 主要目的 是找出字 的两个端 点,进而 找出其中 声母段和 韵母段语音信 号特征参 数基音周期概念:指发浊音时声带震动所引起的周期运动时间间隔。几种有效且实用的的方法:1、自相关法及其改进:区分清音和浊音

7、并估计出基音周期。具体方法:1、先对语音信号进行低通滤波,然后 再计算短时自相关函数。2、采用中心削波技术3、用短时幅度差函数来代替短时自相 关函数,这样也省去乘法运算从而节约运算时间。2、并行处理法:语音信号经过预处理后形成一系列脉冲,这一串脉冲保留了信号的周期性特征, 而略去与基音周期无关的信息;然后由平行的一些简单的检测器估计基音周期。最后在后处理部分,对这几个基音周期检测器的估值作逻辑组合,输出估计的正确周期。 这种算法比较简单,硬件实现容易,不仅能估计出基音周期, 而且还可以定出峰点位置, 这在一些按基音周期操作的处理中是很有用的。3、倒谱法:a采样,用哈明窗平滑,求出倒谱。b.求倒

8、谱峰值及其位置,C.峰门值计算比较得出结论d.峰值检测。4、简化逆滤波法:将语音信号降低采样率并提取其模型参数,然后用 这些参数对原信号进行逆滤波得到音源序列,最后求出该序列的峰值位置以求得基音周期。线性预测参数线性预测信号模型:3种信号模型:1、自回归信号模型(AR模型)2、滑动平均模型(MA模型)3、自回归滑动平均模型(ARMA 模型)理论上讲, ARMA模型和MA模型可以用无限高阶的 AR模型来表达。对 AR模 型作参数估计时遇到的是线性方程组的求解问题,相对来说容易处理, 而且实际语音信号中全极点又占了多数。线性预测误差滤波设计一个预测误差滤波器,就是求解预测系数ai使得预测误差e(n

9、)在某个预定的准则下最小,这个过程称之为线性预测分析。语音信号的线性预测分析语音信号序列是一个随机序列,它也可以用上述的三种信号模型化来进 行分析。线性预测分析的解法 经典的解法有两种:1、自相关法:假定语音信号序列s(n)在间隔ow nWN1 以外等于零,如莱文逊-德宾算法;2、协方差法:不规定语音信号s(n)的长度范围,而定义自相关序列r(j)中n的范围为0w nWN1,在此范围内认为估算 r(j) 所需要的s(n)值存在,即s(n)的长度范围应该为-pw nN1,如乔里斯基算 法。上面两种方法中的精度和稳定性之间都存在矛盾,因而导致了斜格法的逐渐形成。他们都分成两步:先计算相关矩阵,再解

10、一组线性方程。优缺点:自相关法由于使用了窗函数来截取,认为地平滑了s(n),从而引入了误差,所以自相关法求得预测系数精确度不高;另一方面,协方差法由于没有限制 s(n)的长度,又不采用窗口函数,所以精度高,但不 如自相关法稳定。斜格法及其改进在运算中不需要用窗口函数对信号进行加权,同时又保证解得稳定性, 因而较好的解决了精度和稳定性的矛盾。稍后从最大熵谱分析的观点也得到了相似和等价的结果,接着对其缺点进行了改进: 因为一般的斜格法的运算量要比自相关法及协方差大4倍左右,协方差斜格法可使运算量恢复到自相关法或协方差法的水平上,而冋时保持较高的精度和解得稳定。线谱对(LSP)参数线谱对分析原理:在

11、线性预测分析基础上频域求解的方法, 它求解的模 型是线谱对”线谱对是线性预测参数的另一种表示形式, 用线谱对参 数构成合成滤波器 H(z)时和Ki参数一样容易保证稳定性,而且这种参数的量化特性和内插特性均优于反射系数。 线谱对分析的求解:1、代数方程式求根2、DFT 法LPCC参数线性预测倒谱参数(LPCC)是线性预测系数(LPC )在倒谱域中的表 示。该特征是基于语音信号为自回归信号的假设, 利用线性预测分析获 得倒谱系数。优点:计算量小,易于实现,对元音有较好的描述能力。 缺点:在于对辅音的描述能力较差,抗噪声性能较差。MFCC参数美尔频标倒谱系数(MFCC )考虑了人耳的听觉特性,将频谱

12、转化为基 于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪能力,但其计算量和计算精度高。ASCC参数研究表明,中频段 1500Hz2500Hz对口音分类的影响最大,并提出了 一种新的口音敏感刻度,在这种标度下计算的参数就是口音敏感参数ASCC。它与MFCC相同,采用滤波器组的方法计算出来。感觉加权的线性预 测(PLP)特征PLP参数:基于听觉模型的特征参数。是全极点模型预测多项式的一组系数,等效于一种LPC特征。用输入的语音信号经听觉模型处理后所得到的信号 替代传统的LPC分析所用的时域信号。RASTA-PLP

13、 参数很多语音参数估计技术很容易被通信信道的频率响应干扰。感觉加权线性预测(PLP)语音分析是基于语音的短时谱的,在计算语音短时谱之 后又进行了数种基于听觉的变换,PLP参数(正如其他的许多基于短时谱的参数),当短时谱被通信信道频率影响后变得脆弱。使用RASTA方法使得PLP和其他的一些基于短时谱的技术对线性谱失真更具有稳 健性。动态差分参数通常语音信号的动态参数能较好的反映语音信号的时变特征,因此获得每帧信号的特征参数,还要计算相应的差分参数。高阶信号谱类特征在进行语音信号处理时先将信号分帧(每帧大约10ms30ms), 帧期间内的信号视为平稳过程,将整帧信号作DFT等处理得到该帧信号的频谱

14、或功率谱特征。这种处理方法遇到的问题是帧长的合宜选取。若选得太长,在语音信号的特性时变较大的情况下,帧会将不冋时刻具有相当特性差别的特征彼此混淆, 或将一些短时出现的重要特征冲淡、淹没。反之,将帧长取短则又会因帧内样值少而不足以表征低频成分,这事实上相当于加上了使信号畸变的低通滤波。解决问题的途径为:将帧长取的较长,但采用高阶信号谱类来代替付氏 谱作为每帧的特征, 使之能较好的表征时变 (非平稳)信号的特性。有 一种高阶信号谱称为 WV谱特征变换线性判别分析(LDA)用一类比较简单的判别函数进行分析。首先假定g(x)是x的线性函数:g(x)=wix+wiO.对于c类问题,可以定义 c个判决函数,则i=1,2, 最后要用样本去估计wi和wi0,并把未知样本 x归到具有最大判别函数值的类别中去。从本质上 看,提取 的语音特 征参数不 是正交 的,它的 概率统计主分量分析(PCA)信息处理过程中的一个关键问题就是大数据量问题, 因此如何以尽可能 小的代价,尽可能地减小数据量,获取尽可能高的效率。简单地丢弃一 部分数据,显然会导致很大的失真,破坏信息的完整性。所谓主分量分析,就是要寻找、保留数据中最有效、最重要的成分”舍去一些冗余的、包含信息量很少的成分”分布也不 是独立 的,这三 种分析方 法将语音 特征参数 正交化、 独立化。独立分量分析(ICA)假设n个观测变量,由n

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号