语音识别实验报告语音识别实验报告篇一:语音识别报告“启动”的时域波形1、 语音预加重:由于语音信号在高频部分衰减,在进行频谱分析时,频率越高,所占的成分越小,进行语音预加重,可以提升语音高频部分,使频谱变得平坦,以方便进行频谱的分析和处理通常的措施是采用数字滤波器进行预加重,传递函数是:H(z)?1??z?1,其中?一般去 0.92-0.98 之间,所以在计算的时候取 0.9375预加重后的波形2、 分帧 加窗 语音信号具有较强的时变特性,其特性是随时间变化的,但是语音的形成过程与发音器官的运动有关,这种物理运动比起声音振动的速度十分缓慢,在较短的时间内,语音信号的特征可以被认为是保持不变的,通常对语音处理是通过截取语音中的一段进行处理的,并且短段之间彼此经常有一些叠加,这一段语音成为一帧语音,语音段的长度称为帧长,对每一帧处理的结果可用一组数来表示一般取帧长为 10—30ms采样频率是 8000Hz,所以取的帧长是 256,帧移是 178分帧之后加汉明窗3、 端点检测 端点检测从背景噪声中找出语音的开始和终止点短时能量就是每帧语音信号振幅的平方和En??[s(m)];m?0N?1短时能量曲线短时过零率是每帧内信号通过零点的次数,是信号采样点符号的变化次数。
1N?1Zn??sgn[x(m)]?sgn[x(m?1)];2m?0“启动”的过零率曲线 在实验室的安静的环境下,依靠短时能量和短时过零率就可进行语音信号的起止点判断当背景噪声较小时,没有语音信号的噪声能量很小,而语音信号的短时能量增大到了一定数值,可以区分语音信号的开始点和终止点当背景噪声较大时,可以用短时平均过零率和短时能量结合来判断基于能量一过零率的端点检测一般使用两级判决法,在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限整个语音信号的端点检测可以分为四段:静音、过渡音、语音段、结束时的静音段, (1)如果能量或过零率超越了低门限,就应该开始标记起点,进入过渡段在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态而如果在过渡段中两个参数中的任一个超过了高门限,就可以确信进入语音段了,并标记起始点2)如果当前状态之前处于语音段,而此时两个参数的数值降低到底门限以下,并且持续时间大于设定的最长时间门限,那么就认为语音结束了,返回到参数值降低到底门限以下的时刻,标记结束点端点检测波形4、 特征提取检测到语音的起点后就可以开始对检测出来的语音信号段中抽取语音识别所需的信号特征,语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。
语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板目前,有效的特征参数有线形预测编码(LPC)系数,线形预测编码倒谱(LPCC)系数和 Mel 频率倒谱系数(MFCC),其中比较常用的是 MFCCMFCC 参数:人耳对不同频率的声波有不同的听觉灵敏度,因此从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器对输入信号进行滤波,将每个带通滤波器输出的信号的量作为信号的基本特征,对此特征进行进一步处理后就可以作为语音识别系统的输入特征MFCC 参数也是按帧计算的,计算通常采用如下的流程:(1)首先初始化 Mel 三角滤波器组,取滤波器的个数是24 个,其中心频率依次为28Hz、89Hz、154Hz、224Hz、300Hz、383Hz、472Hz、569Hz、674Hz、787Hz、910Hz、1043Hz、1187Hz、1343Hz、1512Hz、1694Hz、1892Hz、2106Hz、2338Hz、2589Hz、3154Hz、3472Hz、3817Hz2)首先对每一帧序列进行离散 FFT 变换,取模的平方得到离散功率谱3)计算功率谱通过 24 个滤波器后所得的功率值,得到 24 个参数 Pm,对 Pm 去取对数得到 Lm。
4)对 Lm 进行离散余弦变换, Cn??Lm?124mcos(?(m?0.5)n/24)得到 MFCC 参数,通常取前 13 个系数作为该语音的特征参数对每一帧进行 MFCC 的计算,就得到了一个行数是语音的帧数,列数是 13 的表征语音特征的矩阵5、 矢量量化 在特征提取之后,对矢量序列要进行矢量量化,就是用若干离散的数字值(或称为标号)来表示各帧的 13 维参数矢量矢量量化过程:将语音信号的(1) 首先对矢量序列进行聚类,根据语音信号的特征矢量聚类得到另一组量化矢量作为码书,每个矢量成为码字,这组量化矢量长度选择322) 计算特征矢量与每个码字的失真度,用失真度最小的特征矢量的标号代替该特征矢量,这样将一个矩阵转换为一个矢量6、 训练和识别 语音识别过程是根据模式匹配原则,计算未知语音模式与语音模板库中的每一个模板的距离测度,从而得到最佳的匹配模式语音识别所应用的模型匹配方法主要有动态时间弯折、隐式马尔可夫模型和人工神经网络隐马尔科夫模型是用于描述随机过程统计特性的概率模型,在实际问题中,观察者只能看到观察值,而观察值并不与状态一一对应,因此,不能直接看到状态,而只能是通过一个随机过程去感知状态的存在及其特征。
因此称之为隐马尔科夫模型(HMM) 在 HMM 中有 5 个参数1)N:模型中状态数目记 N 个状态为?1,?,?N,记t 时刻所处状态为 qt2)M:每个状态对应的可能的观察值数目记 M 个观察值为?1,?,?M,记 t 时刻观察到的观察值为 ot3)?:初始状态概率矢量,??(?1,?,?N),其中?i?P(q1??i),1?i?N4)A:状态转移概率矩阵,A?(aij)N?N,其中aij?P(qt?1??j|qt??t)5)B:观察值概率矩阵,B?(bij)N?M,其中bij?P(ot?vj|qt??j)这样,可以记一个 HMM 为??(N,M,?,A,B)语音信号本身是一个可观察序列,但它是由大脑中的(不可察序列)、根据言语需要和语法知识(状态选择)所发出的音素(词、句)参数流,所以,可以用 HMM 模型来描述语音信号语音识别中的孤立词识别,对每个孤立词建立一个 HMM 模型,当输入一个孤立词时,先对它进行特征值的提取,利用矢量量化将矢量序列转换为一组符号,然后计算这组符号和每个 HMM 上的输出概率,概率最值所对应的孤立词就是识别结果孤立词的语音识别中主要解决三个问题:(1)给定观察值序列 O?o1,o2,?,oT, (T 是语音信号帧的长度)和模型?的情况下,计算给定模型参数时观察值序列的概率 P(O|?)。
2)给定观察值序列 O?o1,o2,?,oT 和模型?,选择对应的最优状态序列 q?q1,q2,?,qT该问题将揭示模型的隐含部分,即估计出模型产生观察值序列时可能经历的路径,并选择出概率最大得一条路经3)如何调整模型参数?元(AB),使 P 最大,这是一个训练过程来训练 HMM,它可以使模型参数最为理想地适应所观察到的训练数据所以在模板训练中主要解决第三个问题,对每个词分别进行训练,得到模型参数,然后对要识别的词在每个模板下进行问题一的计算,得到最大的概率,将其对应的模板作为结果 篇二:语音识别系统的开题报告天津理工大学本科毕业设计开题报告届:XX 届 学院:自动化学院 专业:测控技术与仪器 XX 年 3 月 11 日 篇三:DSP 课程设计语音识别报告DSP 课程设计语音识别课题报告姓名 高鹏于是阳 学号 1221XX12212025学院 电子信息工程学院班级 自动化 1202指导教师 钱满义一、设计任务书1.1 实验目的掌握利用 DSP 进行语音信号采集的方法,利用 DSP 对语音信号进行特征提取,从而实现语音信号的识别学会A/D、D/A 的工作原理和使用,学会 A/D、D/A 转换器的编程方法。
以语音信号处理为依托,深入理解信号的抽样和重建的基本方法,提高学生系统地思考问题和解决实际问题的能力通过调用 DSP CSL 库对 McBSP 接口的编程,学会 DSP 片上外设的使用方法1.2 技术指标及设计要求(1)对 DMA 进行初始化;(2)对 A/D、D/A 进行初始化;(3)编写 DMA 中断服务程序,实现语音信号的实时识别;(4)根据识别系统的类型选择一种识别方法,采用语音分析方法分析出这种识别方法所要 求的语音特征参数,作为标准模式由机器存储起来,形成标准模式库5)对语音进行特征参数的分析,语音信号经过相同的通道得到语音参数,生成测试模板;(6)将测试模板与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果,从而实现语音的识别1.3 设计思路首先利用 DSP 对语音信号进行分析,提取语音的特征参数,形成“模板” 语音识别系统对特征参量的提取可采用 FFT 算法语音识别和说话人识别中的 LPC 倒谱和 MEL倒谱,都与语音的频谱包络密切相关,不同的参数表示不同的频谱包络识别时,对其进行特征参数的分析,识别参数可以选择平均能量、过零数或平均过零数、频谱、倒谱、线性预测系数,音长,音调,声调等超音段信息函数。
最后将语音参数和模板进行比较,从而实现语音的识别1 二、实验原理2.1 语音识别概述语音技术,包括语音识别、语音合成、关键词检出、说话人识别与确认、口语对话系统等,是现代人机交互的重要方式之一,具有广泛的应用前景其中语音识别技术,尤其是连续语音识别技术,是最基础、最重要的部分,而且已经逐步走向成熟与实用语音识别(Speech Recognition)是指让机器听懂人说的话,即在各种情况下,准确的识别语音的内容,从而根据其信息,执行人的各种意图或执行特定的任务,其最终目标是实现人与机器进行自然语言通信利用 DSP 可以对语音信号进行实时采集、提取语音特征向量、进行语音识别语音识别系统对语音特征参量的提取可以采用 FFT等算法,不同的参数表示不同的频谱包络利用 DSP 技术来实现语音识别其实就是要利用 DSP 处理器强大的数据处理功能对表征语音的各种形式的信息进行处理和分析,以对语音进行描述、辨认、分类和解释无论是早期的孤立词识别系统还是当代的连续语音和非特定人识别系统,它们的系统基本结构框图都可以用下图来进行简单描述其主要过程包括语音信号的预处理(端点检测等) 、特征提取、建立参考模板库、相似性度量和识别决策等几个功能模块。
从图中可以看出语音识别系统的本质就是一种模式识别系统,它也包括特征提取、模式匹配、参考模式库等基本单元由于语音信号是一种典型的非平稳信号,加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征,而要进行前期的预处理预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等经过预处理的语音数据就可以进行特征参数提取在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模板库在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果后续的处理过程还1可能包括更高层次的词法、句法和文法处理等,从而最终将输入的语音信号转变成文本或命令语音信号的预处理模块一般包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等在不同的系统中对各子模块会有不同的要求,如在嵌入式语音识别系统中一般要求有防混叠滤波电路、A/D 转换电路和采样滤波电路等,而在计算机上实验时则可由音频采集卡完成,无需实验者亲自动手2.2 硬件构成在本次实验中,我们用到的是 BJTU-DSP5502 实验系统,实验箱内包括 BJTU-DSP5502 实验板和 SEED-XDS510PLUS 仿真器以及相关配件。
它采用的语音处理模块是 TI 公司的TMS320VC5502,其主要特点包括:采用改进的哈佛结构,内部独立总线:12 组;程序地址总线(PAB):1 组,24 位;程序数据总线(PB)。