Htk实验笔记(注释)史上最完整版

上传人:新** 文档编号:507883185 上传时间:2023-08-23 格式:DOC 页数:49 大小:186.50KB
返回 下载 相关 举报
Htk实验笔记(注释)史上最完整版_第1页
第1页 / 共49页
Htk实验笔记(注释)史上最完整版_第2页
第2页 / 共49页
Htk实验笔记(注释)史上最完整版_第3页
第3页 / 共49页
Htk实验笔记(注释)史上最完整版_第4页
第4页 / 共49页
Htk实验笔记(注释)史上最完整版_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《Htk实验笔记(注释)史上最完整版》由会员分享,可在线阅读,更多相关《Htk实验笔记(注释)史上最完整版(49页珍藏版)》请在金锄头文库上搜索。

1、 .wd.Htk实验笔记Yes Or No孤立词识别史上最完整版哦摘要:本试验中,我们将基于HTK对象散设立建设一个2-单词识别体系,辞汇散是Yes,No。那是能够方案出去的最根基的主动语音识别Automatic speech recognition,ASR体系。 方针:设立建设一个伶仃词识本实验中,我们将基于HTK工具集建设一个2-单词识别系统,词聚集是Yes,No。这是可以设计出来的最 根本的自动语音识别Automatic speech recognition,ASR系统。目标:建设一个孤立词识别系统,只包含yes和no两个词。步骤:A:创立一个语料库,确定识别 根本元如单词yes,no等

2、,yes和no各录5次B:声学分析,把waveform的声音文件转换为mfcc格式,即对语音材料库中的声音文件提取MFCC声纹特征梅尔频率倒谱系数,这个局部的详解见教程10。C:模型定义:为词典里的每一个词 根本元建设一个HMM原型D:模型训练:HMM模型初始化和迭代,利用MFCC声纹特征对每一个HMM模型进展训练,使模型参数与其描述的识别 根本元对应。E:问题定义,即语法定义,定义输入语音的语法规则等,从发音对应到文字。F:对测试集合进展识别G:评测使用的教程:1. HTK(V3.1)根基指南中文版 :/wenku.baidu /link?url=VRsYTg5kQDtTc5hxvnkYXB

3、OO8h0Zzs3yP-QFXAdmDjIJwA78t0qBJCAET9XPXXr7-qTlL7N6I6XcwEzYGJ7fhF2h4b5CaPHLwGNZCBFeSaq2. 语音识别工具箱之HTK安装与使用 :/ cnblogs /mingzhao810/archive/2012/08/03/2617674.html3. 语音识别系统之htk-孤立词识别yesno :/ HTK(yesno)教程 :/ doc88 /p-7748040237188.html5. HTK孤立词识别回忆 :/wenku.baidu /link?url=B1nCFAk9XQBlB0Nd8UrR9sw4ZasCWbT

4、2u9ZzvPoL5RpnEUUHZA8EY-7nJQrbkQOTZYToW7sN-k6gT-AsQBcO9ADnjlVUyFY1r4e_1d14PLO6. 一个简单的HTK入门参考例子 :/wenku.baidu /view/91639fd7195f312b3169a584.html7. 利用HTK工具包快速建设一个语音命令识别系统 :/baidutech.blog.51cto /4114344/9043888. Windows 安装HTK3.4.1语音识别工具这里有HSLab运行失败的原因 :/ cnblogs /eboard/archive/2012/02/20/HTK.html9. H

5、tk error book :/read.pudn /downloads38/sourcecode/comm/127382/htk-3.3/HTKBook/.%23errors.tex.1.7_.htm10. UNDERSTANDING HTK ERROR MESSAGES :/blog.sina .cn/s/blog_4840fe2a0100mdhv.html11.htk 源码 :/ verysource /code/6757198_1/hmodel.c.html12. 语音信号处理之四梅尔频率倒谱系数MFCC :/ :/ 1data/ :存储训练和测试数据语音信号、标签等等,包括一个子目录

6、data/train,而train包括2个子目录,data/train/sig(用以存储步骤1接下来录制的训练语音数据) 和data/train/mfcc(用来存储步骤二中训练数据转化后的mfcc参数); 2model/:存储识别系统的模型HMMs的相关文件; 3def/:存储任务定义的相关文件; 4test/:存储测试相关文件我是将测试数据存在此文件夹的没有放在data中。 在data/下创立data/train/sig、 data/train/lab、data/train/mfcc文件夹,分别存放采集的语音材料的sig文件、lab标签文件和提取的MFCC声纹特征文件。 在model/下创立

7、model/proto、model/hmm0、model/hmm0flat、model/hmm1、model/hmm2、model/hmm3文件夹:model/proto用于存放模型初始化所需HMM原型定义文件hmm_yes、hmm_no、hmm_silmodel/hmm0用于存放使用HInit命令初始化HMM模型输出的描述结果文件依然是hmm_yes、hmm_no、hmm_silmodel/hmm0flat用于存放使用HCompv命令初始化模型时输出的可变基底宏文件vFloors丢弃使用HCompv初始化模型时产生的hmm_yes、hmm_no、hmm_silmodel/hmmi为使用HRe

8、st命令迭代训练HMM模型时的输出目录,i为表示当前迭代i的索引。最终单词HMM模型是hmm3/hmm_yes,hmm3/hmm_no,andhmm3/hmm_sil。 在test/下创立test/sig、test/mfcc、test/result文件夹,分别存放测试用的语音材料的sig文件、提取的MFCC声纹特征文件和测试结果文件。 整个目录的构造我将在本文最后给出。二.创立语料库首先我们需要录音以采集足够的语音数据,对于“yes、no这两个命令都需要录一些相应的语音样本,同时也需要对录下的语音做一些简单的标注。录音和标注可以采用HTK工具包中的HSLab来完成。这里我们采集YES和NO两个

9、单词。在命令行下进入HTK/work/YesNo/data/train/sig文件夹sig语言文件保存在该目录中,输入:HSLab yes.sig 回车该命令用于使用HSLab工具翻开所在目录的yes.sig文件,如果没有该文件,则在该目录中新建该文件,这里使用该命令翻开HSLab图形化界面,录制yes.sig 这一步可能会遇到如下问题:报错:“ERROR +6870 MakeXGraf: Not compiled with X11 support: use HGraf.X.c FATAL ERROR - Terminating pro解决方法: :/ -1、这需要修改HTKLib文件夹下的h

10、tk_htklib_nt.mkf文件,共有两处需要修改:将文件中的HGraf.null.obj替换为HGraf_WIN32.obj、HGraf.null.olv替换为HGraf_WIN32.olv; -2、然后在cmd命令行中重新编译HTKLib文件夹下的htk_htklib_nt.mkf; -3、检查HTKTools文件夹下的Makefile.in文件,如果有-lX11字符的话将其删除,然后在cmd命令行中重新编译HTKTools文件夹下的htk_htktools_nt.mkf文件; 需要将bin.win32文件夹的路径参加到环境变量中原因: :/ cnblogs /eboard/archi

11、ve/2012/02/20/HTK.html 默认情况下HSLab工具使用的是x11做的图形界面接口,windows不支持,所以需要修改一下生成文件,使用windows GUI。重新执行HSLab yes.sig 回车,一个用于录音的对话框就会出现。如图:下面我们开场录音。录音环境自己控制哈。 :/ cnblogs /mingzhao810/archive/2012/08/03/2617674.html1.录制声音。点击rec按钮,说:“yes,然后点击stop按钮。你会看到界面上出现一个语音波形,一条语音样本就录制完成了,你可以点击play播放听一下。 2.给声音做标记。本条语音一共需要做3

12、个标记:yes语音段的标记和其前后各一个的静音段标记。注意:做标记的语音段不能重复可以不相连。点击mark,用鼠标选取“yes前面的一段静音后,再点击Labelas,用键盘输入sil 表示 silence 静音的意思,然后 回车。这样我们就给本条语音的静音段做了一个标记。再点击mark,选取“yes“的发音段可以选取左右两边的边界,不容易出错,然后点击Labelas按钮,用键盘输入“yes,回车。这样我们就给本语句的yes做了标记,依照此方法,完成yes后面那个sil语音段的标记。完成这3个标记后,点击save按钮,回车。将我们的其标记文件保存。保存目录为HSLab.exe的运行目录。别找不到

13、文件了哈。 3.重命名语音文件和语音标记文件。语音文件后缀为*.sig,标记文件后缀为*.lab。因为HGraf:HSLab只能自动给出0,1的文件名序号,我们又需要至少10条的语音材料,所以就需要录制一条语音,重命名一条。我们将yes_0.sig重命名为yes_01.sig,将yes_0.lab重命名为yes_01.lab.至此,我们完成了一个语音材料的录制。 4.点击new按钮这里不点new的话你会发现lab文件中有N多个标签信息,如果遇到这种情况,你可以删除相应lab文件,重新翻开sig文件贴标签,会发现new按钮旁边的set0变为set1了。然后依照1,2,3步,新建下一条语音材料,这时HSLab自动保存的文件名为,yes_1.sig,yes_1.lab,将其命名为yes_02.sig和yes_02.lab即可。 5.再执行9次第4步,得到yes_03,yes_04.yes_10的语音材料和标记文件。 6.依照1,2,3,4,5步的方法,完成no的语音材料和标记文件的制作,得到no_00.sig,no_00.lab.no_10.sig,no_10.lab. 7.这样我

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 国内外标准规范

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号