Htk实验笔记（注释）史上最完整版

资源描述

《Htk实验笔记（注释）史上最完整版》由会员分享，可在线阅读，更多相关《Htk实验笔记（注释）史上最完整版（49页珍藏版）》请在金锄头文库上搜索。

1、 .wd.Htk实验笔记Yes Or No孤立词识别史上最完整版哦摘要：本试验中，我们将基于HTK对象散设立建设一个2-单词识别体系，辞汇散是Yes，No。那是能够方案出去的最根基的主动语音识别Automatic speech recognition，ASR体系。方针：设立建设一个伶仃词识本实验中，我们将基于HTK工具集建设一个2-单词识别系统，词聚集是Yes，No。这是可以设计出来的最根本的自动语音识别Automatic speech recognition，ASR系统。目标：建设一个孤立词识别系统，只包含yes和no两个词。步骤：A:创立一个语料库，确定识别根本元如单词yes,no等

2、，yes和no各录5次B:声学分析，把waveform的声音文件转换为mfcc格式，即对语音材料库中的声音文件提取MFCC声纹特征梅尔频率倒谱系数，这个局部的详解见教程10。C:模型定义:为词典里的每一个词根本元建设一个HMM原型D:模型训练:HMM模型初始化和迭代，利用MFCC声纹特征对每一个HMM模型进展训练，使模型参数与其描述的识别根本元对应。E:问题定义，即语法定义，定义输入语音的语法规则等，从发音对应到文字。F:对测试集合进展识别G:评测使用的教程：1. HTK(V3.1)根基指南中文版 :/wenku.baidu /link?url=VRsYTg5kQDtTc5hxvnkYXB

3、OO8h0Zzs3yP-QFXAdmDjIJwA78t0qBJCAET9XPXXr7-qTlL7N6I6XcwEzYGJ7fhF2h4b5CaPHLwGNZCBFeSaq2. 语音识别工具箱之HTK安装与使用 :/ cnblogs /mingzhao810/archive/2012/08/03/2617674.html3. 语音识别系统之htk-孤立词识别yesno :/ HTK(yesno)教程 :/ doc88 /p-7748040237188.html5. HTK孤立词识别回忆 :/wenku.baidu /link?url=B1nCFAk9XQBlB0Nd8UrR9sw4ZasCWbT

4、2u9ZzvPoL5RpnEUUHZA8EY-7nJQrbkQOTZYToW7sN-k6gT-AsQBcO9ADnjlVUyFY1r4e_1d14PLO6. 一个简单的HTK入门参考例子 :/wenku.baidu /view/91639fd7195f312b3169a584.html7. 利用HTK工具包快速建设一个语音命令识别系统 :/baidutech.blog.51cto /4114344/9043888. Windows 安装HTK3.4.1语音识别工具这里有HSLab运行失败的原因 :/ cnblogs /eboard/archive/2012/02/20/HTK.html9. H

5、tk error book :/read.pudn /downloads38/sourcecode/comm/127382/htk-3.3/HTKBook/.%23errors.tex.1.7_.htm10. UNDERSTANDING HTK ERROR MESSAGES :/blog.sina .cn/s/blog_4840fe2a0100mdhv.html11.htk 源码 :/ verysource /code/6757198_1/hmodel.c.html12. 语音信号处理之四梅尔频率倒谱系数MFCC :/ :/ 1data/ ：存储训练和测试数据语音信号、标签等等，包括一个子目录

6、data/train,而train包括2个子目录，data/train/sig(用以存储步骤1接下来录制的训练语音数据) 和data/train/mfcc(用来存储步骤二中训练数据转化后的mfcc参数)； 2model/：存储识别系统的模型HMMs的相关文件； 3def/：存储任务定义的相关文件； 4test/：存储测试相关文件我是将测试数据存在此文件夹的没有放在data中。在data/下创立data/train/sig、 data/train/lab、data/train/mfcc文件夹，分别存放采集的语音材料的sig文件、lab标签文件和提取的MFCC声纹特征文件。在model/下创立

7、model/proto、model/hmm0、model/hmm0flat、model/hmm1、model/hmm2、model/hmm3文件夹：model/proto用于存放模型初始化所需HMM原型定义文件hmm_yes、hmm_no、hmm_silmodel/hmm0用于存放使用HInit命令初始化HMM模型输出的描述结果文件依然是hmm_yes、hmm_no、hmm_silmodel/hmm0flat用于存放使用HCompv命令初始化模型时输出的可变基底宏文件vFloors丢弃使用HCompv初始化模型时产生的hmm_yes、hmm_no、hmm_silmodel/hmmi为使用HRe

8、st命令迭代训练HMM模型时的输出目录，i为表示当前迭代i的索引。最终单词HMM模型是hmm3/hmm_yes,hmm3/hmm_no,andhmm3/hmm_sil。在test/下创立test/sig、test/mfcc、test/result文件夹，分别存放测试用的语音材料的sig文件、提取的MFCC声纹特征文件和测试结果文件。整个目录的构造我将在本文最后给出。二.创立语料库首先我们需要录音以采集足够的语音数据，对于“yes、no这两个命令都需要录一些相应的语音样本，同时也需要对录下的语音做一些简单的标注。录音和标注可以采用HTK工具包中的HSLab来完成。这里我们采集YES和NO两个

9、单词。在命令行下进入HTK/work/YesNo/data/train/sig文件夹sig语言文件保存在该目录中，输入：HSLab yes.sig 回车该命令用于使用HSLab工具翻开所在目录的yes.sig文件，如果没有该文件，则在该目录中新建该文件，这里使用该命令翻开HSLab图形化界面，录制yes.sig 这一步可能会遇到如下问题：报错：“ERROR +6870 MakeXGraf: Not compiled with X11 support: use HGraf.X.c FATAL ERROR - Terminating pro解决方法： :/ -1、这需要修改HTKLib文件夹下的h

10、tk_htklib_nt.mkf文件，共有两处需要修改：将文件中的HGraf.null.obj替换为HGraf_WIN32.obj、HGraf.null.olv替换为HGraf_WIN32.olv; -2、然后在cmd命令行中重新编译HTKLib文件夹下的htk_htklib_nt.mkf; -3、检查HTKTools文件夹下的Makefile.in文件，如果有-lX11字符的话将其删除，然后在cmd命令行中重新编译HTKTools文件夹下的htk_htktools_nt.mkf文件; 需要将bin.win32文件夹的路径参加到环境变量中原因： :/ cnblogs /eboard/archi

11、ve/2012/02/20/HTK.html 默认情况下HSLab工具使用的是x11做的图形界面接口,windows不支持，所以需要修改一下生成文件，使用windows GUI。重新执行HSLab yes.sig 回车，一个用于录音的对话框就会出现。如图：下面我们开场录音。录音环境自己控制哈。 :/ cnblogs /mingzhao810/archive/2012/08/03/2617674.html1.录制声音。点击rec按钮，说：“yes,然后点击stop按钮。你会看到界面上出现一个语音波形，一条语音样本就录制完成了，你可以点击play播放听一下。 2.给声音做标记。本条语音一共需要做3

12、个标记：yes语音段的标记和其前后各一个的静音段标记。注意：做标记的语音段不能重复可以不相连。点击mark,用鼠标选取“yes前面的一段静音后，再点击Labelas,用键盘输入sil 表示 silence 静音的意思，然后回车。这样我们就给本条语音的静音段做了一个标记。再点击mark,选取“yes“的发音段可以选取左右两边的边界，不容易出错，然后点击Labelas按钮，用键盘输入“yes,回车。这样我们就给本语句的yes做了标记，依照此方法，完成yes后面那个sil语音段的标记。完成这3个标记后，点击save按钮，回车。将我们的其标记文件保存。保存目录为HSLab.exe的运行目录。别找不到

13、文件了哈。 3.重命名语音文件和语音标记文件。语音文件后缀为*.sig，标记文件后缀为*.lab。因为HGraf:HSLab只能自动给出0，1的文件名序号，我们又需要至少10条的语音材料，所以就需要录制一条语音，重命名一条。我们将yes_0.sig重命名为yes_01.sig,将yes_0.lab重命名为yes_01.lab.至此，我们完成了一个语音材料的录制。 4.点击new按钮这里不点new的话你会发现lab文件中有N多个标签信息，如果遇到这种情况，你可以删除相应lab文件，重新翻开sig文件贴标签，会发现new按钮旁边的set0变为set1了。然后依照1，2，3步，新建下一条语音材料，这时HSLab自动保存的文件名为,yes_1.sig,yes_1.lab,将其命名为yes_02.sig和yes_02.lab即可。 5.再执行9次第4步，得到yes_03,yes_04.yes_10的语音材料和标记文件。 6.依照1，2，3，4，5步的方法，完成no的语音材料和标记文件的制作，得到no_00.sig,no_00.lab.no_10.sig,no_10.lab. 7.这样我

展开阅读全文