音频文字自动提取的研究与应用

资源描述

《音频文字自动提取的研究与应用》由会员分享，可在线阅读，更多相关《音频文字自动提取的研究与应用（12页珍藏版）》请在金锄头文库上搜索。

1、音频文字自动提取的研究与应用音频文字自动提取的研究与应用摘要摘要: : 语言是人类最重要的交流工具，文字则是人类用来记录语言的符号系统。本文简要介绍了音频文字自动提取的研究与应用，提出语音识别和音频文字自动提取的重要性。音频文字自动提取从上个世纪五十年代的研究开始，到当前语音识别技术在国际和国内的发展状况。用文字对语音识别的内部模型即 HMM 模型在语音识别中的应用过程进行了描述。详细讲解了音频文字自动提取的设计与实现步骤，并给出了实验的结果与结果分析。关键词：关键词：语音识别；音频文字自动提取；隐马尔科夫模型； THE RESEARCH AND APPLICATION OF AUTOMATI

2、C AUDIO TEXT EXTRACTIONAbstract: Speech is one of the most important forms of human communication，while the text is a type of sign used to record the speech. The essay firstly gave a brief introduction to both study and application of automatic audio text extraction, then renounced the importance of

3、 speech recognition and automatic audio text extraction. Afterwards, the essay formulated the development of AATE since 1950s when the tech was started. Then the way how HMM which is the inner module of speech recognition is presented . Lastly, therere design and realization of the automatic audio t

4、ext extraction followed by its experiment result and analysis.Key words: speech recognition; automatic audio text extraction; HMM model; 目录1 绪论 .11.1 引言 .11.2 背景及发展现状 .12 语音识别原理 .22.1 原理框图 .22.2 ASR 系统训练.22.3 HMM 模型在语音识别中的应用.23 音频文字自动提取的设计与实现 .33.1 音频素材类型的选取.33.2 音频素材格式及转码.43.3 内录获得音频素材.43.4 音频文字自动

5、提取设计.53.5 模型的训练.54 实验 .54.1 实验过程.54.2 结果及分析.75 总结与展望.8参考文献 .91 1 绪论绪论1.11.1 引言引言自动语音识别（Automatic Speech Recognition, ASR）技术近年来发展迅速，使人们用语言与计算机进行通信与交流已成为可能。与键盘和鼠标等传统的人机交互方式相比，语音提供了一种更为自然的人机交互界面。音频文字自动提取是以语音识别系统的核心模块为基础，对参考文本和对应语音进行强制对准的过程，其目的在于将音频文字转换为文本文字。作为语音识别领域中一种常见的预处理技术，音频文字自动提取广泛应用在模型训练、多媒体检索、广

6、播电视媒体、计算机辅助语言教学等方面，此外，还可为现场直播的新闻、演讲、会议等生成字幕；为语言教学、游戏娱乐、电影制作等生成多媒体库；为歌曲制作同步的歌词显示等。本文在简介语音识别系统的发展现状的基础上，着重论述音频文字自动提取技术的基本原理和实现过程，并结合实验结果对该技术存在的难点进行分析和讨论。1.21.2 背景及发展现状背景及发展现状语音识别最早是在 1952 年由贝尔研究所工作人员提出，他们研究了世界上第一个能够识别 10 个英文数字发音的试验系统。正式大规模的研究语音识别是在进入 70 年代后，在一些词汇上取得了实质性的进展，到了九十年代以后，语音识别技术在应用及产品化方面有的很大

7、的进展。如今在国际上语音识别已经从研究室走向生活应用，注重在实际环境下的语音识别建模，如语音增强和去噪等。现在语音识别更注重对语音信号中所蕴含信息的理解，语音识别从一个语言到多种语言甚至是混合语言的方向发展，语音识别应用产品方面也注意多种技术的组合，更贴近生活。我国语音识别的研究较晚，起步于 20 世纪 50 年代，但是由于科技的不断创新以及国家对科学技术的重视，近些年来我国语音识别技术发展的相对较快，研究水平也从实验走向人们的生活。我国在 1973 年开始进行计算机语音识别，但由于环境所限制，当时的发展仍然很缓慢，进入 80 年代后，随着计算机等技术的普及，我国一些单位具备了研究语音技术的基

8、本条件，恰好此时国际上对语音识别技术的研究重视并迅速发展，使得我国很多企业纷纷投入到语音识别的这项工作中去。1987 年我国启动863计划，暨高科技发展计划，语音识别也因此作为智能计算机研究的重要组成部分。随着863计划的进行，我国开始有规划的对语音识别技术进行研究，并每两年召开一次语音识别的专题会议，从此我国语音识别技术进入一个新的发展阶段。中科院、清华大学、北京大学、上海交通大学等都对语音识别进行研究，其中最具代表性的为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。2 2 语音识别原理语音识别原理2.12.1 原理框图原理框图一般来说，ASR 问题就是一个模式匹配问题。一个

9、 ASR 系统通常包括训练和模式匹配两个阶段。图 1 为语音识别的原理图。语音输入语音信号采集模式匹配语音模板库判别规则专家知识训练参考模板推理验证数字化预处理特征提取语音输入识别识别结果图 1 语音识别原理框图 2.22.2 ASRASR 系统训练系统训练在训练阶段，ASR 系统收集大量的发音者的语音序列，因为数字信号比模拟语音信号更适合实现语音识别，所以应把这些语音序列转换为数字格式。然后 ASR 系统提取每个语音单位的特征并存放在系统中，通常最小的语音为音素。最常用的特征是 MFCC 系数（Mel Frequency Cepstrum Coeff

10、icients）。最后进行音素模型化，用上面获得的特征矢量、包含所有单词及其可能的发音的字典已经语法使用统计规则产生一个音素模型集合或模板，还可得到一个包括音素模型集合、同义词词库和语法的识别数据库。2.32.3 HMMHMM 模型在语音识别中的应用模型在语音识别中的应用在模式匹配（即识别）过程中，ASR 系统用与训练阶段相似的方法对输入语音进行处理，产生特征矢量，找到与输入语音的特征矢量最匹配的特征矢量的单词序列。目前最具有代表性的 ASR 技术有动态时间环绕技术、隐马尔科夫(markov)模型（HMM）和人工神经网（ANN）模型。其中基于 HMM 的技术最为流行且语音识别性能最好，下面将

11、详细介绍。隐 Markov 模型(Hidden Markov Model，HMM)是由基本 markov 模型发展而来。这里，我们先给出一个 markov 的定义。假设存在这样一个随机变量序列（通常与时间有关），它满足这样的条件：每个随机变量之间并非相互独立，并且每个随机变量只依赖序列中前面的随机变量。这很多类似的系统中，我们可以做出这样的假设：我们可以基于现在的状态预测将来而不需要考虑过去的状态。也就是说，序列中将来的随机变量与过去的随机变量无关，它条件的依赖当前的随机变量，这样的随机变量序列，通常称为一个 Markov 链,或者说这个序列具有 Markov 性质。每个音素被分解成输入状态

12、、中间状态和输出状态 3 个可听到的状态，每个状态可持续超过一个帧的时间（通常为 10ms）。在训练阶段，使用训练语音数据为每个可能的音素构建 HMM。每个 HMM 都具有以上 3 个状态，并由状态转换概率和符号发生概率来定义。在该环境中，符号是为每个帧计算的特征矢量。由于时间只向前流动，因此一些转换是不允许的。在训练阶段末期，由不同的发音者、时间变化和周围的声音引起的变化，是每个音素都由捕获不同帧的特征矢量变化的一个 HMM 表示。在语音识别阶段，按照帧的顺序计算每个输入音素的特征矢量。识别问题的目的是去发现哪个音素 HMM 最可能产生输入音素的特征矢量序列。HMM 对应的音素被认为是输入

13、音素，由于一个单词含有大量的音素，因此通常把音素序列放在一起进行识别。要计算 HMM 产生一个给定特征矢量序列的概率有许多算法，如前向算法和viterbi 算法等。前向算法用于识别隔离的单词，而 viterbi 算法用于识别连续的语音。3.3. 音频文字自动提取的设计与实现音频文字自动提取的设计与实现素材格式转换内录音频文字自动提取音频分割图 2 音频文字自动提取流程图3.1 音频素材类型的选取音频素材类型的选取环境因素和大量连续语料的处理是音频文字自动提取的两个主要难点。本文将环境因素作为实验变量，选取新闻联播、诗歌朗诵、节目访谈、歌词、个人语音五个不同类型的音频素材。下面对不同类型的音频素材的特点做一个简单分析。新闻联播音频素材，中央电视台新闻联播播音员语速没有明文规定，但是都大致在每分钟 250-320 字区间。播音员的发音清晰，普通话非常标准。对于诗歌朗诵音频素材

展开阅读全文