《基于java的说话人识别的系统》-公开DOC·毕业论文

资源描述

《《基于java的说话人识别的系统》-公开DOC·毕业论文》由会员分享，可在线阅读，更多相关《《基于java的说话人识别的系统》-公开DOC·毕业论文（74页珍藏版）》请在金锄头文库上搜索。

1、北京科技大学本科生毕业设计（论文）摘要说话人识别技术是一种的重要生物认证手段，也是身份鉴别学术会议中的一项重要内容。说话人识别的目的是通过话语找出或核实说话人的身份，可以被用于访问控制。它属于语音信号领域的一个模式识别问题。本文使用交叠分帧的方法短时化语音信号，使用每帧信号的能频值区分语音信号和噪声信号。特征提取方面，本文使用线性预测倒谱系数和基音频率来表征生成语音的发音器官的差异（先天的），用差分线性预测倒谱系数和差分基音频率表征发音器官发音时动作的差异（后天的）。四种特征加权扩维得到的组合特征矢量最终表征了一个特定的说话人。分类决策方面，本文使用矢量量化的方法完成对说话人语音信号的分类和

2、判决。本文设计的系统是基于Java语言和SQL Server 2000数据库实现的。Java语言用于实现语音样本采集、预处理、特征提取、分类决策等说话人识别所需的各种算法。SQL Server 2000数据库用于存储已注册说话人的语音码本。关键词：说话人识别；基音；线性预测；矢量量化本文在实现系统的基础上，分析了组合特征中各分量对说话人识别的贡献大小。得到的结论是：用于说话人识别的参数中，线性预测倒谱系数效果最好，差分线性预测倒谱系数次之，基音频率再次之，差分基音频率效果最差。根据这一结论，系统通过调整组合特征中各分量加权系数的方式突出贡献大的分量。实验表明，调整后系统识别率显著提高。对于10

3、名男性语音的码本库，本文实现系统的识别率可达到87%。2- -The research of the text-independent speaker recognition systemAbstractSpeaker recognition technology is one of the important biometric ways, as well as an important part in academic conferences of identification. The purpose of speaker recognition is identifying or ve

4、rifying the speakers identity through the discourse, which can be used to control access. It is a pattern recognition problem on speech signals.This paper uses the way of overlapping sub-frame to short the voice signal, and uses the Energy Frequency Value of each frame to separate the voice signal f

5、rom the noise signal. In the respect of feature extraction, this paper uses LPCC and pitch frequency to characterize pronunciation organs generated voice sounds (congenital), and uses differential LPCC and differential pitch frequency characterize the difference of pronunciation organ moves to prono

6、unce(acquired). Ultimately, a component feature vector, which is obtained by weighted and united that four features, characterize a particular speaker. In the respect of classification and decision, we use method of vector quantization to complete the classification and sentencing for speakers speec

7、h signal.The system that is designed by this paper is achieved based on the Java language and SQL Server 2000 database. Java language is used to implement algorithms needed by speaker recognition, such as voice sampling, preprocessing, feature extraction, classification and decision and so on. SQL S

8、erver 2000 database is used to store registered speakers voice codebooks.Key Words：speaker recognition; pitch; linear prediction; vector quantificationBased on the system achieved, this paper analyzed contribution to the identification for each composition of the component features. The conclusion i

9、s: for speaker identification parameters, LPCC is the best, differential LPCC is the second best, the pitch frequency is the third best and differential pitch frequency is the worst. Based on this conclusion, the system gives prominence to the composition, which has more contribution to the identifi

10、cation, by adjusting weighted coefficient. After adjustment, experiments show that system identification rate improved significantly. The recognition rate of the system completed by this paper can reach 87% to the codebook database produced by 10 male voices.目录摘要1Abstract1引言41 绪论51.1 本文利用到的声学知识51.2

11、说话人识别的分类61.2.1 说话人确认和说话人辨认61.2.2 文本有关、文本无关和文本提示71.3 本文系统实现概述72 语音信号预处理92.1 语音信号分帧92.2 语音信号端点检测102.3 本章小结133 说话人识别的特征提取143.1 特征参数的选取143.2 基音特征153.2.1 自相关函数153.2.2 基音检测163.3 线性预测倒谱系数183.3.1 线性预测分析183.3.2 LPCC求解203.4 差分特征223.5 特征的组合223.6 本章小结234 说话人识别的分类决策244.1 矢量量化244.2 最佳码本设计264.2.1 LBG算法274.2.2 初始码本

12、的生成294.3 语音码本的存储和提取294.3.1 语音码本的存储294.3.2 语音码本的提取304.4 测试语音的判决324.5 本章小结325 说话人识别的系统设计335.1 语音信号采集的设计335.2 语音信号预处理的设计345.3 语音信号特征提取的设计365.4 语音信号分类决策的设计375.5 本章小结396 本文设计系统的总结与分析406.1 系统界面及使用效果406.2 两个关键问题的论述436.2.1 预加重问题436.2.2 线性预测适用性问题446.3 系统性能的分析446.4 本章小结45结论46参考文献48附录A 英文文献50附录B 中文翻译58附录

13、C 部分程序代码65在学取得成果71致谢72北京科技大学本科生毕业设计（论文）引言说话人识别的目的是通过话语找出或核实说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这使得通过分析语音信号来识别说话人成为可能。对说话人识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进，研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G.Kesta用目视观察语谱图的方法进行识别，提出了“声纹”（voiceprint）的概念。之后，随着电子技术和计算机技术的

14、发展，使通过机器自动识别人的声音成为可能。Bell实验室的S.Pruzansky提出了基于模式匹配和概率统计方差分析的说话人识别方法，从而引起信号处理领域许多学者的注意，形成了说话人识别研究的一个高潮。其间的工作主要集中在各种识别参数的提取、选择和实验上，并将倒谱和线性预测分析等方法应用于说话人识别。70年代末至今，声纹识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上，如动态时间规整、矢量量化、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术1。说话人识别是模式识别中的一大类问题，它综合运用了电子信息工程专业的多种知识和技能，是本专业非常重要、实用的一个研究方向。

15、从所选课题与本专业具体项目结合的角度来看，说话人识别技术可以非常便利的使用到电子信息工程专业常见的一些实际应用中。例如，在北京科技大学电子信息工程专业王志良教授领导开发的迎宾机器人项目中加入说话人识别技术，当用户第一次向机器人咨询时进行采样、训练，并询问用户姓名、存储姓名和语音特征，若该用户再次和机器人对话，系统便可自动识别出用户身份，叫出用户姓名，从而提高迎宾机器人的人工智能水平，服务对话也可以设置得更加灵活、人性化。说话人识别技术有着广阔的应用领域和发展前景。本论文着眼于与文本无关说话人辨认系统的实现，具体的研究方法是使用Java语言实现语音样本采集、预处理、特征提取、分类决策等说话人识别所需的各种算法，使用SQL Server 2000数据库存储注册说话人的语音码本，从而最终实现说话人识别系统并对该系统做出相应的分析。1 绪论说话人识别（Speaker Recognition，SR）技术是根据语音信号中反映说话人生理状况和行为特征的语音参数来自动识别人身份的一种技术。电子信息工程是一门应用计算机等现代化技术进行电子信息控制和信息处理的学科，主要研究信息的获取与处理，电子设备与信息系统的设计、开发、应用和集成。从信息的流程来看，电子信息工程专业的知识面应覆盖信息的获取、识别、传输、存储、管理、

展开阅读全文