说话人识别的系统设计大学

资源描述

《说话人识别的系统设计大学》由会员分享，可在线阅读，更多相关《说话人识别的系统设计大学（77页珍藏版）》请在金锄头文库上搜索。

1、摘要说话人辨认技术是一种的重要生物认证手段，也是身份鉴别学术会议中的一项重要内容。说话人辨认的目的是通过话语找出或核算说话人的身份，可以被用于访问控制。它属于语音信号领域的一种模式辨认问题。本文使用交叠分帧的措施短时化语音信号，使用每帧信号的能频值辨别语音信号和噪声信号。特性提取方面，本文使用线性预测倒谱系数和基音频率来表征生成语音的发音器官的差别（先天的），用差分线性预测倒谱系数和差分基音频率表征发音器官发音时动作的差别（后天的）。四种特性加权扩维得到的组合特性矢量最后表征了一种特定的说话人。分类决策方面，本文使用矢量量化的措施完毕对说话人语音信号的分类和判决。本文设计的系统是基于Java语

2、言和SQL Server 数据库实现的。Java语言用于实现语音样本采集、预解决、特性提取、分类决策等说话人辨认所需的多种算法。SQL Server 数据库用于存储已注册说话人的语音码本。核心词：说话人辨认；基音；线性预测；矢量量化本文在实现系统的基本上，分析了组合特性中各分量对说话人辨认的奉献大小。得到的结论是：用于说话人辨认的参数中，线性预测倒谱系数效果最佳，差分线性预测倒谱系多次之，基音频率再次之，差分基音频率效果最差。根据这一结论，系统通过调节组合特性中各分量加权系数的方式突出奉献大的分量。实验表白，调节后系统辨认率明显提高。对于10名男性语音的码本库，本文实现系统的辨认率可达到87%

3、。The research of the text-independent speaker recognition systemAbstractSpeaker recognition technology is one of the important biometric ways, as well as an important part in academic conferences of identification. The purpose of speaker recognition is identifying or verifying the speakers identity

4、through the discourse, which can be used to control access. It is a pattern recognition problem on speech signals.This paper uses the way of overlapping sub-frame to short the voice signal, and uses the Energy Frequency Value of each frame to separate the voice signal from the noise signal. In the r

5、espect of feature extraction, this paper uses LPCC and pitch frequency to characterize pronunciation organs generated voice sounds (congenital), and uses differential LPCC and differential pitch frequency characterize the difference of pronunciation organ moves to pronounce(acquired). Ultimately, a

6、component feature vector, which is obtained by weighted and united that four features, characterize a particular speaker. In the respect of classification and decision, we use method of vector quantization to complete the classification and sentencing for speakers speech signal.The system that is de

7、signed by this paper is achieved based on the Java language and SQL Server database. Java language is used to implement algorithms needed by speaker recognition, such as voice sampling, preprocessing, feature extraction, classification and decision and so on. SQL Server database is used to store reg

8、istered speakers voice codebooks.Key Words：speaker recognition; pitch; linear prediction; vector quantificationBased on the system achieved, this paper analyzed contribution to the identification for each composition of the component features. The conclusion is: for speaker identification parameters

9、, LPCC is the best, differential LPCC is the second best, the pitch frequency is the third best and differential pitch frequency is the worst. Based on this conclusion, the system gives prominence to the composition, which has more contribution to the identification, by adjusting weighted coefficien

10、t. After adjustment, experiments show that system identification rate improved significantly. The recognition rate of the system completed by this paper can reach 87% to the codebook database produced by 10 male voices.目录摘要1Abstract1引言41 绪论51.1 本文运用到的声学知识51.2 说话人辨认的分类61.2.1 说话人确认和说话人辨认61.2.2 文本有关、文本

11、无关和文本提示71.3 本文系统实现概述72 语音信号预解决92.1 语音信号分帧92.2 语音信号端点检测102.3 本章小结133 说话人辨认的特性提取143.1 特性参数的选用143.2 基音特性153.2.1 自有关函数153.2.2 基音检测163.3 线性预测倒谱系数183.3.1 线性预测分析183.3.2 LPCC求解203.4 差分特性223.5 特性的组合223.6 本章小结234 说话人辨认的分类决策244.1 矢量量化244.2 最佳码本设计264.2.1 LBG算法274.2.2 初始码本的生成294.3 语音码本的存储和提取294.3.1 语音码本的存储294.3.

12、2 语音码本的提取304.4 测试语音的判决324.5 本章小结325 说话人辨认的系统设计335.1 语音信号采集的设计335.2 语音信号预解决的设计345.3 语音信号特性提取的设计365.4 语音信号分类决策的设计375.5 本章小结396 本文设计系统的总结与分析406.1 系统界面及使用效果406.2 两个核心问题的论述436.2.1 预加重问题436.2.2 线性预测合用性问题446.3 系统性能的分析446.4 本章小结45结论46参考文献48附录A 英文文献50附录B 中文翻译58附录C 部分程序代码65在学取得成果71致谢72引言说话人辨认的目的是通过

13、话语找出或核算说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差别以及后天形成的行为差别，每个人的语音都带有强烈的个人色彩，这使得通过度析语音信号来辨认说话人成为也许。对说话人辨认的研究始于20世纪30年代。初期的工作重要集中在人耳听辨实验和探讨听音辨认的也许性方面。随着研究手段和工具的改善，研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G.Kesta用目视观测语谱图的措施进行辨认，提出了“声纹”（voiceprint）的概念。之后，随着电子技术和计算机技术的发展，使通过机器自动辨认人的声音成为也许。Bell实验室的S.Pruzansky提出了基于模式匹配和概率记录方差分

14、析的说话人辨认措施，从而引起信号解决领域许多学者的注意，形成了说话人辨认研究的一种高潮。其间的工作重要集中在多种辨认参数的提取、选择和实验上，并将倒谱和线性预测分析等措施应用于说话人辨认。70年代末至今，声纹辨认的研究重点转向对多种声学参数的线性或非线性解决以及新的模式匹配措施上，如动态时间规整、矢量量化、主成分分析、隐马尔可夫模型、神经网络和多特性组合等技术1。说话人辨认是模式辨认中的一大类问题，它综合运用了电子信息工程专业的多种知识和技能，是本专业非常重要、实用的一种研究方向。从所选课题与本专业具体项目结合的角度来看，说话人辨认技术可以非常便利的使用到电子信息工程专业常用的某些实际应用中。

15、例如，在北京科技大学电子信息工程专业王志良专家领导开发的迎宾机器人项目中加入说话人辨认技术，当顾客第一次向机器人征询时进行采样、训练，并询问顾客姓名、存储姓名和语音特性，若该顾客再次和机器人对话，系统便可自动辨认出顾客身份，叫出顾客姓名，从而提高迎宾机器人的人工智能水平，服务对话也可以设立得更加灵活、人性化。说话人辨认技术有着广阔的应用领域和发展前景。本论文着眼于与文本无关说话人辨认系统的实现，具体的研究措施是使用Java语言实现语音样本采集、预解决、特性提取、分类决策等说话人辨认所需的多种算法，使用SQL Server 数据库存储注册说话人的语音码本，从而最后实现说话人辨认系统并对该系统做出相应的分析。1 绪论说话人辨认（Speaker Recognition，SR）技术是根据语音信号中反映说话人生理状况和行为特性的语音参数来自动辨认人身份的一种技术。电子信息工程是一门应用计算机等现代化技术进行电子信息控制和信息解决的学科，重要研究信息的获取与解决，电子设备与信息系统的设计、开发、应用和集成。从信息的流程来看，电子信息工程专业的知识面应覆盖信息的获取、辨认、传播、存储、管理、解决、使用等技术2。说话人辨认技术波及到从信息的获取、辨认到信息的解决、使用整个信息流程的各个环节，是电子信息工程专业多种知识和技能综

展开阅读全文