嵌入式语音识别系统课件

资源描述

《嵌入式语音识别系统课件》由会员分享，可在线阅读，更多相关《嵌入式语音识别系统课件（42页珍藏版）》请在金锄头文库上搜索。

1、2019/4/20,1,嵌入式语音识别系统,洪青阳博士厦门大学人工智能研究所 2009,2019/4/20,2,主要内容,嵌入式系统语音压缩编码语音识别模块典型应用语音玩具典型应用语音家电,2019/4/20,3,嵌入式系统,嵌入式就是将一个东西，嵌入到另一个中间，这包含两层意思：一个是硬件的嵌入式：将一个硬件嵌入到另一个中间，使得原本没有智能的产品变得智能；一个是软件的嵌入式：将一个软件嵌入带另外一个软件里面，一般这个软件是一个应用软件，而对象是操作系统。因此，很多东西都会被称为嵌入式，而不仅仅是ARM等32位平台，还包括DSP，FPGA，51，甚至4位机都是可以的。,201

2、9/4/20,4,嵌入式平台,Sunplus（16bit）：凌阳SPCE061A ARM（32bit） DSP（TI、AD）,2019/4/20,5,用单片机处理语音,具有语音功能的电子产品专用语音芯片音质好语音播放长度、段数等都受到限制价格较高利用单片机实现语音功能音质由AD、DA精度、压缩算法等决定语音录放长度由存储空间决定价格有优势,2019/4/20,6,用单片机处理语音,单片机实现语音功能的条件硬件要求 AD输入用于录音、语音识别等 DA输出用于放音定时器/计数器用于控制采样频率软件要求语音编解码算法支持,2019/4/20,7,SPCE061A用于语音处理,

3、SPCE061A单片机的性能适合数字语音处理 10位ADC和10位DAC 内置MIC放大器和自动增益功能 2个16位定时/计数器 CPU时钟最高达49MHz，16位乘法器和内积运算，有能力执行复杂压缩算法,2019/4/20,8,SPCE061A实现语音识别,硬件条件专用MIC接口，用于实现语音录制 16位定时器/计数器用于控制采样频率最高49MHz时钟频率，内置硬件乘法器和内积运算，保证识别算法的运行软件条件提供语音识别函数库，只需几条语句即可实现语音识别功能,2019/4/20,9,语音压缩编码,波形编码直接将波形信号转变为数字代码，尽量真实地还原波形声音质量好压缩比低，码率

4、通常在20Kb/s以上适用于高保真音乐及语音场合,2019/4/20,10,语音压缩编码,参数编码提取语音信号的特征参数进行编码，尽量保持语音信号的可懂性，而还原后的波形可能与原波形差别很大。压缩比很高，码率可达2.4kb/s以下。语音质量较差，自然度低对环境噪声敏感,2019/4/20,11,语音压缩编码,混合编码将参数编码和波形编码技术结合起来，克服了两种编码的缺点。压缩比高，码率为416Kb/s 音质介于参数编码和波形编码之间,2019/4/20,12,凌阳语音压缩算法,对于波形编码、参数编码和混合编码，凌阳都开发了相应的压缩算法。属于波形编码的有A2000、A1600等

5、属于参数编码的有S240、S200等属于混合编码的有S480、S530等,2019/4/20,13,语音识别模块,电路板模块,硬件设计电路图 PCB布版,TS-M001,TS-M002,TS-M005,2019/4/20,14,技术参数,工作电压(CPU) VDD 为 2.4V 5.5VDC； CPU 时钟：0.32MHz49.152MHz；内置 32K 闪存ROM，可扩展2M, 4M, 或8M byte FLASH；低功耗休眠时耗电仅为 2A3.6V；音频压缩率：歌曲：16Kbit/s、20Kbit/s、24Kbit/s 答句：4.8Kbit/s、7.2Kbit/s 答句：2.

6、4K b/s,2019/4/20,15,预处理，语音信号数字化。特征提取，抽取反应语音本质的特征参数，形成特征矢量序列。语音模型库，从一个或多个讲话者多次重复讲话中提取的语音参数模板。模式匹配，把输入语音的特征参数与语音模型库进行比较分析，得到识别结果,基本原理,2019/4/20,16,根据对说话人的依赖程度，分为：特定人语音识别（SD）只能辨认特定使用者的语音，训练-使用非特定人语音识别（SI）可辨认任何人的语音，无须训练根据对说话方式的要求，分为：孤立词识别每次识别的单词之间要有停顿连续语音识别使用者以正常语速说话，即可识别其中的单词,分类,2019/4/20,1

7、7,特定人语音识别程序流程,2019/4/20,18,特定人语音识别程序示例,2019/4/20,19,非特定人语音识别影响因素,影响因素口音性别年龄环境噪音解决办法采集各地语音样本 200人以上，适当偏向目标用户群尽量在安静环境下使用,2019/4/20,20,性能指标,问话-非特定人员；对口音要求不敏感，说普通话的或者略带口音而不影响理解的普通话用户，系统能正常识别；用户以自然距离（15cm到1m左右）对准话筒进行语音输入对话；系统具有一定的抗噪功能，在一般环境噪声下能进行正常语音识别。在一定环境下，系统识别率达97%以上。,2019/4/20,21,典型应用语音玩具,

8、语音对话娃娃语音控制机器人声控车、飞机,2019/4/20,22,语音玩具现状和发展动态,国外典型产品：语音识别： SONY AIBO 采用RSC300 Tiger Super Poo-chi I-Cybie 语音合成： Harsbo Furby 采用SC-691 Leapfrog LeapPad,2019/4/20,23,语音玩具现状和发展动态,国内典型产品：语音识别：海尔 PCBOY RSC300 伊莱克斯 Homo RSC300 晶鑫玩具 “白雪公主“ 语音合成：明日学而乐采用SC-691,2019/4/20,24,语音玩具现状和发展动态,现状归纳语音识别玩具：国内应用

9、远落后于国外价格问题实际是性价比问题厂商因商业模式（出口加工）而来的重视程度问题技术开发供给能力问题语音合成玩具：与国外差距不大国人对于儿童教育的重视,2019/4/20,25,语音玩具现状和发展动态,趋势分析语音识别玩具：向高端发展，追求新功能、高性能。如Sony Aibo。其模式不可复制注重成本、简化功能、侧重市场实效、逐步应用新技术。这是主要发展方向。举例：Super Poo-chi，白雪公主语音合成玩具：与国外差距不大低成本、效果一般的产品很长一段时间将是国内主流欧美则对语音品质要求很高对于儿童教育产品，长远来说，音质好，价格适中的产品是发展方向。,2019/4

10、/20,26,语音识别应用原则选择合适的应用对象和应用场合合适的产品：毛绒类、卡通类、机器人/宠物类、教育类合适的场合：室内、安静的场合不合适的产品：高速玩具车不适合的场合：马路、大街、嘈杂的场所平衡原则：大的方面：功能与成本、开发费与生产成本技术方面：识别率与误识别、误动作与方便性、距离与抗噪,玩具中语音技术应用要点、问题及对策,2019/4/20,27,语音识别应用要点精心设计：造型与结构脚本：语音命令集、流程、提示与应答开发过程：语音命令采样范围的选择录音品质具体问题具体对待，根据产品特点，找出最优参数组合,玩具中语音技术应用要点、问题及对策,2019/4/

11、20,28,语音识别应用中问题与对策（1）关于成本：与其它智能化技术如图象识别、精密结构设计比，语音识别的成本（含售后成本）最低降成本方法1：简化功能、强调实效。与复杂而无用的功能比，熟悉的背景故事、生动的造型、有趣的声音的吸引力更大。举例：CP-dog、白雪公主降成本方法2：选择All-in-one的SOC,玩具中语音技术应用要点、问题及对策,2019/4/20,29,语音识别应用中问题与对策（2）特定人与非特定人：非特定人（SI）优点：无须训练，易用，更适合儿童玩具非特定人（SI）缺点：受语种、方言限制，模板采样费用高特定人（SD）优点：不受受语种、方言限制；无须模板采样；

12、可以用户自定义名字和命令特定人（SD）缺点：要训练，不易用。一般需要外加存储器存放模板，生产成本略高对策1：不同应用不同选择对策2：采用SI/SD双模式，SI不工作时，用SD 对策3：采用伪SI技术,玩具中语音技术应用要点、问题及对策,2019/4/20,30,语音识别应用中问题与对策（3）识别率与误识别严格程度加高，误识别降低，但识别率（接受率）也降低。反之亦然。对策1：不同产品不同对待。对于玩具，识别率更重要，偶有误识别可以接受；对策2：增加门槛级数，可有效降低误识别引起的误动作环境噪音限于成本及玩具使用方法，现有抗噪技术效果有限对策：选择恰当的应用对象和使用场合措施

13、1：选择合适的咪头抑制噪音措施2：好的结构设计和电路板设计措施3：一般噪音环境下，识别率优先（即使误识别增加）,玩具中语音技术应用要点、问题及对策,2019/4/20,31,语音识别应用中问题与对策（4）识别距离识别距离一般8米以内距离越远，抗噪越差，误识别越多措施1：长距离应用，语音识别应考虑加在遥控器上措施2：不带遥控器的运动玩具，应加上自动停止的功能，以免越出有效范围响应时间一条语音命令在1秒左右，语音识别响应延迟在100ms-1s，都比心手反应慢很多对策：语音识别应避免应用于高速玩具车等类似产品措施：将一个大语音命令集分成多级多个小命令集可加快响应速度,玩具中语音

14、技术应用要点、问题及对策,2019/4/20,32,语音合成应用要点语音质量与芯片成本之间找一个最优平衡识别质量与存储容量之间找一个最优平衡录音环节是重点：录音环境、录音设备播音员的音色特点采样率与采样精度声音预处理可以改善效果或生成特效,玩具中语音技术应用要点、问题及对策,2019/4/20,33,典型应用语音家电,语音控制模块语音识别台灯语音识别插座,2019/4/20,34,语音控制模块,语音控制模块可以直接接受自然语音控制，并完成相应的动作。其中语音识别部分采用了最先进的语音识别技术，响应速度快，识别率高，对噪声不敏感。该控制模块还加入了可信度评估和拒识技术，对于命令

15、以外的语音或者干扰声音可以拒识。,2019/4/20,35,技术关键与难题,基于微小芯片，实现用户不需训练的非特定人语音识别系统。有效避免常见的强电干扰。有效排除不正确的干扰音和语音命令。避免使用过程中的误触发现象。 PCB板及外围器件必须合理设计，把成本降到最低。,2019/4/20,36,解决方案,非特定人语音识别系统需采集足够的语音数据（每个词或句子采集200人以上样本），训练成稳定可靠的语音模型。语音控制程序不读取外围电路I/O的数据，直接通过设置相关变量，进行状态（开、关）的监测，并执行相应操作。为避免误触发，采用基于触发名称的二级控制机制。为了降低成本，可采用裸片+邦定

16、技术，大大降低了语音识别芯片及整个模块的成本。,2019/4/20,37,特定人模式,具有进行语音命令录入功能。用户若想使用自己的语音命令控制开关，在使用前必须录音。理论上一次录音，终身有效。录入的语音命令能够被控制电器进行关联。能够删除语音命令。能够追加录音，一路开关可以由多个人用语音命令进行控制。录音时同一个语音命令要喊两次，第二次是对第一次的确认。断电后语音命令与设置具有记忆功能，设置结果不会丢失。,2019/4/20,38,性能指标,灵敏度：8米有效范围。可轻松用语音命令控制，执行开、关等操作，来开启或关闭电器，用户使用起来非常方便。可靠性：24小时无误触发。对于语音家电，如果随便声音就能触发，或类似语音偶然触发，都会使用户不能接受，担心自己不在家时，台灯或其他家电自行打开，浪费电，甚至造成安全问题。,2019/4/20,39,主要技术参数,额定输入电压： 110-250V 额定输入电流： 2A 额定输出电压： 110-250V 额定输出电流： 2A 使用范围： 8 m 方向性：任意,2019/4/20,40,语音识别台灯

展开阅读全文