嵌入式语音识别系统课件

上传人:F****n 文档编号:88151747 上传时间:2019-04-20 格式:PPT 页数:42 大小:2.79MB
返回 下载 相关 举报
嵌入式语音识别系统课件_第1页
第1页 / 共42页
嵌入式语音识别系统课件_第2页
第2页 / 共42页
嵌入式语音识别系统课件_第3页
第3页 / 共42页
嵌入式语音识别系统课件_第4页
第4页 / 共42页
嵌入式语音识别系统课件_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《嵌入式语音识别系统课件》由会员分享,可在线阅读,更多相关《嵌入式语音识别系统课件(42页珍藏版)》请在金锄头文库上搜索。

1、2019/4/20,1,嵌入式语音识别系统,洪青阳博士 厦门大学人工智能研究所 2009,2019/4/20,2,主要内容,嵌入式系统 语音压缩编码 语音识别模块 典型应用语音玩具 典型应用语音家电,2019/4/20,3,嵌入式系统,嵌入式就是将一个东西,嵌入到另一个中间,这包含两层意思: 一个是硬件的嵌入式:将一个硬件嵌入到另一个中间,使得原本没有智能的产品变得智能; 一个是软件的嵌入式:将一个软件嵌入带另外一个软件里面,一般这个软件是一个应用软件,而对象是操作系统。 因此,很多东西都会被称为嵌入式,而不仅仅是ARM等32位平台,还包括DSP,FPGA,51,甚至4位机都是可以的。,201

2、9/4/20,4,嵌入式平台,Sunplus(16bit):凌阳SPCE061A ARM(32bit) DSP(TI、AD),2019/4/20,5,用单片机处理语音,具有语音功能的电子产品 专用语音芯片 音质好 语音播放长度、段数等都受到限制 价格较高 利用单片机实现语音功能 音质由AD、DA精度、压缩算法等决定 语音录放长度由存储空间决定 价格有优势,2019/4/20,6,用单片机处理语音,单片机实现语音功能的条件 硬件要求 AD输入用于录音、语音识别等 DA输出用于放音 定时器/计数器用于控制采样频率 软件要求 语音编解码算法支持,2019/4/20,7,SPCE061A用于语音处理,

3、SPCE061A单片机的性能适合数字语音处理 10位ADC和10位DAC 内置MIC放大器和自动增益功能 2个16位定时/计数器 CPU时钟最高达49MHz,16位乘法器和内积运算,有能力执行复杂压缩算法,2019/4/20,8,SPCE061A实现语音识别,硬件条件 专用MIC接口,用于实现语音录制 16位定时器/计数器用于控制采样频率 最高49MHz时钟频率,内置硬件乘法器和内积运算,保证识别算法的运行 软件条件 提供语音识别函数库,只需几条语句即可实现语音识别功能,2019/4/20,9,语音压缩编码,波形编码 直接将波形信号转变为数字代码,尽量真实地还原波形 声音质量好 压缩比低,码率

4、通常在20Kb/s以上 适用于高保真音乐及语音场合,2019/4/20,10,语音压缩编码,参数编码 提取语音信号的特征参数进行编码,尽量保持语音信号的可懂性,而还原后的波形可能与原波形差别很大。 压缩比很高,码率可达2.4kb/s以下。 语音质量较差,自然度低 对环境噪声敏感,2019/4/20,11,语音压缩编码,混合编码 将参数编码和波形编码技术结合起来,克服了两种编码的缺点。 压缩比高,码率为416Kb/s 音质介于参数编码和波形编码之间,2019/4/20,12,凌阳语音压缩算法,对于波形编码、参数编码和混合编码,凌阳都开发了相应的压缩算法。 属于波形编码的有A2000、A1600等

5、 属于参数编码的有S240、S200等 属于混合编码的有S480、S530等,2019/4/20,13,语音识别模块,电路板模块,硬件设计 电路图 PCB布版,TS-M001,TS-M002,TS-M005,2019/4/20,14,技术参数,工作电压(CPU) VDD 为 2.4V 5.5VDC; CPU 时钟:0.32MHz49.152MHz; 内置 32K 闪存ROM,可扩展2M, 4M, 或8M byte FLASH; 低功耗休眠时耗电仅为 2A3.6V; 音频压缩率: 歌曲:16Kbit/s、20Kbit/s、24Kbit/s 答句:4.8Kbit/s、7.2Kbit/s 答句:2.

6、4K b/s,2019/4/20,15,预处理,语音信号数字化。 特征提取,抽取反应语音本质的特征参数,形成特征矢量序列。 语音模型库,从一个或多个讲话者多次重复讲话中提取的语音参数模板。 模式匹配,把输入语音的特征参数与语音模型库进行比较分析,得到识别结果,基本原理,2019/4/20,16,根据对说话人的依赖程度,分为: 特定人语音识别(SD) 只能辨认特定使用者的语音,训练-使用 非特定人语音识别(SI) 可辨认任何人的语音,无须训练 根据对说话方式的要求,分为: 孤立词识别 每次识别的单词之间要有停顿 连续语音识别 使用者以正常语速说话,即可识别其中的单词,分类,2019/4/20,1

7、7,特定人语音识别程序流程,2019/4/20,18,特定人语音识别程序示例,2019/4/20,19,非特定人语音识别影响因素,影响因素 口音 性别年龄 环境噪音 解决办法 采集各地语音样本 200人以上,适当偏向目标用户群 尽量在安静环境下使用,2019/4/20,20,性能指标,问话-非特定人员; 对口音要求不敏感,说普通话的或者略带口音而不影响理解的普通话用户,系统能正常识别; 用户以自然距离(15cm到1m左右)对准话筒进行语音输入对话; 系统具有一定的抗噪功能,在一般环境噪声下能进行正常语音识别。 在一定环境下,系统识别率达97%以上。,2019/4/20,21,典型应用语音玩具,

8、语音对话娃娃 语音控制机器人 声控车、飞机,2019/4/20,22,语音玩具现状和发展动态,国外典型产品: 语音识别: SONY AIBO 采用RSC300 Tiger Super Poo-chi I-Cybie 语音合成: Harsbo Furby 采用SC-691 Leapfrog LeapPad,2019/4/20,23,语音玩具现状和发展动态,国内典型产品: 语音识别: 海尔 PCBOY RSC300 伊莱克斯 Homo RSC300 晶鑫玩具 “白雪公主“ 语音合成: 明日 学而乐 采用SC-691,2019/4/20,24,语音玩具现状和发展动态,现状归纳 语音识别玩具:国内应用

9、远落后于国外 价格问题实际是性价比问题 厂商因商业模式(出口加工)而来的重视程度问题 技术开发供给能力问题 语音合成玩具:与国外差距不大 国人对于儿童教育的重视,2019/4/20,25,语音玩具现状和发展动态,趋势分析 语音识别玩具: 向高端发展,追求新功能、高性能。如Sony Aibo。其模式不可复制 注重成本、简化功能、侧重市场实效、逐步应用新技术。这是主要发展方向。举例:Super Poo-chi,白雪公主 语音合成玩具:与国外差距不大 低成本、效果一般的产品很长一段时间将是国内主流 欧美则对语音品质要求很高 对于儿童教育产品,长远来说,音质好,价格适中的产品是发展方向。,2019/4

10、/20,26,语音识别应用原则 选择合适的应用对象和应用场合 合适的产品:毛绒类、卡通类、机器人/宠物类、教育类 合适的场合:室内、安静的场合 不合适的产品:高速玩具车 不适合的场合:马路、大街、嘈杂的场所 平衡原则: 大的方面:功能与成本、开发费与生产成本 技术方面:识别率与误识别、误动作与方便性、距离与抗噪,玩具中语音技术应用要点、问题及对策,2019/4/20,27,语音识别应用要点 精心设计: 造型与结构 脚本:语音命令集、流程、提示与应答 开发过程: 语音命令采样范围的选择 录音品质 具体问题具体对待,根据产品特点,找出最优参数组合,玩具中语音技术应用要点、问题及对策,2019/4/

11、20,28,语音识别应用中问题与对策(1) 关于成本: 与其它智能化技术如图象识别、精密结构设计比,语音识别的成本(含售后成本)最低 降成本方法1:简化功能、强调实效。与复杂而无用的功能比,熟悉的背景故事、生动的造型、有趣的声音的吸引力更大。举例:CP-dog、白雪公主 降成本方法2:选择All-in-one的SOC,玩具中语音技术应用要点、问题及对策,2019/4/20,29,语音识别应用中问题与对策(2) 特定人与非特定人: 非特定人(SI)优点:无须训练,易用,更适合儿童玩具 非特定人(SI)缺点:受语种、方言限制,模板采样费用高 特定人(SD)优点:不受受语种、方言限制;无须模板采样;

12、可以用户自定义名字和命令 特定人(SD)缺点:要训练,不易用。一般需要外加存储器存放模板,生产成本略高 对策1:不同应用不同选择 对策2:采用SI/SD双模式,SI不工作时,用SD 对策3:采用伪SI技术,玩具中语音技术应用要点、问题及对策,2019/4/20,30,语音识别应用中问题与对策(3) 识别率与误识别 严格程度加高,误识别降低,但识别率(接受率)也降低。反之亦然。 对策1:不同产品不同对待。对于玩具,识别率更重要,偶有误识别可以接受; 对策2:增加门槛级数,可有效降低误识别引起的误动作 环境噪音 限于成本及玩具使用方法,现有抗噪技术效果有限 对策:选择恰当的应用对象和使用场合 措施

13、1:选择合适的咪头抑制噪音 措施2:好的结构设计和电路板设计 措施3:一般噪音环境下,识别率优先(即使误识别增加),玩具中语音技术应用要点、问题及对策,2019/4/20,31,语音识别应用中问题与对策(4) 识别距离 识别距离一般8米以内 距离越远,抗噪越差,误识别越多 措施1:长距离应用,语音识别应考虑加在遥控器上 措施2:不带遥控器的运动玩具,应加上自动停止的功能,以免越出有效范围 响应时间 一条语音命令在1秒左右,语音识别响应延迟在100ms-1s,都比心手反应慢很多 对策:语音识别应避免应用于高速玩具车等类似产品 措施:将一个大语音命令集分成多级多个小命令集可加快响应速度,玩具中语音

14、技术应用要点、问题及对策,2019/4/20,32,语音合成应用要点 语音质量与芯片成本之间找一个最优平衡 识别质量与存储容量之间找一个最优平衡 录音环节是重点: 录音环境、录音设备 播音员的音色特点 采样率与采样精度 声音预处理可以改善效果或生成特效,玩具中语音技术应用要点、问题及对策,2019/4/20,33,典型应用语音家电,语音控制模块 语音识别台灯 语音识别插座,2019/4/20,34,语音控制模块,语音控制模块可以直接接受自然语音控制,并完成相应的动作。其中语音识别部分采用了最先进的语音识别技术,响应速度快,识别率高,对噪声不敏感。该控制模块还加入了可信度评估和拒识技术,对于命令

15、以外的语音或者干扰声音可以拒识。,2019/4/20,35,技术关键与难题,基于微小芯片,实现用户不需训练的非特定人语音识别系统。 有效避免常见的强电干扰。 有效排除不正确的干扰音和语音命令。 避免使用过程中的误触发现象。 PCB板及外围器件必须合理设计,把成本降到最低。,2019/4/20,36,解决方案,非特定人语音识别系统需采集足够的语音数据(每个词或句子采集200人以上样本),训练成稳定可靠的语音模型。 语音控制程序不读取外围电路I/O的数据,直接通过设置相关变量,进行状态(开、关)的监测,并执行相应操作。 为避免误触发,采用基于触发名称的二级控制机制。 为了降低成本,可采用裸片+邦定

16、技术,大大降低了语音识别芯片及整个模块的成本。,2019/4/20,37,特定人模式,具有进行语音命令录入功能。 用户若想使用自己的语音命令控制开关,在使用前必须录音。理论上一次录音,终身有效。 录入的语音命令能够被控制电器进行关联。 能够删除语音命令。 能够追加录音,一路开关可以由多个人用语音命令进行控制。 录音时同一个语音命令要喊两次,第二次是对第一次的确认。 断电后语音命令与设置具有记忆功能,设置结果不会丢失。,2019/4/20,38,性能指标,灵敏度:8米有效范围。可轻松用语音命令控制,执行开、关等操作,来开启或关闭电器,用户使用起来非常方便。 可靠性:24小时无误触发。对于语音家电,如果随便声音就能触发,或类似语音偶然触发,都会使用户不能接受,担心自己不在家时,台灯或其他家电自行打开,浪费电,甚至造成安全问题。,2019/4/20,39,主要技术参数,额定输入电压: 110-250V 额定输入电流: 2A 额定输出电压: 110-250V 额定输出电流: 2A 使用范围: 8 m 方向性: 任意,2019/4/20,40,语音识别台灯

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号