《儿童语音（识别）测试集技术规范》安徽

资源描述

《《儿童语音（识别）测试集技术规范》安徽》由会员分享，可在线阅读，更多相关《《儿童语音（识别）测试集技术规范》安徽（10页珍藏版）》请在金锄头文库上搜索。

1、ICS35.240.01DB34安徽省地方标准DB 34/ XXXXXXXXX儿童语音（识别）测试集技术规范Childrens Speech (recognition) test set Technical specificationXXXX - XX - XX发布XXXX - XX - XX实施安徽省市场监督监管局发布DB34/ XXXXXXXXX目次前言II1 范围12 规范性引用文件13 术语和定义13.1 语音交互 speech interaction13.2 语音识别 speech recognition13.3 语音合成 speech synthesis13.4 命令字识别Comm

2、and word recognition13.5 声纹 Voiceprint13.6 语音唤醒 speech wakeup;voice trigger23.7 误唤醒 fake wakeup23.8 语音打断 speech interruption23.9 儿童陪伴机器人 Child companion robot23.10 近场 near field24 测试集要求24.1 测试集内容24.2 测试集构建方法25 测试环境条件25.1 设备要求25.2 测试环境要求36 测试集组成及结构46.1 测试集组成46.2 测试集结构47 测试方法57.1 测试指标57.2 测试方法6前言本标准按照

3、GB/T 1.1-2009给出的规则起草。本标准由安徽淘云科技有限公司提出。本标准由安徽省信息技术标准化技术委员会提出并归口。本标准起草单位：安徽淘云科技有限公司本标准主要起草人：刘庆升 7儿童语音（识别）测试集技术规范1 范围本标准规定了儿童陪伴机器人领域语音交互系统的术语、系统框架、能力要求、评价指标要求和测试规程。本标准适用于儿童智能产品,可包括儿童陪伴机器人、早教故事机、学习平板、点读机等类别产品。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。GB/T 36

4、464.2-2018 信息技术智能语音交互系统第2部分：智能家居GB/T 36464.4-2018 信息技术智能语音交互系统第2部分：移动终端GB/T 21023-2007 中文语音识别系统通用技术规范GB/T 21024 中文语音合成系统通用技术规范SJ/T 11380 自动声纹识别（说话人识别）技术规范3 术语和定义3.1 语音交互 speech interaction人类和功能单元之间通过语音进行的信息传递和交流活动GB/T 36464.2-2018,定义3.13.2 语音识别 speech recognition将人类的声音信号转化为文字或者指令的过程GB/T 21023-20

5、07,定义3.13.3 语音合成 speech synthesis通过机械、电子的方法合成人类语言的过程 GB/T 21024-2007,定义3.23.4 命令字识别Command word recognition一种基于语音识别语法的语音识别方式，是在语音识别语法规则限定的范围内，对于给定的语音输入，语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果GB/T 34083-2017,定义3.33.5 声纹 Voiceprint对语音中所蕴含的、能表征和标识说话人的语音特征，以及基于这些特征（参数）所建立的语音模型的总称SJ/T 11380-2008,定义3.1.13.6 语音唤醒

6、speech wakeup;voice trigger处于音频流监听状态的语音交互系统，在检测特定的特征或事件出现后，切换到命令字识别、连续语音是被等其他处理状态的过程GB/T 36464.2-2018,定义3.133.7 误唤醒 fake wakeup语音唤醒过程中出现的，无音频流或者音频流中没有出现唤醒所需的特征或事件时，语音唤醒系统被唤醒的现象GB/T 36464.2-2018,定义3.143.8 语音打断 speech interruption播放声音过程中，当语音采集设备检测到有效语音输入时，中断播放声音，转到语音识别等其他处理过程GB/T 36464.2-2018,定义3.183.

7、9 儿童陪伴机器人 Child companion robot自动执行工作的机器装置。它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动。作用主要以陪伴为主，第一类是面向幼儿，其中的功能以早教为主；第二类是面向儿童，功能主要以教育、陪伴为主；第三类是面向年龄稍大的儿童，通过机器人教授编程知识。3.10 近场 near field拾音设备与声源距离1m（含）之内4 测试集要求4.1 测试集内容测试集语料应覆盖音频、视频点播；闲聊；百科问答；打开设备的应用等常规的交互场景。4.2 测试集构建方法a)句识别率测试应至少男女各20名发音人进行录制，语音唤醒功能测

8、试应至少由50名发音人进行录制，声纹识别测试应至少由50名发音人进行录制，具体要求参照GB/T 21023-2007中7.3执行b）环境噪音集录制以家居环境实际噪声为主（包括客厅、卧室等环境噪声）5 测试环境条件5.1 设备要求音频采样设备、传声器、回放设备的有关参数应符合表1、表2和表3的要求表1 音频采样设备要求设备名称参数要求可移动的声卡支持44.1kHz及以上的采样频率，16bit及以上的模数转换器和数模转换器录音软件波形采样范围为5000smpl10000smpl计算机应支持录音软件的安装和使用声压计可用于环境声压确认表2 传声器的参数要求符号参数测试条件最小值典型值最大值单位S灵敏

9、度1 kHz纯音，94 dB SPL-45-42-39dBV/PASNR信噪比1 kHz纯音，94 dB SPL-59-dB(A)Zout输出阻抗1 kHz纯音，94 dB SPL-400THD+N总谐波失真1 kHz纯音，100dB SPL-1%1 kHz纯音，115dB SPL-10%-指向性反向衰减15dB，最佳接受范围为母线同咪头在传声器拾音方向中垂线呈60夹角的圆锥内部-表3 回放设备要求设备名称参数要求说明计算机支持音频播放软件的安装和使用播放器频率相应（2.5dB）；74Hz18kHz最大声压级：102dB(A)推荐无人工嘴的条件下使用功率放大器和人工嘴信噪比：90Db增益控制：

10、0dB25dB频率响应:200Hz10kHz最大声压级：110dB(A)推荐在测试环境内使用仿真人体根据音箱和人工嘴的尺寸和安装位置定制5.2 测试环境要求5.2.1 被测语音交互系统部署被测语音交互系统，应确保被测系统具有语音拾音功能，可通过对话方式对其进行控制和交互。5.2.2 被测系统网络环境针对儿童陪伴机器人领域的语音交互系统，应提供其所需的移动互联网服务，网络条件应满足上行带宽不低于100kbit/s、下行带宽不低于50kbit/s，应保持稳定的连通状态。5.2.3 远场拾音距离要求测试所描述远场拾音距离默认为3m5.2.4 语音测试集应按4.2要求，在家居环境场景下回放得到的测试语

11、音文件和其对应的语料，作为语音测试集。5.2.5 测试场景要求测试场景采用真实家居环境噪声或模拟家居的环境噪声，分为低噪环境和高噪环境，要求噪音频谱保持稳定且噪音与命令词无类似发音，具体见表4表4 典型的环境噪声的录音场景场景编号家居环境房间门窗电视（可选）空调（可选）传声器处的环境混响要求信噪比dB传声器处的环境噪声声压级dB(A)备注场景1低噪关关关混响时间0.651545必备场景2高噪开开开混响时间0.65104560可选6 测试集组成及结构6.1 测试集组成儿童语音（识别）测试集包括：语音识别、语音合成、语义理解、交互成功率、响应时间、语音唤醒、声纹识别、语音打断等。6.2 测试集结构

12、a) 1表示前端语音处理模块获得输入的语音；a) 2表示语音处理模块经过前端语音处理模块处理的音频数据b) 3表示语音识别模块将语音识别出来的文本传递给语义理解模块c) 4表示语音识别模块将解析出的语义传递给交互决策模块d) 5表示交互决策模块获得手势等其他辅助信息e) 6表示交互决策模块将由反馈信息生成的合成文本传递给语音合成模块f) 7表示语音合成模块向系统调用者输出合成音频7 测试方法7.1 测试指标7.1.1 语音识别基本要求包括a) 识别引擎应支持远场音频处理，可支持近场音频处理。支持命令字识别或连续语音识别b) 在低噪环境（声音强度在50dB以下）中，语音识别正确率应大于85%c）

13、在高噪环境（声音强度在50dB70dB）中，语音识别正确率应大于80%7.1.2 语音合成应支持汉语普通话，宜支持英语以及粤语或其他方言，宜支持多音色合成和个性化合成，主要要求包括：多音色，应支持青年女声和青年男声多方言，应支持汉语普通话混合语种，应支持中英文混读多语种，应支持英语平均意见得分，应大于或等于4.0（满分5.0）7.1.3 语义理解应支持语义抽取、模糊识别、语义排序：语义抽取：抽取用户的关键意图语义排序：语义理解结果中给出多个排过顺序的理解结果供用户确认模糊识别：正确处理用户说的错别字、同义词、多字漏字、发音模糊的问题7.1.4 交互成功率控制指令应全面覆盖儿童日常学习、娱乐等日

14、常交互行为的语义意图理解。低噪环境下，针对童声，交互成功次数与总交互次数比例应大于90%，高噪环境下，交互成功次数与总交互次数比例应大于80%7.1.5 响应时间响应时间是指输出结果与语音输入结束的时间间隔。平均响应时间应小于1s7.1.6 语音唤醒a）在低噪环境（声音强度在50dB以下）中，语音识别正确率应大于80%，误唤醒频度应小于或等于0.2次/hb）在高噪环境（声音强度在50dB70dB）中，语音识别正确率应大于65%，误唤醒频度应小于或等于0.1次/h7.1.7 声纹识别应可根据声纹识别结果，实现对不同身份用户的差异化反馈。声纹识别错误率应小于或等于10%，错误接受率应小于或等于5%7.1.8 语音打断应支持交互过程中的语音打断，实现交互速度与自然度的提高在语音交互过程中，Pi=Ni/N*100%式中：Pi语音打断成功率N交互内容中需要执行打断操作的次数Ni被语音交互系统正确响应的次数7.2 测试方法7.2.1 语音识别测试在表4测试环境场景下，

展开阅读全文