越南语语音项目方案

上传人:思*** 文档编号:126888994 上传时间:2020-03-28 格式:DOCX 页数:9 大小:29.92KB
返回 下载 相关 举报
越南语语音项目方案_第1页
第1页 / 共9页
越南语语音项目方案_第2页
第2页 / 共9页
越南语语音项目方案_第3页
第3页 / 共9页
越南语语音项目方案_第4页
第4页 / 共9页
越南语语音项目方案_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《越南语语音项目方案》由会员分享,可在线阅读,更多相关《越南语语音项目方案(9页珍藏版)》请在金锄头文库上搜索。

1、越南语语音项目方案1. 数据需求数据需满足下列需求:数据量500小时;1000人句数每人450句性别男女比例1:1,可上下浮动5%年龄1825岁60%,2645岁35%,4660岁5%,可上下浮动2%语言越南语地域分布见下方要求录音环境相对安静的环境,无回声录音工具手机录制,安卓:IOS=3:1音频格式16kHz 16bit语料通用类;通用长句类;交互类(语音助手类);家居命令;车载命令;数字正确率句正确率95%交付内容采集并标注2. 地域分布可参考以下的区域划分:越南的南部方言区和北部方言区,中部方言区可以少量覆盖3. 语料制作3.1 句数分配语料类别占比每份句数重复率所需总句数通用类40%

2、180360000通用长句类15.6%70324000交互类33.4%150350000家居命令4.4%2063400车载命令2.2%1061700数字4.4%20370003.2 通用类1) 定义无特定领域限定的口语化句子,包括聊天、评论。2)来源facebook、twitter、论坛3) 筛选网络爬取的句子,需交给越南人进行筛选。筛选项主要包含:语句是否通顺;是否包含错别字。修改正确后再提交。3.3 通用长句类1) 定义句长偏长的新闻类句子,话题广泛。2)来源越南新闻网站4) 筛选网络爬取的句子,需交给越南人进行筛选。筛选项主要包含:语句是否通顺;是否包含错别字。修改正确后再提交。3.4

3、交互类1) 定义人与语音助手的交互文本。包含影视、音乐、天气、导航等多个领域。2)来源优先BD购买真实的交互句子。若无法买到,只能用人工编写句式的方式。要求:i. 句子长度在4-15字。ii. 文本来自真实的人机交互。iii. 语句必须通顺完整。iv. 句子不能包含色情、暴力、不文明、政治不正确等内容。v. 句子中不能包含错别字或无意义的符号。vi. 句子不能全是拟声词。举例(以下为中文例子):给我唱首歌我要去马德里大学怎么走明天里约热内卢的天气如何3.5 家居命令1)定义人对智能家居设备发出的命令语句。2)来源来源:对各类家居设备(空调、灯、电视、冰箱等),人工编制命令语句。举例(以下为中文

4、例子):客厅灯关啦把电视音量调高一些把空调的风量减小3.6 车载命令1)定义人对智能车载设备发出的命令语句。2)来源来源:对车载设备,人工编制命令语句。举例(以下为中文例子):接听电话打开天窗放首音乐3.7 数字串来源:程序生成,共分为6个类别。a. 日期类: *年*月*日,只要符合常规就可以,年:1001年-2020年,月:1-12月,号:1-31号,同时不要出现像2月31日这样不存在的日期。b. 时间类: *时*分*秒、*点+半/整/一刻/三刻。c. 电话号码类:共11位,0-9数字随机组合。d. 币种:(欧元、美元),欧元:*euro(s)*cent (s);美元:*dollar(s)*

5、cent(s);可以只包含其中的一类例如:*元;*分等。3.8 发音平衡录音语料进行音素统计,对于音素少的进行语料补充。4. 采集要求4.1 录音人要求1) 口齿清楚,态度认真,避免说话结巴、大舌头、嗓音嘶哑等病理性发音的人。2) 参加录音的人(或其监护人)必须事先了解录音要求(录音方法、录音环境、朗读要求、合格指标)。3) 每人只能录制一份该项目录音。如出现一人录制多份数据的现象将取消相应报酬。4) 录制人员对录音人的录音号段做好分配,避免号段重复使用。4.2 录音要求1) 录音设备及软件使用手机采集。手机需要摆放好,录制过程中不能移动。录制前先清理好手机内存,防止录制还没有完成时手机内存不

6、足。需自备一台笔记本电脑(需要安装Cool Edit或者Adobe Audition,以便及时查看录音文件的波形图、语谱图等)和无声鼠标。使用无声鼠标是为了避免录入鼠标点击声,导致数据不合格。录制前先进行试录,确认手机上的录音文件没有截幅的情况。2) 录音环境安静的室内,不能有其他人说话声、笑声,及其它噪音(鼠标点击声、敲击键盘声、空调声、音乐声、汽车声、风声、撞击声、突发噪音等),无回音。不能在空旷的场地采集,例如:教室、礼堂、厕所、酒店大厅等。周边噪音关联事项:i. 录音人外其他人的声音不采用。ii. 录音人的喘气声可以采用,但是声音过大不采用。iii. 其他噪音不采用。例如:摔东西的声音

7、、关门声、喝水声、笑声、翻书的声音、音乐声、咳嗽声、车声等。3) 录音数据格式手机:安卓(android)系统和苹果(iOS)手机应按照3:1的比例采集。手机应该尽可能覆盖当前市面上的主流机型。数据格式为无压缩WAV格式,采样率为16kHz,16bit量化,单通道。4) 朗读要求用越南语朗读所有句子,必须是同一录音人完成一份语料的全部语句。a) 录音人必须发音自然、流利、清晰;禁止压低嗓子录音;禁止用耳语方式录音;禁止夸张语气,笑着说话。b) 录音人严禁刻意变声、模仿等说话方式。c) 录音人语速适中,吐字清楚,避免结巴。不能快到含糊不清,也不能慢到一字一顿。d) 录音时,嘴与手机保持20-25

8、厘米距离。禁止把嘴贴在手机处录音,这样会造成严重的喷麦和截幅问题,会导致录制数据不合格。e) 录制一句话时,为保证嘴与手机的距离不变,尽量保持姿势位置不动,避免录音人距离麦克风和手机忽近忽远。f) 录音时,应以提供的原始句子为准。如果遇到不通顺或错字等影响正常朗读的句子,朗读时可稍作修改。g) 患感冒时鼻音很重、或因病嗓子沙哑时,不能录音。h) 禁止一人录制多份语料,每人只能录制一份语料。5) 需要记录的录音人以及录音设备信息对于每一个参加录音的录音人,需要记录如下信息:(1)姓名;(2)性别;(3)年龄;(4)出生地;(5)成长地;(6)手机型号可以在excel表格中记录如上信息,如下表所示

9、:录音人编号姓名性别年龄出生地成长地手机型号000100025. 标注要求语音标注规则:标注人员需要在标注平台截取出多个有效语音段。有效语音段是指当前录音人的录制语音。截取时应在语音实际的起止时间点前后各保留约0.5秒的静音段,但不可将领读人的语音截取进来。无论一个语句是否有效,都需要在平台上截取出来,只是判断为无效的在平台上选无效。但如果出现录音人读错句子,停顿后再读一遍的情况,则只截取对的句子即可。有效性:如果一句话完全是用规定之外的语言朗读的,则应该认定这句话无效。例如:“Save the file and try to import it again.”在越南语标注中应认定为无效。(如

10、果一句话中包含一个或两个外文单词,则应遵从其他规范。)如果一句话没有录音人的语音,则应认定这句话无效。如果一句话听不清录音人在说什么,则应认定这句话无效。如果一句话中存在明显的语音不完整现象,则应认定这句话无效。如果一句话有很强的背景噪音,则应认定这句话无效。如果一句话有回音、空旷音,则应认定这句话无效。如果一句话中有第二说话人的声音,则应认定这句话无效。如果一句话存在丢帧的情况,则应认定这句话无效。如果一句话存在截音/切音的情况,则应认定这句话无效。如果一句话存在严重喷麦或多次喷麦的情况,则应认定这句话无效。数字:所有数字应根据他们的发音进行记录,不能写成阿拉伯数字。“123”应写成:一二三标点:以下为语音标注时可能用到的标点符号。运用标点符合主要是为了方便阅读。标点符号的类型仅限于以下几种。句号“.”加在陈述句的结尾。问号“?”加在疑问句的结尾。逗号“,”加在满足语法规范的从句之间。对质检员的要求:标点符号为可选项(标注员可以用抑或不用。)质量保证标注的句正确率应该在95%(含)以上。如果语句的一部分出现了以下标注错误:错误标注,有效错误等,则认定这句话为错误标注语句。标注准确率=1-(错误的标注语句数/全部标注语句数)6. 发音词典制作配套的发音词典,覆盖所有标注文本里出现的单词。 11 / 11

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号