中文输入法标注准则

上传人:工**** 文档编号:489740897 上传时间:2023-05-15 格式:DOCX 页数:4 大小:9.05KB
返回 下载 相关 举报
中文输入法标注准则_第1页
第1页 / 共4页
中文输入法标注准则_第2页
第2页 / 共4页
中文输入法标注准则_第3页
第3页 / 共4页
中文输入法标注准则_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《中文输入法标注准则》由会员分享,可在线阅读,更多相关《中文输入法标注准则(4页珍藏版)》请在金锄头文库上搜索。

1、中文输入法标注规范、 好数据:1、中文类型:1)根据发音把文字转写准确;2)儿化音的数据要把儿化音录入3)多音字的不同发音,也要按照普通话的标准录入4)文本正常转写,不能多字、少字或漏字,对于小区名、道 路名和人名要按正确的文字录入;说话人中途说错12字的音, 但整句语义明确,如果可以找到该发音的汉字就按发音转写,如 果找不到同音字根据语义进行转写5)发音有停顿文本连续录入,文本间不需要空格或添加任何 标点符号,英文缩写除外;例如,“what s your name”其中上撇 符号一定是英文状态下录入,特殊符号按汉字发音录入;6)对于网址的录入,根据发音录入,如“三W点”和W W W 占”八、

2、7)语气词必须是口字旁要使用正确,对于结尾时疑问句用“吗”陈述句则用“嘛”;8)方言(稍重)、口音较重的发音,只要在普通话角度可以 听清,听懂,均进行转写(瓜娃子)2、英文及其他国家语言类型:1)对于字母和单词的录入,字母要大写且之间空格,单词小 写且空格,字母/单词与汉字之间是不需要空格。例如P P T V2)除英语以外的其他国家语言,如果有固定汉字的均可进行 转写,如“卡哇伊、“莫西莫西等3、数字类型:对于阿拉伯数字要转写成汉字。例如,“123”如果读音是一 则转写为“一二三”,如果读音是幺则转写为“幺二三”,如果读 音是百则转写为“一百二十三”4、噪音类型:1)设备噪音类型:QQ滴滴音、

3、手机震动音、log音,出现, 只要能听清发音人内容均转写2)人声噪音的类型:人声噪音只要不影响主说话人的,全部 进行转写出来(包括边人说话内容);a)无主次说话人类型:两个人对话或多人讲话没有重合部分 均转写b)主次分明的类型:主发音人内容与次发音人内容都听清均 转写;主发音人内容清晰,次发音人内容模糊,只转写主发音人内容; 主发音内容清晰,次发音人内容部分清晰与主发音人音频没有重合部 分,只转写主发音人内容二、坏数据1、音频无主发音人的类型a)纯环境噪音/纯人声噪音/纯音乐、说唱/纯人声非语音(包括咳嗽、清嗓子、打喷嚏、笑声等)b)两个人对话有重合部分或多人讲话有重合部分的/纯机器人的声音,例如:公交车报站的声音和拨打10086的提示音等;2、音频有主发音人的类型:a)方言严重听不清楚内容的;b)噪音类型:1)设备噪音类型:QQ滴滴音、手机震动音、log音,出现导致 听不清发音人内容坏数据;2)人声噪音的情况类型:边人说话音清晰,与主发音人语音重 叠,无法分别主说话人内容,标坏c)截断类型:1)左右截断的情况:左右截断数据从听感上听到首汉字和尾汉 字的音节没有发完整2)严重上下截幅情况,主发音人吼出来造成的音频波形超出上 下边界线

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号