输入法语料注音方法、生成评测语料的方法及电子装置的制作方法

资源描述

《输入法语料注音方法、生成评测语料的方法及电子装置的制作方法》由会员分享，可在线阅读，更多相关《输入法语料注音方法、生成评测语料的方法及电子装置的制作方法（7页珍藏版）》请在金锄头文库上搜索。

1、输入法语料注音方法、生成评测语料的方法及电子装置的制作方法专利名称：输入法语料注音方法、生成评测语料的方法及电子装置的制作方法技术领域：本发明涉及输入法技术领域，特别是涉及输入法语料注音方法、生成评测语料的方法及电子装置。背景技术：输入法是指为了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。输入法的性能将直接影响在计算机或其他设备上的输入效率。因此，需要对输入法性能进行评测以为不断完善输入法提供依据。输入法的评测是通过在评测语料上进行录入、选词等操作，并在过程中记录理想候选结果的位置及得到理想候选结果的编辑次数，最后统计在多个录入、选词过程中理想候选结果位置的分布和得到理想候选结果

2、的编辑次数的平均值来反映输入法的易用性。可见，评测语料是输入法评测的前提，因此，如何找到客观、实用且正确的评测语料对输入法的评测有着重要意义。一般收集评测语料有手工收集和自动化方法收集。目前，采用手工收集评测语料的效率低，而一般的自动化方法生成的评测语料至少存在如下问题切词机制不合理，导致损失大部分用户实际输入的语料，使得获取的语料不恰当，影响输入法的评测结果；没有成熟的注音工具对语料进行准确的注音。发明内容本发明主要解决的技术问题是提供输入法语料注音方法、生成评测语料的方法及电子装置，能够提高评测语料的生成效率，同时生成的评测语料与用户实际录入较接近，延续性好，评测语料的注音正确率高。为解决

3、上述技术问题，本发明采用的一个技术方案是提供一种语料注音的方法，包括利用至少两个不同的注音工具对每个所述语料分别进行注音，以使得每个语料具有相应的至少两个注音；判断每个所述语料的至少两个注音是否相同，若不同则选择评估结果较优的注音以作为所述语料的正确注音，若相同则直接用所述注音作为语料的正确注曰为解决上述技术问题，本发明采用的另一个技术方案是提供一种生成输入法评测语料的方法，包括将捕获的历史输入内容切分成用户单次录入的至少一个语料；利用至少两个不同的注音工具对每个所述语料分别进行注音，以使得每个语料具有相应的至少两个注音；判断每个所述语料的至少两个注音是否相同，若不同则选择评估结果较优的注音

4、以作为所述语料的正确注音，若相同则直接用所述注音作为语料的正确注音，并将所述确定好正确注音的语料作为所述评测语料。其中，所述将捕获的历史输入内容切分成用户单次录入的语料的步骤包括将捕获的历史输入内容按照标点符号为分隔的临界进行第一次切分；对所述第一次切分后的语料按照文节进行第二次切分，得到所述用户单次录入的语料。其中，所述对第一次切分后的语料按照文节进行第二次切分的步骤包括通过juman及knp对第一次切分后的语料按照文节进行第二次切分。其中，所述将捕获的历史输入内容切分成用户单次录入的语料的步骤之后，利用至少两个不同的注音工具对所述语料进行注音的步骤之前，还包括对切分得到的所述用户单次录入的

5、语料进行去噪音处理，以消除其中无意义的语料。其中，所述对切分得到的用户单次录入的语料进行去噪音处理的步骤包括利用自定义的噪音规则对切分得到的所述用户单次录入的语料进行去噪音处理。其中，所述对切分得到的用户单次录入的语料进行去噪音处理的步骤之后，还包括对所述去噪音处理后的每个所述语料进行频次计算，通过轮盘赌算法进行语料选取。其中，对去噪音处理后的语料进行频次计算，通过轮盘赌算法进行语料选取的步骤之后，还包括在选取出来的所述语料中，对于相同的所述语料，只保留其中一个作为所述利用至少两个不同的注音工具进行注音的语料。其中，所述生成评测语料的步骤之后，还包括运行至少一个输入法工具输入所述评测语料以获取

6、相应的候选结果，并收集所述相应的候选结果；将所述评测语料与所述相应的候选结果保存以得到评测语料集。其中，所述将捕获的历史输入内容切分成用户单次录入的语料的步骤之前，还包括捕获网络上预定领域或类型的内容作为历史输入内容。为解决上述技术问题，本发明采用的另一个技术方案是提供一种电子装置，包括注音模块、判断模块以及注音确定模块，其中所述注音模块用于利用至少两个不同的注音工具对每个所述语料分别进行注音，以使得每个语料具有相应的至少两个注音，并将每个语料相应的所述至少两个注音输出给所述判断模块；所述判断模块用于判断每个所述语料的至少两个注音是否相同，并将判断结果输出给所述注音确定模块；所述注音确定模块用

7、于当每个所述语料的至少两个注音相同时，直接用所述注音作为语料的正确注音，当每个所述语料的至少两个注音不同时，选择评估结果较优的注音以作为所述语料的正确注音。为解决上述技术问题，本发明采用的另一个技术方案是提供一种电子装置，包括切分模块、注音模块、判断模块以及评测语料生成模块，其中所述切分模块用于将捕获的历史输入内容切分成用户单次录入的至少一个语料，并将切分得到的用户单次录入的至少一个语料输出给所述注音模块；所述注音模块用于利用至少两个不同的注音工具对每个所述语料分别进行注音，以使得每个语料具有相应的至少两个注音，并将每个语料相应的所述至少两个注音输出给所述判断模块；所述判断模块用于判断每个所述

8、语料的至少两个注音是否相同，并将判断结果输出给所述评测语料生成模块；所述评测语料生产模块用于当每个所述语料的至少两个注音相同时，直接用所述注音作为语料的正确注音，当每个所述语料的至少两个注音不同时，选择评估结果较优的注音以作为所述语料的正确注音，并将所述确定好正确注音的语料作为所述评测语料。其中，所述切分模块包括第一切分单元和第二切分单元，其中所述第一切分单元用于将捕获的历史输入内容按照标点符号为分隔的临界进行第一次切分，并将第一次切分得到的所述语料输出给所述第二切分单元；所述第二切分单元用于对来自所述第一切分单元的所述第一次切分后的语料按照文节进行第二次切分，得到所述用户单次录入的语料，并将

9、所述用户单次录入的语料输出给所述注音模块。其中，所述第二切分单元具体用于通过juman及knp对第一次切分后的语料按照文节进行第二次切分。其中，所述装置还包括去噪音模块，用于对所述切分模块切分得到的所述用户单次录入的语料进行去噪音处理，以消除其中无意义的语料。其中，所述去噪音模块具体用语利用自定义的噪音规则对切分得到的所述用户单次录入的语料进行去噪音处理。其中，所述装置还包括语料选取模块，用于对所述去噪音模块处理后的每个所述语料进行频次计算，通过轮盘赌算法进行语料选取。其中，所述装置还包括去重模块，用于在所述语料选取模块选取出来的所述语料中，对于相同的所述语料，只保留其中一个作为所述利用至少两

10、个不同的注音工具进行注音的语料，并将所述保留的语料输出给所述注音模块。其中，所述装置还包括评测语料集模块，用于运行至少一个注音工具输入所述评测语料生成模块得到的所述评测语料以获取相应的候选结果，并收集所述相应的候选结果，将所述评测语料与所述相应的候选结果保存以得到评测语料集。其中，所述装置还包括内容捕获模块，用于捕获网络上预定领域或类型的内容作为历史输入内容，并将捕获的所述历史输入内容输出给所述切分模块。本发明的有益效果是一方面，本发明的语料注音的方法采用多个注音工具对每个语料分别注音，再通过交叉校验的方式确定语料的正确注音，极大的减少需要人工校验语料正确注音的工作量，提高语料注音的效率同时，

11、也提高语料注音的正确率。另一方面，本发明生成输入法评测语料的方法，由于采用多个注音工具对语料进行注音，再对同一语料的多个注音进行交叉校验以确定语料的正确注音，能够有效减少对语料注音进行人工审核的工作量，同时还有效提高评测语料注音的准确性。另外通过对捕获的历史输入内容切分得到用户单次录入的语料，使获取的评测语料与用户的实际录入更贴近，评测语料的延续性更好。本发明生成评测语料的方法，整个过程几乎不需要人工参与，能极大提高生成评测语料的效率。图I是本发明语料注音的方法一实施方式的流程图；图2是本发明输入法评测语料生成的方法一实施方式的流程图；图3是本发明输入法评测语料生成的方法一实施方式中将捕获的历

12、史输入内容切分成用户单次录入的语料的流程图；图4是本发明输入法评测语料生成的方法另一实施方式的流程图；图5是本发明电子装置第一实施方式的结构示意图；图6是本发明电子装置第二实施方式的结构示意图；图7是本发明电子装置第三实施方式中切分模块的结构示意图；图8是本发明电子装置第四实施方式的结构示意图。具体实施例方式在输入法的应用过程中，不管是日文输入法还是中文输入法，都普遍存在多音字的情况。因此，语料的注音的准确与否将直接影响用户对输入法的体验效果。对语料注音是指利用输入法的注音工具对语料进行注音以确定语料的正确注音的过程。参阅图1，本发明语料注音的方法实施方式包括步骤SlOl :利用至少两个不同的

13、注音工具对每个语料分别进行注音；对于需要注音的语料，分别利用至少两个不同的注音工具进行注音，使每个语料都具有至少两个注音。这里的注音工具可以是任意两个或两个以上不同的注音工具，本发明对此不做限制。步骤S102 :判断每个语料的至少两个注音是否相同；判断步骤SlOl之后得到的每个语料的至少两个注音是否相同，若每个语料的至少两个注音相同则进行步骤S103，若不同则进行步骤S104。比如可以通过对同一个语料的多个注音进行dif f计算(文本比较计算)，若计算结果为不同，则表示不同注音工具对该语料的注音存在差异，需要进一步核查以确定语料正确的注音，则进行步骤S104 ;若计算结果为相同，则表示对多个注

14、音工具对该语料的注音无差异，则进行步骤S103。步骤S103 :直接用相应的注音作为语料的正确注音；当每个语料的至少两个注音相同，则表示各个注音工具对同一个语料的注音无差异，可以认定该语料的注音是正确的，直接用该注音作为语料的正确注音，结束流程。步骤S104 :选择评估结果较优的注音以作为语料的正确注音；当每个语料的至少两个注音存在不同时，表示各个注音工具对同一个语料的注音存在差异，需要重新对语料的注音进行评估，选择评估结果较优的注音以作为语料的正确注音。这里进行评估时，可以从已有的多个注音中选择较优的注音作为语料的正确注音。若重新进行评估时，各个注音工具对该语料的注音都不恰当，也可以人工重新

15、确定该语料的正确注音，结束流程。以下通过举例来进一步说明本发明的语料注音的方法比如一个语料“落枕”，若利用两个注音工具的注音结果分别为“ldozhgn”和“ldozhgn”，则diff计算的结果为相同，直接用“1如zhgn”作为语料的正确注音。若利用两个注音工具进行注音的结果分别为“ldzhgn”和“ldo zhen,评估得到“ldo zhgn”为评估结果较优的注音，则以“l6o zhgn”作为语料的正确注音。若利用两个注音工具进行注音的结果分别为“l6o zhgn”，重新进行评估时会发现两个注音都不恰当，可以人工确定“ldo zhen为评估结果较优的注音，以“l6o zhgn”作为该语料的正

16、确注音。同样针对于上述的语料“落枕”，若利用三个注音工具的注音结果分别为“1如zhen ,Iao zhgn ”和“ldo zhgn”，则直接以“ldo zhgn ”作为语料“落枕”的正确注音，若利用三个注音工具的注音结果分别为“l6o zhgn”、“Idzhgn”和“Id10 zhgn”或分别为“IdoZhgn”、“ld0ZhSn”和“I dzhSn”，都属于注音不相同的情况，评估得到“ldo zhSn”为评估结果较优的注音，则以“l6o zhen作为语料的正确注音。通过上述实施方式的描述，可以理解，区别于现有技术，本发明的语料注音的方法采用多个注音工具对每个语料分别注音，再通过交叉校验的方式确定语料的正确注音，极大的减少需要人工校验语料正确注音的数量，提高语料注音的效率同时也提高语料注音的正确率。该语料注音的方法可以用于不同语言种类的语料注音，比如但不限于日文语料、汉语语料。经研究表明，对本发明语料注音的方法的一个实施方式而言，相对于现有的注音方法，需要人工校验语料正确注音的工作量减少了 90%，且注音的正确

展开阅读全文

输入法语料注音方法、生成评测语料的方法及电子装置的制作方法

最新文档