翻译文件的拆分和分配方法

上传人:ting****789 文档编号:310050600 上传时间:2022-06-14 格式:DOCX 页数:5 大小:19.10KB
返回 下载 相关 举报
翻译文件的拆分和分配方法_第1页
第1页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《翻译文件的拆分和分配方法》由会员分享,可在线阅读,更多相关《翻译文件的拆分和分配方法(5页珍藏版)》请在金锄头文库上搜索。

1、翻译文件的拆分和分配方法专利名称:翻译文件的拆分和分配方法技术领域:本发明涉及一种办公文件拆分和分配方法,具体涉及翻译文件的拆分和分配方法。背景技术:对于现在的社会,国际交上的交流成家常便饭。随之带来的翻译量越来越大,文件 字数越来越多。以现在CAT技术的流行,翻译速度大大提升。但是在翻译前的准备过程往往占据了相当长的时间。例如对于翻译公司来说,一份约3万字的文件分别给10个人做,在前期需要用时半天甚至更久的时间来完成文件拆分和分配。更严重的事,犹豫文字过多,很容易导致分割时视觉混淆导致拆分有误。许多文件中会有很多段落是完全相同的,这样翻译只是多了一些无用的事。这样无形的增加了翻译成本。而目前

2、市面上所有的拆分工具器目的是为了将文件化整为零,方便携带,其算法按字节流分割。此方法对文字的分割基本是无用的。所以翻译界在翻译文字过多文件时往往需要多个人同时进行翻译,翻译前都会花大量时间用于文字的拆分。发明内容本发明克服了现有技术的不足,提供一种对需要翻译的文件进行拆分和分配的方法,该方法将多种办公文件按段算字数的方法直接拆分成指定份数,再分发给译员进行翻译,而且在拆分之前先对是否有隐藏文件进行处理,该方法从文件的分割,隐藏相同段落,到分配可以将整个时间减少到3-10分钟。这样就提高了翻译效率,避免了重复翻译,解决了现有技术中存在的技术问题。为解决上述的技术问题,本发明采用以下技术方案 一种

3、翻译文件的拆分和分配方法,包括以下步骤 步骤1,开始; 步骤2,导入文件; 步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ;步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤7 ; 步骤6 :遍历文件找出相同段落,去除相同段落;步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定分成的份数为N;步骤8 :导出拆分文件选择路径; 步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差百分比进行以段为主,字数为辅的拆分法,具体包括 步骤

4、9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ; 步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来; 步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第

5、一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数直到各段总字数满足大于或等于A-A*D,就可以将第二份拆分出来; 步骤9-4,拆分出第三份依次遍历步骤9-3拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的

6、总字数直到各段总字数满足大于或等于A-A*D,就可以将第三份拆分出来; 以此类推直至步骤9-N,拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数直到各段总字数满足大于或等于A-A*D,就可以将第N-I份拆分出来; 步骤9-N+1,如果余下段落数目大于零,则将余下的段落拆分成第N份并进入步骤10 ;

7、如果当进行完步骤9-N后,余下段落数目为零时,则提示客户由于总字数和总段数过少,需要将调整误差值D调大,之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1,直至满足拆成N份为止再进入步骤10 ;或不计较拆分的份数少一份,而进入步骤10 ; 步骤10,将拆分好的文件保存到用户指定的路径。更进一步的技术方案是 所述的误差值D的选择范围为4%-40%,当文件字数越多时,误差值就越小,而当文件字数越少时,误差值D应越大。所述的步骤9-N+1中,若余下段落的总字数低于平均字数的4%时,则提示客户拆分数量过分不均,需要将调整误差值D调大,需要回到步骤3将调整误差值D调大,之后再回到步骤9-1重新开始至

8、步骤9-N+1,直至满足拆成的第N份大于或等于平均字数的4%为止。所述的总字数包括标点和文字。所述的总字数仅包括文字,不包括标点。所述的误差值D可以通过公式70/A-N/G/10来进行计算,若算出来的D小于4%,则将D设置为4%,若算出来的D大于40%,则将D设置为40%。与现有技术相比,本发明的有益效果是 I、本申请涉及的翻译文件拆分方法效率高,相同段隐藏可以节约翻译成本。2、本申请涉及的翻译文件拆分方法采用以段为主,字数为辅的拆分法,并设置了满足字数拆分的合理拆分,既解决了以往由于断句不完整 无法翻译的问题,同时也满足了拆分精度的要求。解决了人为拆分耗时过大,加大项目成本的问题。具体实施例

9、方式本发明涉及一种翻译文件的拆分和分配方法,包括以下步骤 步骤1,开始; 步骤2,导入文件; 步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ; 步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数最大值;此最大值不能大于总段数; 步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤7 ; 步骤6 :遍历文件找出相同段落,去除相同段落; 步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定分成的份数为N; 步骤8 :导出拆分文件选择路径; 步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分,根

10、据误差百分比进行以段为主,字数为辅的拆分法,具体包括 步骤9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ; 步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来; 步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于

11、A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数直到各段总字数满足大于或等于A-A*D,就可以将第二份拆分出来;步骤9-4,拆分出第三份依次遍历步骤9-3拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第

12、一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数直到各段总字数满足大于或等于A-A*D,就可以将第三份拆分出来; 以此类推直至步骤9-N,拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数直到各段总字数满足大于或等于A-A*D,就可以将第N-I份拆分出来; 步骤9-N+1,如果余下段落

13、数目大于零,则将余下的段落拆分成第N份并进入步骤10 ;如果当进行完步骤9-N后,余下段落数目为零时,则提示客户由于总字数和总段数过少,需要回到步骤3将调整误差值D调大,之后再回到步骤9-1重新开始至步骤9-N+1,直至满足拆成N份为止再进入步骤10 ;或不计较份数直接忽略进入步骤10 ; 在上面的步骤9-N+1中,若余下段落的总字数低于平均字数的4%时,则提示客户拆分数量过分不均,需要将调整误差值D调大,之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1,直至满足拆成的第N份大于或等于平均字数的4%为止。步骤10,将拆分好的文件保存到用户指定的路径。误差值D的选择范围为4%40%,当文件

14、字数越多时,误差值就越小,而当文件字数越少时,误差值D应越大。我们的总字数即可以包括标点和文字,也可以总字数仅包括文字,不上述的误差值D=70/A-N/G/10,若算出来的D小于4%,则将D设置为4%,若算出来的D大于40%,则将D设置为40%。 下面我们再来以一个具体的例子来对步骤9的详细过程进行举例说明。举例I ;我们有10段文字需要拆分成5份。 第一段文字有120个字,第二段文字有100个字,第三段文字有50个字,第四段文字有60个字,第五段文字有77个字。第六段文字有88个字,第七段文字有200个字,第八段文字有90个字,第九段文字有10个字,第十段文字有98个字。假设我们先将误差值D

15、设置为10%。此十段总字数为893个字。由于要分成5份,平均每份算出来即为178.6个字。需要满足的条件为每一份字数大于或等于178. 6-178. 6*10%=160. 74 个字。接着我们开始进行拆分第一份,先看第一段文字有120个字,不满足字数条件,需要继续。则将第一、二段总字数算出来为220个字,满足字数条件,将第一、二段作为第一份拆分出来。拆分第二份,第三段文字有50个字,不满足字数条件,需要继续。将第三、四段总字数算出来为110个字,还是不满足字数条件,再将第三、四、五段总字数算出来为187个字,满足了字数条件,马上将第三、四、五段作为第二份拆分出来。按照同样方法,就会将第五、六段

16、作为第三份拆分出来,第七至第十段作为第四份拆分出来。此时会有提示客户由于总字数和总段数过少,需要将调整误差值D调大,我们回到之前的步骤3将误差值设置为20%,则需要满足的字数条件为大于或等于142. 88。这样分下来的结果还是和刚才一样。当我们将误差设置为30%时,需要满足的字数条件为大于或等于125. 02。这样分下来的结果还是和刚才一样。当我们将误差值设置为35%时,需要满足的字数条件为大于或等于116. 09。这样的话,第一段拆分成第一份,第二、三拆分成第二份,第四、五段拆分成第三份,第六、七段拆分成第四份,余下为第五份。举例2 举例2 ;我们有40段文字需要拆分成5份。第一段文字有20个字,第二段文字有276个字,第三段文字有99个字,第四段文字有18个字,第五段文字有60个字。第六段

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号