数字化技术在少数民族语言研究报告中的关键技术应用评述

上传人:M****1 文档编号:490407017 上传时间:2022-08-27 格式:DOCX 页数:7 大小:32.95KB
返回 下载 相关 举报
数字化技术在少数民族语言研究报告中的关键技术应用评述_第1页
第1页 / 共7页
数字化技术在少数民族语言研究报告中的关键技术应用评述_第2页
第2页 / 共7页
数字化技术在少数民族语言研究报告中的关键技术应用评述_第3页
第3页 / 共7页
数字化技术在少数民族语言研究报告中的关键技术应用评述_第4页
第4页 / 共7页
数字化技术在少数民族语言研究报告中的关键技术应用评述_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《数字化技术在少数民族语言研究报告中的关键技术应用评述》由会员分享,可在线阅读,更多相关《数字化技术在少数民族语言研究报告中的关键技术应用评述(7页珍藏版)》请在金锄头文库上搜索。

1、数字化技术在少数民族语言研究中的关键技术与应用评述前沿少数民族语言文字不仅是少数民族生产生活的交流工具 ,更是民族文化的重要内容和载体 . 随着社会开放程度的不断提高,民族语言文字的使用有衰退的趋势, 一些使用人口比拟少的民族语言已经处于濒临状态, 民族语言文字的消亡,直接危及民族文化的繁荣和开展,抢救和保护民族语言文字资源,是繁荣和开展民族文化的重要前提,而且刻不容缓.随着计算机和网络技术以及数字化的普及和应用,为抢救和保护少数民族语言文字资源提供了重要的科技手段, 将少数民族语言文字引入计算机和互联网 ,将有效提升少数民族语言文字学习、应用和研究水平,实现各民族语言文字和平等权利,使少数民

2、族在科技领域不被边缘化 , 从而促进各民族语言文字的繁荣和开展,维护民族平等团结,稳固边疆繁荣稳定.本文主要介绍数字化技术在少数民族语言研究中的应用。 例如少数民族语言输入法包括编码字符集、输入技术、字形描述与生成、存储、编辑、排版、字频统计等,同时语言信息处理技术包括机器翻译、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及文字识别和语音识别等应用领域。1 数字化技术在少数民族语言保护方面的优点随着科技的进步和计算机技术的开展,尤其是数字摄影、三维信息获取、虚拟现实、多媒体与宽带网络技术研究与应用的开展,为少数民族语言的保护提供了一种可靠且有效的方法数字化保护 2。数字化技术在

3、少数民族语言保护的本质是以记录保存的方式对少数民族语言进展保护。通过对其相关的文字、图像、声音、视频及三维数据信息进展数字化保存、组织和存储来实现对其的保护。数字化保护所得的资料主要是硬盘或者光盘,它有以下几个优点: 几乎不占用物理空间; 可以方便灵活地进展图文声像与数字信息的双向转换; 可以方便自如地对资料进展修改、编辑、排序、移位、备份、删除和增补;可以高速、便捷地通过网络进展传输;可以方便、迅速地进展检索、调用。所以语言便于实现数据化、网络化,而且可以用来兴建具有互动性与开放性的大型图、文、声、像数字博物馆,并通过互联网的方式实现全球资源共享。2少数民族语言的输入法2.1编码编码就是在认

4、知上是解释传入的刺激的一种根本知觉的过程。技术上来说,这是一个复 杂的、多阶段的转换过程,从较为客观的感觉输入例如光、声到主观上有意义的体验。2.1.1 字符编码字符编码、字集码是字符集由编码组成。编码是指将某一字符序列对应到一指定集合中某一东西例如可能显示为一种自然数序列,交流所用的字母表或者字音表,再将其对应到另一个给定的集合中的其它东西,如一个自然数序处8位字节或者电脉冲,以便于文本在计算机中存储和通过通信网络的发送。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号编号,并用7位元的二进制来表示这个整数。通常会额外使用一个扩大的位元,以便于以8

5、位字节的方式存储。在计算机技术开展的早期,如ASCII1963年和EBCDIC1964年这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显,于是人们开发了许多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系 统而不是临时的方法实现这些字符的编码。2.1.2 简单字符集按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元通常一个字符一个单元。由于历史的原因,MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字 节数据的整个系统。2.1.3 现代

6、编码模型由统一码和通用字符集所构成的现代字符编码模型那么没有跟从简单字符集的观点。它们将字符编码的概念分为:有哪些字符、它们的编号、这些编号如何编码成一系列的“码元有限大小的数字以及最后这些单元如何组成八位字节流。区分这些概念的核心思想是建立一个能够用不同方法来编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集和“字符编码更为准确的术语表示。2.2 少数民族语言的输入技术中文输入技术是指将中文输入计算机等电子设备的技术, 它是中文信息处理技术的一个重要组成局部。(1)电脑键盘输入:也称中文输入法,是最常见的输入手段。 2语音输入:使用语音识别技术,对语音进展智能识别的方法。语音输入

7、入门难度低,但输入速度不高,且受到环境噪音影响很大。目前语音识别没有完全成熟,针对特定人的语音还需要进展计算机“训练。比拟著名的方案有IBM 的 ViaVoice。 3手写输入:对笔迹进展智能识别的技术,一般使用专用手写板进展输入,也可利用鼠标、触摸屏输入。手写输入技术已经非常成熟,从早期要求宋体、楷体独立笔画输入,开展到行书及局部草书的连笔识别。输入速度中等,识别率95%甚至更高。(4)光学字符识别:对印刷体进展光学扫描后进展智能识别的技术。输入速度高,识别率98%以上,技术成熟。现在的系统一般能恢复版面信息和字体信息,并能对中英文混排有较好的处理。2.3存储与排版 1 少数民族语言存储与汉

8、语存储一样, 我们在存储技术上可以参考汉语存储方式与技术。 2排版是指将文字、图片、图形等可视化信息元素在版面布局上调整位置、大小,使版面布局条理化的过程。 按照稿本把铅字、图版等排在一起拼成书报的版子,以供印刷。在少数民族语言排版方面我们可以借助一些,例如方正的排版。3 语言信息处理技术3.1 机器翻译机器翻译是我国最早开场研究的自然语言处理应用系统, 已经走过了近半个世纪的历程。 近年来在吸收国外研究成果和技术的同时, 结合中文信息处理的实际, 在专题研究和实用系统开发等方面都有新的进展1 。3.1.1 基于规那么的方法和基于语料库的方法研制实用机器翻译系统的方法有两种:基于规那么的和基于

9、语料库的。前一种方法通过对语言现象的综合和认识, 总结规律, 得到语法、语义等规那么,机器翻译系统运用这些规那么分析源语言, 形成一种确定的内部表示形式, 再把它转换成相应的目标语构造, 最后生成目标语译文。 第二种方法又可以分成基于语料统计的方法和基于实例类比的方法两种。 前者在大规模语料库的支持下,用统计学的方法建立语言模型,计算语言翻译概率模型的参数,根据翻译模型完成翻译过程。 后者也要建立大规模的双语语料库, 分别存放各种翻译单元的大量实例及其对应的译文, 翻译时, 系统先在语料库中寻找与源语翻译单元类似的实例, 然后模仿实例从源语的翻译单元构造目标语的译文。 多年来基于规那么的方法一

10、直是我国机器翻译研究的主流。 九十年代以后, 基于语料库的方法开场得到重视, 建立了用于机器翻译的双语语料库,进展了基于语料统计或基于实例类比的机器翻译实验1。3.1.2 机器翻译中的专题研究一个机器翻译系统至少要涉及自然语言的两个语种,既要分析源语言,又要生成目标语言,还可能需要处理两种语言的比照差异。 因此机器翻译十分需要语言学研究的支持, 需要结合机器翻译应用的实际, 研究语法、 语义等问题。 另外还要求翻译系统采用的语法体系具有上下文相关分析和处理的能力,这是机器翻译中最难解决的问题之一 1。机器翻译的另一类专题研究是知识处理问题,主要有以下几项内容。第一项为哪一项机器翻译所需的知识及

11、其形式化表示。 机器翻译需要的首先是语言学知识, 包括词法知识、 语法知识、和词汇信息,除此之外还需要日常知识、社会、文化、历史背景知识和各种专门领域的知识。 所有这些不同类型的知识要在计算机中用统一的方式表示出来, 并且可以进展有效的操作。 第二项是知识的获取问题, 指用计算机辅助人来总结、 归纳机器翻译所需要的知识,用规 X 的格式表示获取的知识,自动检测新知识与原有知识的一致性,并且能够根据译文校正的反应信息使已有的知识不断完善。 第三项是知识的管理和维护问题, 要随着知识数量的增加,发现隐含、冗余、非一致性、非完全性等问题,对知识库进展调整和优化,提高信息的有效性。算法设计和软件实现是

12、机器翻译的又一类专题研究,主要包括词法分析算法的设计和实现、句法分析器的设计和实现、 转换与生成算法的设计和实现, 以及用户环境的设计和实现。 算法和软件使语言学理论和语言模型在计算机上得以实现, 它们能够支持机器翻译规那么的操作,检验理论和方法的可行性,促进与机器翻译有关的语言研究。3.1.3 应用型机器翻译系统的研制机器翻译研究的最终目标是提供高质量的实用翻译系统, 因此研制应用型的系统始终是机器翻译领域的主流工作。 在我国研制的系统中, 参与翻译的语言对大多是英汉和汉英。 尤其是英译汉系统, 投入的力量最多, 实用的机器翻译产品也大多是英汉翻译系统。 九十年代前期曾经出现了数家机器翻译系

13、统同现市场, 用户的期望值被商业化行为提得过高的现象。 到了九十年代末, 能够继续留在市场上的系统已经不多了。 人们也逐渐用更客观和科学的态度对待机器翻译系统的翻译能力和应用目标,认识到机器翻译实际上还是一个不成熟的研究领域。近年来,研究人员根据机器翻译的难点、 现有的研制水平和技术开展的可行性,提出了以下几个观点,试图为机器翻译系统的应用定位: 1 按不同的需求调整机器翻译译文质量的承受标准。 如果以浏览 获取信息 为目的,那么译文质量不大高也往往可以承受; 如果以辅助翻译为目的, 那么按整句当中的翻译单位词语或词组提供可选的译文,也可以承受;如果以发表或出版传播信息为目的,就需要译文到达准

14、确和可读的标准。 2 使机器翻译系统受限。所谓受限,一方面指特定的用户如某个公司 ,另一方面指特定的待翻译文本如天气预报、产品技术手册等 。这样能够使系统的词典、规那么和实例更有针对性,减少翻译中的各种歧义。 3 在翻译过程中采用人机交互的方式。 包括译前编辑、 翻译过程中的提问和人工干预、以及译后编辑等。 4 把机器翻译的阶段性结果与语言信息处理的其他应用目标结合起来。 譬如跨语言的文本信息检索和信息提取。近几年涉及中国少数民族语言的机器翻译研究和开发工作也有一定进展, 已有英蒙和汉蒙机器翻译系统、汉维维汉机器辅助翻译系统正在实验当中。3.2 文本信息处理文本信息处理系统可以帮助人们在大量的

15、文献资料中迅速获得所需要的信息。其XX 息检索、 信息提取、 信息过滤和文本分类成为近几年投入研究最多的文本信息处理应用技术。 目前的文本信息处理系统大多采用统计语言模型和语言浅层分析规那么的策略, 这样就避开了自然语言理解当中难以解决的问题,把一些相对成熟的语言分析技术应用到语言工程当中。所以比起机器翻译来, 文本信息处理虽然起步要晚许多年, 却取得了快得多的研究进展和应用效果。早期的文本信息检索 Information Retrieval , 简称 IR 系统是基于自由关键字和布尔模型的,语言处理技术的含量不高, 虽然实用, 但检索效果并不很理想。 近年开展起来的基于自然语言处理的文本检索技术, 已经到达了能够处理大规模开放文本的实用程度。 其中采用的语言处理技术有:自动分词,词频统计,识别“有效词和“停用词,识别复合短语、专有名词和未定义词, 在此根底上用概率统计的方法计算文本的类别特征值, 判断检索结果的相关程度。 同时, 文本自动分类和自动文摘技术也被引入到检索系统里, 以提高检索的效率和准确度。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号