语言系统国内外发展概况

资源描述

《语言系统国内外发展概况》由会员分享，可在线阅读，更多相关《语言系统国内外发展概况（5页珍藏版）》请在金锄头文库上搜索。

1、1语言系统国内外发展概况国家科技部中药基础数据库项目课题组尹爱宁张汝恩随着信息技术的发展，21 世纪将逐步形成了全球范围内数字化系统。信息专业性领域限定的弱化，促使各行业信息专业化程度有明显上升趋势。由此，各行业对于信息技术的需求与依赖更加突出。为满足行业信息化的发展，信息标准化与信息基础性研究成为行业的焦点。如何用智能化的手段处理海量信息（包括文字、图像、语音等）已成为一个十分紧迫的问题。将信息转变为知识、将信息基础设施发展为知识基础设施是 21 世纪的重要科研方向。重点解决：数据发掘、文本挖掘、知识发现、Internet 网上海量信息的智能化检索和网上软件机器人等。为了实现数据挖掘与知

2、识的发现，信息技术的普及化与自然化是必备的。如何建立自然人机界面与和谐的人机环境，对于计算机技术与自然语言的处理和专家支持系统都提出了更高的要求。因而建立语言系统，搭建语言系统支撑平台，是完成自然语言处理的关键。目前，在信息技术竞争中，已将自然语言处理与本体论语言系统作为重点。1.自然语言系统：自然语言是指人们日常生活中所使用的语言，如汉语、英语等，它是千百年来在社会生活中自然形成的语言。计算机的程序设计语言如 PASCAL、C 等则是由人工设计而成的语言，故称为形式语言。自然语言处理（natural language processing，简称 NLP）也称为自然语言理解，是语言信息处理的一

3、个重要分支。所谓语言信息处理，在我国就是中文信息处理。它是指用计算机对包括汉语（字）的形、音、义等信息及词、句子。篇章的输入、输出、存储和识别、分析。理解、生成等多方面的加工处理。其中，自然语言处理侧重于研究计算机对于句子、篇章的处理。计算机要理解和处理自然语言，必须像人一样具有词法、句法、语义和语用等 6 个层次的知识。它们是：语音学层次，是关于对声音的识别、理解与合成；形态学层次，涉及对各种词形和词的可识别部分的处理，如前、后缀、复合词等；词汇学层次，其重点是对全词操作和词汇系统的控制；句法层次，它与语言结构单元的鉴别有关，具体而言就是对输入的单词序列进行分析，看它们能否构成合法句子，如果

4、能给出相应的合法句子结构；语义层次，相对自然语言文本意义的识别、理解和表示，它涉及各级语言单位（单词、词组、句子、句群）所包含的意义及其在语言使用过程中所产生的意义；语用学层次，这2是国家科技部科技基础性工作专项资金项目（2001DEA30039）对涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。由于自然语言处理侧重于句子、篇章，因而句法分析、语义分析、语用分析 3 方面便构成了自然语言处理研究内容的基础部分。自然语言处理研究在电子计算机问世之初就开始了，并于 50 年代初开展了机器翻译试验。到了 60 年代乔姆斯基的转换生成语法得到广泛的认可，生成语法的核心是短语结构规则，分析句子

5、结构的过程就是利用规则自顶向下或自底向上的句法树生成过程国外在1963 年就建成了早期的自然语言理解系统，而我国直到 1980 年才建成了两个汉语自然语言理解模型，比国外起步晚了 17 年。八十年代中期，在国际新一代计算机激烈竞争的影响下，自然语言理解的研究在国内得到了更多的重视，自然语言理解和人机接口列入了新一代计算机的研制规划，研究单位增多了，研究队伍也壮大了。中国科学院声学研究所、清华大学等单位成立了自然语言理解处理实验室。由于汉字系统的特殊性，因而对自然语言处理的国内处有着很大的差异。英语有26个字母；中文44908个汉字 (根据中华大字典)。英语起源于5世纪，有一千五百年历史，牛

6、津英语词典，收词四十万多条。汉语六千多年历史，中山大词典，收词六十多万条，比英语多 50%。因此实现自然语言的处理需求支撑条件之一是语言系统建设。2.语言系统：语言系统被认为是知识工程的一种技术。以往构造知识库的技术是局限性的。直到最近，一个新的基本知识模型的技术出现了。例如欧州的 KADS 项目(wielinga， 1983)、美国的项目，日本的项目，都来源于（clancey 1985）最新的知识工程化技巧，来自于任务本体(task ontology )的想法。任务本体(task ontology)是作为使用词汇和概念构造知识工程系统单元的理论。因而语言系统建立被称为本体论。On

7、本体论是一个哲学上的概念，用于描述事物的本质。在近一、二十年来，本体论已被计算机领域所采用，用于知识表达、知识共享及重用。许多学科和研究都在使用“本体”这个术语，但存在不同的定义。在工程研究中，从知识共享的角度来说，Ontology 作为一种概念化的说明，采用框架系统对客观存在的概念和关系的描述。它是通用意义上的“概念定义集” ，是关于“种类”(kind)和“关系”的词汇表。这种词汇表，是在各种事务代理人之间交换意见时所用到的共同语言。Ontology 可应用于许多领域，如电子工程、化学、远程教育、电子商务等。本体论是（Ontology）是一种回答诸如什么是存在“所有存在共同的属性是什么？什

8、么样的属性能解释存在，这些属性如何解释存在这类问题的理论。本体论的三种解释：(1) ontology(本体论)是一个哲学术语，其意思是研究存在的理论。古希腊罗马时代的西方哲学，被称为“本体论”的时代，那时哲学家们最关心的是世界的本源问题，即世3界是由什么组成的？世界的本质是什么？等等这些探究世界根本的问题。从泰勒斯的“万物皆水”到“四元素”说， “原子论” ，再到伯拉图的“绝对理念” ，都对这一问题提出了各自的见解。（2）在人工智能中，本体（ontology）定义为一个概念，方法的显式表示。（3）在知识库学术界，本体被定义为一个建构人造的词汇和概念的系统。当前国内外均利用本体论的方法打造语言

9、系统。与本专业相关的最大的 UMLS 系统就是其一。国内利用本原理建立的语言系统很多，网上可查询的有：2.1 多种语言农业术语汇编:“多种语言农业术语汇编”是粮农组织的多语言叙词表。叙词表就是一个表示特定领域知识的术语及其关系的系统。 “多种语言农业术语汇编”目前含有 16607 个描述符和许多非描述符（同义字）。为实现将分散于世界上诸多不同服务器的信息，提供一个有效的“一次购足”的框架，在粮农组织的网站上，利用本体论方法，组织了多语言叙词表、国际农业和生物科学中心叙词表和农业网络信息中心、美国国家农业图书馆的叙词表的整理结构，已具有英语、法语、西班牙语和葡萄牙语的描述符。形成了语言系统的模

10、型。2.2 知网：是由清华大学于 1988 年前后开发通用语言系统，是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。本系统从词汇、语义类型到语义关联都设计了良好的模式，成为通用语言系统工具。3.一体化医学语言系统：美国国立医学图书馆自 1986 年开始研制统一的医学语言系统（Unified Medical Languaeg System,UMLS），其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式，有用的信息分散在不同的数据库系统中。该系统由超级叙词表、语义网络、信息资源及专用词典组成。其中 2002

11、年超级叙词表囊括了“Medical Subject Headings”（医学主题词表）超级叙词表到 2002 年，第 13 版超级叙词表收录了 776940 个概念共 210万个词。1998 年版的情报源图谱数据库包括了 71 个国家与个体开发的情报源数据库，专家词典 20002 年有十五万条。该系统在计算机辅助文献标引、研制开发相关文献的数据库及具有辅助检索功能的IGM 和 PubMed 信息检索系统方面发挥了巨大作用，提高了计算机自动处理的程度，极大地方便了用户的查询。该研究计划旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读情报资源指南系统，其目的在于提高计算机程序“理

12、解”用户提问中生物医学词汇语义的能力，并利用这种理解帮助用户检索和获取相关的机读情报。UMLS 是计算机化的情报检索语言集成系统，它不仅是语言翻译、自然语言处理及语言规范化的工具，而且是实现跨4数据库检索的词汇转换系统，它可以帮助用户在联接情报源，包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中对其中的电子式生物医学情报作一体化检索。具体地说，是使医疗卫生专业人员和研究工作者能够通过多种交互检索程序，克服由于不同系统语言差异性和不同数据库相关情报的分散性所造成的诸多情报检索问题，帮助用户从电子病案系统、书目数据库、图像数据库、事实数据库、专家系统等各种联机情报源中检索和获取综

13、合性或特定性的情报信息。LS 又称 UMLS 知识源（UMLS knowledge sources），由超级叙词表（Metathesaurus）、语义网络（ Semantic Network）、情报源图谱（Information sources Map ISM）和专家词典（Specialist Lexicon）四个部分组成。这四部分紧密联系、不可分割，构成了一个有机的整体。UMLS 实施的一般策略是逐步接近所要求的最终性能，迅速开发和广泛分发 UMLS 的早期产品，以便在不同的生物医学环境的真实应用与反馈的基础上，不断扩展它的范围和复杂性。国内科技信息界 90 年代后相继进行了分类-主题

14、词一体化词的研制工作，如北京图书馆编制的中图法-汉语主题词对照表、中国医学科学院信息所、图书馆编制的中图法与 MeSH、中医药学主题词对照表等，它们的最大特点是标引数据时，可同时完成文献的主题标引和分类标引，并提高了标引的速度和一致性。我们可以借鉴 UMLS 的成功经验，创建一种具有中国特色的情报检索语言模式，即创建一种以高度专业化、综合化的超级知识库为基础的集各种功能于一体的情报检索语言模式。该超级知识库在对现存各种词表、类表、用户提问、数据库、专家系统以及各种工具书进行分析的基础上产生，能够满足用户三种最基本需求：允许用户在检索提问中使用自然语言；自动联接、转换和查询某一或某些情报资源

15、；支持标引、查寻、检索、浏览、组织信息全过程。这种模式的情报检索语言应独立于系统之外又对各系统具有广泛的适应性。这样在系统外部，用户可以用自己的语言（自然语言），也可用自己熟悉的人工语言（主题语言或分类语言及其他）检索和组织信息，用户并不需要看见和直接使用受控语言。而在系统内部，存在着以超级知识库为基础的、高度专业化的受控语言，对用户自然语言提问的转换由内部受控语言支持。同时系统可随时显示语义网络、词义、词间关系，并自动按相关度组织检索结果。4.展望：从未来信息产业的发展看，计算机自然语言智能关键技术的突破，将实现信息知识的转换，使人类脑力劳动进一步解放。信息时代将从当前的以数据处理为主导的初级阶段过渡到以知识处理为主导的高级阶段，导致高级形式的信息产业自然语言知识处理产业的诞生和发展。中医药学语言系统为这一突破构筑了宏伟的蓝图，在句类分析技术的基础上，发展形成自然语言处理技术，将实现计算机自然语言智能关键技术的突破。5由于语言系统具有广阔的市场前景和强大的发展潜力，得到众多有远见的人士的青睐。目前国内专业领域专家均致力于此项研究，中国中医药研究院、中国医学科学院等计划在未来的三至五年内重点解决此项技术；并开发推出用户乐于接受的语言信息处理软件产品。中国医药事业有望在本世纪的第一个十年内朝着占领未来信息时代高级阶段技术制高点的目标迈出关键、坚实、重要的第一步。

展开阅读全文