网络文本中的词汇自动识别

资源描述

《网络文本中的词汇自动识别》由会员分享，可在线阅读，更多相关《网络文本中的词汇自动识别（4页珍藏版）》请在金锄头文库上搜索。

1、网络文本中的词汇自动识别北京大学中文系教授、博士陈保亚等随着互联网时代的到来，人类进入了信息爆炸的时代，各种新事物、新现象层出不穷，反映到语言中就是词汇爆炸，新的词汇大量产生，令人目不暇给。词汇爆炸对人的学习能力和记忆能力都是一个挑战，让人常常产生为潮流所抛弃的感觉，“不是我不明白，是这世界变化太快”。新词汇的大量产生也给正处于蓬勃发展之中的中文信息处理工作带来了难题。改革开放以来，中文信息处理技术突飞猛进，在理论和应用方面均取得了极大的成就。但就当前而言，中文信息处理的主流技术仍然是基于词汇的，有的甚至以词汇为本位，将文本流切分成一个个离散的词语就成为第一道难关。在这一背景下，

2、新词汇的大量产生使得难关更难，险关更险，也为我们语言学工作者带来了一项严竣而有价值的课题。中文信息处理属于自然语言理解，其理想目标是让机器理解自然语言，从而可以实现人工合成语言、人机对话、自动机器翻译等等。但是几十年代的中文信息处理的实践表明，以词语切分和标注为起点的信息处理技术面临的一个主要难题就是未登陆词的处理问题，其中最具有挑战性的也就是新生词语的识别与处理问题。我们应该而且能够较好的处理这一问题。新词语的产生仍然遵循着原有的构词方式，只是由于受语言内部和外部因素的影响，一些不活跃的或者新产生的语素在短时间内迅速活跃起来，进入到构词过程之中，一些规则短语以各种方式词汇化，因而

3、才大量产生新词语。经过对大量词语的对比考察，我们发现词语之间在构成方式上存在着规则与不规则的对立，这一对立可以成为我们解决新词语问题的突破口。我们在考察新词语的时候发现，有些词语的构成是有规则的，而有些词语的构成生是没有规则的。比如下面两行字组：老张、老李、老王、老陈、老刘老虎、老鼠、老鹰、老手、老师从构词方式上看都是前附加构词，从语法意义上看第 1 组的“老”含有亲切的意思，第 2 组的“老”意义几乎完全虚化，因此可以对这两行字组的方式和语法意义做出描写：第1 组：“老”放在单音节姓氏前，语气比较亲切。第2 组：“老”放在指人或动物的名词前，构成名称名词，“老”不表示年岁大。这种描写

4、能够通过字组的内部构造帮助语言学习者和计算机判定字组的语法意义，但这对自然语言理解来说是远远不够的，更重要的是区分规则和不规则的现象，并分别作出处理。在上面两行字组中，尽管都可以给出构造方式和语法意义的描写，但性质并不一样。第 1 组的描写可以作为严格的规则来类推，每一个单音节姓氏都可以形成“老X”的格式，无一例外。第 2 组描写却没有这种严格性，不是所有指人或动物的字前面都可以加“老”。我们把第1组字组称为规则字组。第 2组字组称为准规则的字组。很显然，如果能找到这样的规则，对于新词汇的学习无疑可以起到事半功倍的效果。从信息处理的角度看，如果我们把“老 X”放在单位库（词汇库）中，

5、会大量增加单位库中的记录。类似的情况越多，计算机运行的负担越重。如果我们不把这样一些有规则的字组放在单位库中，而只是在规则库中加一条规则，这样的处理就要经济得多。随着网络的出现，新的字组用法迅速增加，哪些字组需要存放在单位库中，哪些只需要用规则解释，是提高计算机运行效率的迫切问题。从词典的编纂角度看，如果我们把第1组中“老X”这样的规则字组放到词典中，词典会很厚，而且缺乏条理性、简单性；而如果我们只是提取“老单音节姓氏”这样一条规则，词典的负担就会减轻许多，而且可收以简驭繁的效果，便于记忆和学习，这样的词典含金量也更高。基于上述认识，我们设计了一个计算机软件，重点描写新词语产生的规

6、律，并在此基础上通过一定的算法实现新词语的自动识别和归类定性工作，力图从理论和应用两个角度较好地解决新词语问题。这个平台包括四个互动模块：（1）单位库；（2）规则库；（3）自动提取程序；（4）数据库管理程序。它们各自的功能如何下所述：（1）单位库。相当于词汇库，用于存储单字和不能用规则控制的字组（如“人、李、老虎、老鼠、铁路、白菜、学习、德国”），并标注这些单位的语义信息，比如“李”后面会标注“姓氏”、“德国”后会标注“国家名”等等。这类信息的标注是为了满足规则提取的需要。（2）规则库。存储字组的组合规则。如“老单音节姓氏”、“国家名化”。（3）自动提取程序。这一模块以单位库和规则

7、库为数据输入进行工作，工作后所产生的结果又成为单位库和规则库的输入数据。它主要包含两个功能：第一个功能是新词识别，它就像个网路猎手，用单位库中的单位匹配网络文本，一旦有匹配不上的字组，就捉拿回来，如果规则库中的规则不能控制这个字组，即初步判定为新词，收入单位库；第二个功能是自动提取句法规则。在发现一定规模的新词后，应用一定的算法从新词中提取可能的规则，通过人工鉴别后即可存入规则库。此时仍不能为规则控制的新词即可存入单位库。（4）数据库管理程序。此模块为辅助性模块，它的主要功能包括：A、向单位库输入数据。输入的数据主要是基本句法单位及其标注信息，包括增加新的属性字段。输入方式可以是自

8、动成批输入，也可以是手工输入。B、向规则库输入规则。规则可以是人工发现的，通过句法规则翻译器进入规则库；也可以是程序自动发现后通过人工鉴别后进入规则库.C、对单位库进行优化。在发现新规则后对单位库中的数据进行优化，删除可以被规则控制的新词，同时向规则库输入新规则。D、对规则库进行优化。根据一定的原则合并或者拆分库中的规则，实现规则的数量与效率的平衡。例如，要是将来双音节乃至多音节的姓氏前面都可以加“老”的话，“老单音节姓氏”的规则就会上升为“老姓氏”这样更高一层的规则。这个平台运转的初始状态是，我们已经有了含有一定数量单位的单位库、含有一定数量的规则的规则库和所需要的自动处理程序和

9、数据库管理程序。初始的单位库所收单位应尽量齐全，主要有两个来源，一是合并现有的语料库，目前有关汉语的语言知识数据库数量已颇为可观，大陆有代表性的即有“现代汉语语义词典”、“现代汉语语法信息词典”,“现代汉语语素库”、“现代汉语字词语法知识库”等，此外，香港、新加坡也有一些很好的产品，我们可以充分借鉴和利用这些成果，使之为我所用，同时再根据自己的需要加以选择和改造。二是人工输入现有词典所收的词。初始规则库里的规则都是人工发现，主要是利用语言学家现有的研究成果，加以形式化。字组提取程序拿现有单位库中的单位去匹配网络文本中的语料，匹配不成功的字组就会被捉拿归案，收入单位库中。此时，单位

10、库提供单位属性，规则库提供规则，以此来判断被捉拿到的字组是否是能被现有的规则解释。如果可以解释，就不收入到单位库中；如果不能解释，就作为一个新单位收入到单位库中，新词汇的自动识别成功。举个例子来说，比如下面两组字组所辖实例都很多：A. 花儿、把儿、心儿B. 美国化、德国化、韩国化通常把“儿”和“化”都看成是后缀，但A组和B组的性质从规则角度看有很大的区别。 A组是准规则的，因为我们现在还不能解释哪些字或字组可以出现在“儿”的位置，而B 组在“国家、地区”的语义条件下，都是严格有规则的，只要是表“国家、地区”的字(或字组)都可以出现在“化”这个位置上，表示转变成某种性质或状态；除此之外的字

11、(或字组)能否出现在“化”的位置就不一定了。所以我们可以提取“国家名、地区名化” 这样一条规则放在规则库里。如果自动提取程序这个网络猎手从网络文本中捉拿到“韩国化” 这个字组，单位库中提供了“韩国”的标注信息“国家名”，而规则库中又提供“国家名化”这一规则，那么程序就判定“韩国化”是可控制的规则字组，不收入单位库。如果自动提取程序从网络文本中捉拿到“集团化”这个字组，规则库中并没有提供相应的规则，那么“集团化”就会被作为一个新词存储到单位库中。在整个处理流程中最关键的步骤是判断言语片断可否被句法规则解释，以及如何从积累的尚未找到规则的言语片断中提取规则。至于另外一些技术，例如分词、短

12、语标注等可以利用现有的较成熟的算法。这个平台不断运转的结果是产生两个不断扩大、优化的库。在文本方面，可以编纂一本包括单位和规则的手册。这个平台的特色和创新之处何在呢？我们认为，本项研究最主要的特色在于既系统地充分地利用语言学研究成果，又立足于电子计算机强大的自动化处理能力，实现词库和规则库的互动。具体而言表现在以下几个方面：(1) 我们入手的策略是重点考虑规则和不规则现象的区别，不纠缠于术语和体系的差别。以词和词组的区分为例，由于研究者的体系和标准不同，有不同的结果，比如“美国化”，有人看成是词，也有人看成是词组。关于构词的性质，由于对“化”虚化程度的理解不同，也有分歧，比如“美国

13、化”是附加构词还是复合构词，处理不一样。但从规则和不规则的角度看，在国家、地名后面加“化”是规则行为，认识到这一点对语言习得和自然语言理解与生成是关键。(2) 系统充分地利用语言学研究成果。我们的研究团队中有一批具备相当中文信息处理知识的语言学工作者，因此，我们可以有系统有目的地考察现有的语言学研究成果，并利用计算机辅助的方法去验证现有的成果，最终将可用的成果形式化，并增添到统一的规则库中。当然语言学数十年传统，积淀深厚，我们只能是在力所能及的范围能进行这一工作。(3) 语法规则的自动提取和新词的自动识别。充分利用计算机强大的自动处理能力，实现语法规则的自动提取和新词的自动识别。由

14、于搜集信息的过程是全自动的，在足够的硬件条件下可以由计算机快速、自动、准确的完成信息的收集和初加工的任务，甚至还可以进行信息的深加工。而过去这一部分工作主要依靠人工手动处理，比如要在网络上找某个词的使用情况，目前普遍的做法是：打开浏览器，登陆到某一个搜索引擎，然后敲入关键词，等待结果，搜索者人工的去看结果，找到有用的资料，保存以备以后使用。在这个过程中，计算机只是一个信息的录入，保存和简单计算工具。而我们的软件是全自动的，只要输入一个关键词(当然还可以给出更细致的高级选项)，它就会到网络上去找所需要的资料，按照平台规定的标准分门别类的存储，并且给出详细的报告。更重要的是电脑可以连

15、续运转，这样就可以经年累月地进行资料的搜索，既节省了人工，也保证了质量。(4)句法规则翻译器。数据库管理程序中包括 “句法规则翻译器”的功能。语言学家的研究成果通常能够为机器的自动学习增加更高级的指导，所以这个数据平台打算预留一个 “句法规则翻译器”，为语言学家提供便利。通常人们记录他们研究成果的方式是用自然语言，这种表达方式很容易被人们所理解，但却很难被机器所理解，机器能够理解的只是标准化的代码系统。因此我们需要自己设计一套能够让机器理解的标准化指令系统来记录人工获得的语言学知识，而这个“语言学知识翻译器”正是用来把语言学知识翻译成用统一的元语言表示的规则。(5)单位库和规则库的

16、互动。鉴于在单位库和规则库互相独立的情况下，单位库的标注信息要形成规则尚有一定难度，难以得到充分利用，我们在建库过程中保持两库的互动关系，使两者密切配合，以实现资源的有效配置和合理利用。(6)密切注意语言发展的新趋势和新现象。这个平台的不断运转就是对词汇发展动态的跟踪报道，通过大量发现新词并总结新词的产生规律，可以密切关注语言发展的动态，从而使单位库能够适应时代的需要。同时，通过对语法规则的系统化形式化的整理和优化，也可从系统的高度发现语言在语法方面的重要特征和某些新的发展动向。目前，这个平台正在建设之中，我们已经积累了相当规模的单位库，输入了一定数量的规则。寻找规则，实现形式化，这是语言学和信息处理最好的结合口，我们设计的这个平台是一个尝试，这一目标的实现无论是对对外汉语教学、英汉翻译以及软件的汉化问题都会有很大的帮助。这个平台也是一个窗口，

展开阅读全文