小句中枢理论的应用与复句信息工程

上传人:E**** 文档编号:109354361 上传时间:2019-10-26 格式:PDF 页数:10 大小:517.02KB
返回 下载 相关 举报
小句中枢理论的应用与复句信息工程_第1页
第1页 / 共10页
小句中枢理论的应用与复句信息工程_第2页
第2页 / 共10页
小句中枢理论的应用与复句信息工程_第3页
第3页 / 共10页
小句中枢理论的应用与复句信息工程_第4页
第4页 / 共10页
小句中枢理论的应用与复句信息工程_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《小句中枢理论的应用与复句信息工程》由会员分享,可在线阅读,更多相关《小句中枢理论的应用与复句信息工程(10页珍藏版)》请在金锄头文库上搜索。

1、 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. 汉语学报年第期总第期 小句中枢理论的应用与复句信息工程 如匕 又又 云 提要本文主要包括两个部分 。 第一部分为 “ 小句中枢理论的应用 ”, 从词性的标 注 、 短语的识 别和标注 、歧 义的消解 、语法实体复杂 特 征集的描写四个 方面讨论小句中枢理论 在 中文信息 处 理 领域的应用第二部分为 “ 小句 中枢理论与复句信息工程 ”, 涉及复句信息工程的研究内容 、 研究目 标 、 汉语专用语料库 复句语料库的建设等 问题

2、。 关键词小句中枢中文信息处理复句信息工 程 一小句中枢理论的应用 小句中枢理论核心内容是 “ 句管控 ”,“ 句管控 ”思想在解 决中文信息处理面临的一些难题 中可以发挥作用 。 小句中枢理论 的 “ 小三角 ”研究思路实际上 是人们全面认识和描述事物的一 种方法 , 从信息论的角度来说是一种全信息表示法 , 它和当前 自然语言处理倡导的 “ 复杂特征 集 ”描 写在本质上是相通 的 。 在 中文信息处理 中 , 小句中枢理论可应用于以下几个方 面 。 一应用 于词性标注 词性标注是进行句法分析的前提 。 目前 , 汉语词性标注基本达到了能够应用 的水平 , 但准 确率还有待提高 。 未登录

3、词的识辨和歧义切分字段 的处理是 自动分词研究 中遇到的两个 主要 困难 , 识别错误或者切分错误都会导致不正确的标 注 。 词性 标注的另一个困难是兼类词的标 注 , 兼类 词的大量存在 , 增加了分词 系统 中词库的建设难度 。 即使在词库 中确定了形形色色的 兼类词 , 也难以确定兼类词 的具体词性 , 因为兼类 词在此句法环境可能是 甲类 词 , 而在彼句法 环境 中可能是乙类词 。 不过 , 无论什么兼类词进人到具体句子之 中 , 就一定受到句子的约束和 管控 。 正因如此 ,“ 句管控 ”思 想在理论与实践上具有不言而喻的价值 。 请看例子 他把锁上了油漆 。 我们利用自动分词软件

4、进行切分和标注 , 结果如下 他把锁上了油漆 。 邢福义教授近年来主持华 中师范大学重点建设学科项目 “小 句 中枢说在汉语 与临界领域研究 中的应用 与验证 ”, 目 的在于进一 步促进 “ 中国语言文学 ”一级学科 的建设 , 并且带动计算机科学等相关 学科的发 展 , 实 现 文理学科的交叉融合 , “小句 中枢理论的应用与复句信息工程”为其中的分支项 目之一 。 邢先生 让笔者主持复句语料库研制的日常工作 。 复句语 料库的研制 , 使用了中科院计算语 言所张华平 、刘群先生 开发的自动分词 软件 , 使用了人民日报和长江日 报的部分语料 。 建库过程中 , 得到了汪国胜教授 、胡 金

5、柱教授、储泽祥教授和詹卫东先生 的指导, 华中师范大学语言研究所 的博士生肖明 、罗进军 以及计算机科学系的硕士生 罗旋 、 王琳和沈威等付出了大量的辛勤劳动 。 在此一并致谢 年第期 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. 很 明显 , 句 中的名词 “ 锁 ”被错误地标 注为动词 了 。 笔者也从网上使用北京大学计算语 言 学研 究所提供的汉语文本切分与词性标注软件年版本 进行在线测试 , 发现名词 “ 锁 ” 同 样也被错误地标 注为动词 。 “ 锁 ”是一个典

6、型的兼类词 , 什么情况下 用作名词 、什 么情况下用作 动词计算机很难判断 。 如果 引入 “ 句 管控 ” 的思想 , 可以解决 此问题 。 我们 知道 , 在 “ 把 ”字句 中 ,“ 把动词了 , 格式 表示对事物或人物的处置 , 因此 “ 把 ”和 谓语 动词 之 间必须 接一个名词性成分 如名词 、 名动词 、代 词或名词短语 充当受事成分 。 这个格式对 “ 把 ”和谓语 动词之间 的成分有管控作用 , 据此可以判定例句的 “ 锁 ”应标 注为名词 。 这个例子给我们一个启示解 决词性标注 遇到的困难 , 有必 要引人句法规则进行辅助判 断 。 “ 句管控 ”理论为解决这一难题找

7、到 了突破口 。 比如词的 “ 入句显类 ”和“ 人句变类 ”的论述 对汉语词性标注具有重要意义 。 温锁林指出 , 以小句为基点标注汉语词性 , 可以保证词 性标注的一致性和科学性 , 以小句为本位得出的规则具有一致性 , 非常适合计算机识别 。 温先 生采用基于概率和基于规则相结合 的混合方法进行标注试验 , 取得了很好的效果 。 二应用于短语识别和标注 短语 的 自动识别和标 注是汉语句法分析的重要 内容 , 需要解决 的难题主要 是短语边界的 识别 、 短语 结构的判定和短语功能 的判定 。 小句 中枢理论 中 , 许多思想有利于相关 问题 的解 决 。 比如关于 “ 动词核心和名词赋

8、格 ”, 一方面 , 小句 中枢理论的语法系统认定 , 作为谓语 中心 的动词 , 不仅能维 系跟复杂的谓语部分里其他构件 的关 系 , 而且能维 系跟主语 的关 系 , 居于 不 可争辩的组织核心的地位 在以形容词作为谓语 中心的小句里 , 形容词是核心 词定心结构的 小句里 , 名词也可以成为核心词 。 另一方面 , 小句 中枢理论 的语法系统认定 , 名词在小句 中往 往起到关键性 的 “ 赋格 ”作用 , 即所谓 “ 名词赋格 ” 。 这 主要表现为 “ 单名赋格 ”和“ 双名赋格 ” 参 看邢福义 。 “ 单名赋格 ”是指动词前后 某一位置为一个名词所 占据 , 如果名词有 变动 ,

9、 句 法结构便赋予不 同的格局 。 比如 动宾格 式 “ 十 ”, 在不变动基本意义向前移位 时 , 形成 “”结构, 有时可能是主谓格式 , 有 时可能是定心格式 , 有时还 可能是状心格式 。 为人 或动物的某一部分或某一部位时 ,“ 十 ”是 主谓格式 , 为操纵或受操纵的行 为活动 , 如 闭上眼睛 、眼 睛闭上是 书刊名 、 文章篇名或报 刊专栏 名时 ,“ 十 ”常 常为定心格式 , 具有述谓性 , 具有指称性 。 如研究民俗 、 民俗研究 为 “ 出身 ”一 词, 为 “ 资产 阶级 、 行伍 、 名 门 、 官宦人家 ”等名词性 成分时,“”是状 心式 。 这些结论稍加改写就可

10、以转化为短语识别规则 。 小句中枢 的语法 系统重视语法单位外部形式 的细致描写 。 例如 , 对汉语短语从语表上找 形式标志 , 据此将短语分为能愿短语 、介 词 短语 、“ 的 ”字短语 、 方位短语 、趋 向短语 、 比况短语和 数量短语等类 。 识别这些短语有 明显 的前标志 、 后标志或者双标志 。 短语 的形式分类便于 操作 , 计算机容易识别 , 同时形式分类里 面也包含了语义关系 , 在汉语短语 的识别和标注里面 将形式标志和功能标志结合起来是值得去探讨和尝试 的 。 小句 中枢 的语法 系统把复句关系词 的研究放到十分重要的地位上 。 关系词 的主要功能是 将具有逻辑关系的分

11、句联结起来 , 多半比如因为 、 即使 、 而且不会充 当短语的内部成分 。 这 一特点在短语 的识别中起重要 的作用 , 计算机扫描句子时可以把关 系词作为句 内短语 的分界 点 。 关 系词不等同于词 , 目前 的词性标注软件没有识别关系词的能力 , 这种情形对汉语的句 法分析是极为不利 的 。 在句法分析中 , 关系词绝对不可忽视 。 请看 如果说有危机存在 的话 , 那只能说旧的已经失去生命力 , 而新的突破即将来临 。 汉语学报 1994-2010 China Academic Journal Electronic Publishing House. All rights reser

12、ved. 这个句子经过切分后 , 标注结果 如下 如果说有危机存在的话 , 刀卜只能 说 旧 的 已经 失 去生命 力 , 而 新的突破即将来 临 。 这种标注没有考虑到 “ 如果说 ”在句 中的整体功能 , 而是把它肢解了再标注 。 这不 利于计 算机进行句法分析 。 上例中第一分句包 含三个动词 , 分别是 “ 说 ”“ 有 ”和“ 存在 ”, 多个动词的存 在加大了分析 中心动词 的难度 , 也加大了短语边界识别的难度 , 因为计算机无法知道这三个动 词在句中的地位孰轻孰重 。 如果计算机知道 “ 如果说 ”在这里充 当句 中的关系词 , 那么在分析 主要动词 时就降低了难度 , 在短语

13、识别过程 中就更容易找到初始边界 。 同样道理 , 第二分句的 “ 那只能说 ”也应该看作是一个关 系词 , 至少应该看作临时关系词 , 它是 “ 如果说 ”的后搭 配关系 词 , 在句中只具备联结功能 。 这个关系词是一个超词形式 , 内部结构里面包含了指示代词 “ 那 ” 和行为动词 “ 说 ”, 但是指示代词和行为动词 的功 能已经弱 化了 。 将关 系词当作一个语法单位 来处理会 大大降低计算机理解语 言的困难 。 当然 , 不能识别关系词不是分词软件 的责任 , 因为 关 系词不等同于词 , 关 系词 的涵盖范 围广 , 也没有 固定 的词类 。 自动分词 系统要考虑词库中词 类体系

14、的严密性 , 未能把关系词 当作词进行切分和标注是无可厚非 的 。 但是 由于关 系词在句 中的重要作用 , 进行句法分析时不可避免地要考虑到关系词的切分和标注 。 能 否在不更改词 类体 系的情况下作灵活的处理 , 比如把某词关联小句的功能用二级符号标注 , 是值得深人研究 的 。 三 应用 于歧义 的消解 自然语 言 中存在大量有歧义 的句子 , 怎样消解歧义是一个重要 的研究课题 。 歧义 的消解 涉及到多方面的因素 , 如篇章因素 、 语 境因素 、 句法因素等 。 小句 中枢语法 系统赋 予小句 的 中枢地位符合汉语 的实际情况 , 小句上联复句 、 句群 , 和语篇 、 语境密不可

15、分 , 下联词 、 短语 , 对 词和短语 的使用具有控制力 。 以小句 为观测点可以解决部分歧义问题 。 看两个例子 。 例一 “ 研究报告 ”既可 以理解 为动宾结构也可以理解为偏正结构 , 前者是动词性的 , 后者是名词 性的 。 若从静态 的角度考虑 , 这个短语有两种不 同理解 , 作动词短语时 , 表达 了一种动作行 为 , 作名词短语 时 , 指称了一种事物 。 但 “ 研究报告 ”入句之后, 则只有一种含义 。 请看 小王正研究报告呢 。 小王看到了研究报告 。 例 “ 研究报告 ”受到“”格式 的管控, 只能充 当句中的谓语 , 是动词性的成 分 。 例 “ 研 究报告 ”受

16、 到“ 十 ”格式 的管控 , 只能充当谓语动词 “ 看 到 ” 的宾语 , 是 名词性 成分 。 例二 短语 “”有 主谓式 和状心式两种句法语义格局 。 因此 “,”是歧 义格式 , 比如 “ 肩 膀宽 ”格式里 的 “ 肩膀宽 ”既可 以理解 为 “ 的肩膀宽 ” 如 “ 大伯肩膀宽, , 也可以理解 为 “ 有 肩膀那么宽 ” 如 “ 洞口肩膀宽 ” 。 要排除这类格式的歧义必须弄 清楚作主谓式和状心式 的不 同句法管控 。 邢福义指出管控主谓 式 的句法语义格局 主要 有 两个 “ 不 ” 。 中的可以否定 。 “ 的真 ”之类 。 为所领属 , 是本身 的状 态 , 的前头可以出现 “ 真 、好 ”之类 的副词状语 。 管控状心式 的句法语 义格局 , 主要可以 概括 为 “ 有这么 ”。 表示用估摸的状态 ,“ 有 ”可 换成 “ 像 ”,“ 这么 ”可 换成 “ 那么 ” 。 为什么同样的一个短语在不 同的句子里有不同的分析呢因为短语是静态 的 , 句子是动 年第期 1994-2010 China Acad

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号