关于语义距离及其运算

上传人:飞*** 文档编号:37992364 上传时间:2018-04-25 格式:PDF 页数:6 大小:34.66KB
返回 下载 相关 举报
关于语义距离及其运算_第1页
第1页 / 共6页
关于语义距离及其运算_第2页
第2页 / 共6页
关于语义距离及其运算_第3页
第3页 / 共6页
关于语义距离及其运算_第4页
第4页 / 共6页
关于语义距离及其运算_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《关于语义距离及其运算》由会员分享,可在线阅读,更多相关《关于语义距离及其运算(6页珍藏版)》请在金锄头文库上搜索。

1、论文 3.2 关于语义距离及其计算“语义距离 ”这个概念试图对 概念之间关联性 的强弱给以定量表述。 关联性 的定 量表述有“ 相关函数 ”或“ 相关系数 ”这样现成的术语。 所以直接采用“概念 相 关函数 ”或“语义 相关系数 ”之类的术语比较自然, “语义距离 ”这个术语的引 入在理论上并无必要, 不过是取其表述简明而已, 实际上 语义距离的计算 就是计 算概念之间的 相关系数 。不同概念之间的关联性 有明显的强弱之分, 这是毫无疑义的。 但是如何量化和如 何计算,则需要新的思路, 不可能照搬信号处理中求 相关函数 的统计方法。 统计 方法的出发点是将待考察的系统视为“黑箱”,但语句不是“

2、黑箱”, 即使是语 音识别系统的输出语音阵列,也只能说是一个“明暗相间、明为主导”的箱子, 弃“明”而不用,显然是不明智的。概念之间的关联性 需要通过多重层面予以表达, 有概念层面的 关联性 ,有词汇层 面的关联性 ,有语法层面的 关联性 ,有语义块内部的 关联性 ,有语义块之间的 关 联性。不同层面 相关系数 的量化和计算方法都应该有所不同。对这些不同侧面的 辩识是进行 语义距离计算 的先决条件,以 语句物理表示式 为立足点的 句类分析 , 是判断这些先决条件的强有力武器,在上一节 针对十个例句作了示范性说明。 这 是语义距离计算 的基本特点。相关函数 是一个条件概率, 语义距离 的条件性更

3、为突出, 在某种意义上, 条件的 把握是 计算语义距离 的关键。下面将对条件进行具体的说明, 上一节 对十个例句 的分析都是侧重对条件的阐述,从中可以看到,句类知识 是最基本的条件。当然,在某种情况下,对条件可以弱化。语法学所概括的词性约束规则 :即形容 词与名词、 副词与动词和形容词、 数词与量词的搭配规则就是明显的例子。这些 搭配实际上是有条件的,但作为语法规则来陈述,可以不管条件。概念关联性 或语义距离 的概念,在某种意义上是对上述 词性约束规则 的扩展和深 化。扩展表现在它力图表述 语义块 之间或 语句要素 之间的 约束,深化表现在它力 图尽可能给出条件。语句要素 之间的 约束就是1

4、中所阐述的 链式关联 ,这一知识分别从概念层面和 词汇层面进行表达。前者的表述是概念关联性知识库 的内容6,后者的表述是 词语知识库 的内容7。条件则通过 句类知识 、交式关联 和“同行优先 ”三条途径来表述, 后两条实际上 就是词性匹配的具体条件,第一条是运用链式关联 知识的条件。从上面的说明可知, 语义距离的计算 首先要区分 语义块 之间两种情况。语义块 内部语义距离的计算 主要是运用: “同行优先”准则 ;概念关联性知识库 中“交式关联 ”知识6;语义结构方程 所给出的 语义块构成 知识7。p69语义块 之间语义距离的计算 主要是运用:概念关联性知识库 中的基本句类 知识和 概念节点的

5、链式关联 知识; 语义结构方程 所给出的搭配知识。所谓“同行优先”准则 ,是对层次网络符号 天然属性的一种简明陈述, 正式的陈 述是: 同行的五元组概念及 挂靠的(w,p)类概念优先相互搭配,在1 中曾对 此详加阐述。 从应用的角度来看, 这不过是用数字符号表达概念关联性 的一个简 单技巧。在具体应用这一准则于语义距离计算 时,要区分四种不同的搭配方式, 因为每种搭配方式各有自己的约束准则 。四种搭配方式是: 修饰型搭配 ;补充型 搭配;并合型搭配 ;对象内容型搭配 。前三种是 语义块 内部的搭配,第四种则表 现为语义块 之间的搭配。下面就来对这四种搭配作较详细的说明。关于修饰型搭配修饰型搭配

6、 大体上相应于语法学的上述词性约束规则 , “同行优先”准则 不过是 对此规则的运用条件给以表述。“衷心的祝福”、 “衷心的石头”、 “衷心的消 息”都是形容词与名词搭配,但后者不合理。“衷心地希望, ”“衷心的诅 咒, ”都是副词与动词的搭配,但后者不合理。 把这些词汇映射成 层次网络符 号,通过语义距离计算 ,计算机不难得到“衷心的祝福”“衷心地希望”语义距 离最小的结论, 不难作出“衷心的诅咒”绝对不合理的结论。同时,也不难得到 “衷心的石头”“衷心的消息”不合理的结论。对修饰型搭配 的语义距离计算 ,就是将两概念的层次符号从高往低逐层匹配, “相同得分, 相异不计”,它类似于在 极性重

7、合相关处理 时期对相关系数 的简化 计算。但计算前必须进行 约束性检验 ,对修饰型搭配 来说,需要作两项检验:一 是词性及其顺序的检验,二是对偶性 检验。两概念组合的合理性或合法性, 可从关联性 和排斥性 两个角度进行考察。 排斥性 可视为 反关联 ,相应于相关函数 的负值。但在 语义距离计算 时,仅取正值,负值 一律视为相斥。 从这个意义上说, 约束性检验 就是互斥或正负检验。 不满足约束 条件,就意味着互斥, 表示两概念不能组合, 这一结果对于 解模糊 或纠错处理最 为实用。词性约束 是常规的语法知识,无庸赘述。需要说明的只是它的两条 顺序约束 : 一, gu 类概念作为形容词使用时,在顺

8、序上可前可后,但ug 类概念 优先于 前;二, u 及 vu 类概念作为副词使用时,在顺序上可前可后,但uv 及 uu类概念 优先于 前。参见 存疑录上面例句 10 中的“日益恶化”就是一个典型的同行修饰搭配 , “日 益”就个 uv 类概念和“恶化”这个vg 类概念满足 词性约束 条件,其相关系数 等 于 1。对偶性约束 指对偶性概念的正负双方不能互相修饰,此理不言自明。 “衷心”与 “诅咒”虽然高层层次符号同行,但前者不能修饰后者, 因为它们违背了 对偶性 约束。“同行优先”准则 有狭义与广义之分,即本行与交式关联 行之分1。在本行里 又有 0 分行和非 0 分行之分,这就不来细说。广义“

9、同行优先” 准则的应用,目前就是将 交式关联 的级别指数6转换成 相关 系数,这时不是匹配层次符号, 而是依据层次符号查询 概念关联性知识库 。这里 的数值转换,类似于 层 p70 选处理时从音节感知库 的独立性指数 换算单音词的位 置置信度9。量词与表述对象的搭配也属于修饰型搭配 , 对这一搭配的 语义距离计算 可不作任 何约束检验 ,而计算结果本身就是一种检验,因为两者必须 狭义“同行” ,相关 系数应等于 1。汉语量词之烦琐令人生畏,但由于现在赋予了“同行”特性,就 理解处理来说,反而成了一笔意外的“财富”,可作为解模糊 的一项手段参照 语言漫议。关于补充型搭配补充型搭配 有两种类型,一

10、是高层概念与低层概念的搭配,二是泛指概念与特指 概念的搭配。第一类搭配又分两种情况, 一是动词的高低搭配 ,二是名词的高低搭配。 第一种 情况仅出现在 E 语义块内部,是造成 E语义块分离 的原因之一2。这种高低搭 配和分离现象不是概念表达的内在需要,而是语言表达的多样性和艺术性的需要。 在一般情况, 语言的这一特性只会带来理解处理的困难,但高低层概念的搭配则 相反,它带来的是机遇。 原因在于相互匹配的高低层概念必须满足“同行”的条 件参照 语言漫议。 前节例句五 中的“提出 *抗议”就是高低层概念的“同行”搭配。 如前文所述,对双音词“提出 *”的 解模糊处理 就利用这了这一信息。名词的高低

11、搭配是包含性概念的特性,这种搭配也满足狭义“同行”条件。对高低搭配也需要进行 顺序约束 检验,顺序准则是:高层在前,低层在后。这一 准则对动词似乎普遍适用,名词则不然,与语种有关,汉语遵循这一准则,而英 语则相反。参照 语言比较泛指与特指的在许多情况也属于“同行”, 这是由于对泛指和特指的人或物均采 用挂靠表示方式,两者的层次符号一样,从而也能对两者进行语义距离的计算 。 由于这个计算非常简单, 并不是一项负担, 而应视为灵敏性反应的一种手段。这 里不妨用一个例子来说明这一点。假定输入语音流中出现了yue fei ,则从词库 中将找出“岳飞”这个词, 如果该文本实际指的是原苏联物理学家“约飞”

12、,计 算机能觉察“岳飞”是一个伪词么?回答是肯定的。“岳飞”的层次符号是pa4, 而该文表述的内容应主要涉及a6。线索就在这里, 语义距离的计算 本身非常简 单,但 关键在于要运用专业活动的句类知识 :专业活动 aj 的 A要素优先于 从事该项专业的人 paj注:pa4 为从事军事活动的人;a6 为科技活动; aj 和 paj 中的 j 改为 t 为宜,t 约定为底层层次符号的变量表示,而j 为基本概念类别标记。在一般情况这类判断需 要很多的常识性知识, 但这里是不是“岳飞”的判断,似乎可以绕过常识, 仅从 层次符号就能得到。 当然,这样“绕过”的适用范围也许非常有限,但终究是有 胜于无吧。对

13、泛指与特指的 语义距离计算 ,可暂不作 顺序约束 检验。汉语里数词与量词的搭配属于广义“同行”补充型搭配 。顺序约束 条件是:数词 在前,量词在后。但汉语的数词并非一定要与量词搭配,成语里的“五湖四 海”“三令五申”“百孔千疮”“百炼成钢”都省略了量词,其中的数词都是虚 用,表示“多”或“全”的意思。 现代汉语的“五讲四美”“十大新闻”“三好 学生”也省略了量词。 关于数词的运用, 需要建立一个专用的小知识库,特别是 “一”字的语义语用知识。参见 技术实现提示关于并合型搭配并合型搭配 之间通常加逻辑指示符, 这样的指示符有四类, 现将它们和相应的汉 语和英 p71 语符号列表如下 (表中顺便给

14、出了“的”的另一义项):参见 HNC符号实例集 22符号汉字英语意义l41 的 de 偏正l41461 的 de s偏正h $ ug 的 de 词性转换l42 得 de of 反偏正l43 和同与及并跟and 逻辑并l44 或 huo or 逻辑选前两种并合称为 “修饰”并合 ,后三种并合称为 “逻辑”并合 。修饰并合 与前述的 修饰搭配 不同,两者的差异在于“ 同行”性的有无,修饰搭配 具有“ 同行”性,修饰并合 不具有。参照 概念比较集粹英语不仅对这两种组合方式 在表达形式上给予了明确区分, 对修饰并合 的三种类型也加以区分, 汉语则一律 不加区分。 仅用符号“的”表示它们的共性,而模糊它

15、们的个性。 对前两种 修饰 并合,曾有过用“的”和“底”加以区分的建议,但未得到广泛响应, 说明这一 模糊并不影响人的理解。参照 语言比较从理解处理来看, 对修饰并合 和修饰搭配 的语义距离计算 ,都需要进行 对偶性检 验和词性检验, 虽然词性检验的内容略有不同,但并不影响 语义距离的计算 。因 此,汉语在这里的模糊表示似乎无损于理解处理,其实不然。 问题在于两种情况 的合理性 阈值差异甚大, 修饰搭配 的阈值很高,而修饰并合 的阈值很低,人在理 解过程中能自动调节这一阈值,计算机很难做到这一点, 因为这不仅涉及概念和 词汇层面的知识, 还涉及 常识性知识 。但是,理解处理的途径是阳关道与独木

16、桥并存,解模糊处理 更是如此,此路不通,可置之不理而另觅它径。在前一节 的十 个例句中,有五处以de 标志的修饰组合,而且都是修饰并合 ,但需要利用并合 前后概念关联性 知识的只有第七句, 这一句又恰好具有足够的 关联性 。当然,十 个例句不能代替统计, 汉语的这一模糊对理解处理造成的不利影响需要利用语料 库作深入的研究。参照 待求证问题提示对于逻辑并合 ,需要进行类别符号的 对仗性检验 ,即检验并合前后两概念的类别 符号是否相同或相当。 “相当”是模糊的说法, 有待给出具体的规则, 这是不难 做到的。这一规则的制定也有赖于语料库的建设。汉语常省略 逻辑并合 标志,这 一省略与 修饰搭配 符号的省略将模糊两类组合, 由于这两类组合的 约束准则 不同, 将影响到 语义距离的计算 ,因此,必须先消除组合模糊, 这确实是汉语理解处理 的一项额外负担。参照 语言漫议但是,像上述两类修饰模糊一样, 对这一负担应采取灵活反应策略,因为许多情 况可以置之不理。 而在无此模糊时, 从对仗性检验 及语义距离计算 结果常能取得 消除模糊 的关键性

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号