《自然语言理解》PPT课件.ppt

上传人:壹****1 文档编号:571028594 上传时间:2024-08-08 格式:PPT 页数:109 大小:2.21MB
返回 下载 相关 举报
《自然语言理解》PPT课件.ppt_第1页
第1页 / 共109页
《自然语言理解》PPT课件.ppt_第2页
第2页 / 共109页
《自然语言理解》PPT课件.ppt_第3页
第3页 / 共109页
《自然语言理解》PPT课件.ppt_第4页
第4页 / 共109页
《自然语言理解》PPT课件.ppt_第5页
第5页 / 共109页
点击查看更多>>
资源描述

《《自然语言理解》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《自然语言理解》PPT课件.ppt(109页珍藏版)》请在金锄头文库上搜索。

1、第十章第十章 自然语言理解自然语言理解(Natural Language Understanding)10.1 语言及其理解的一般问题(General Issues of Language and Its Understanding)10.1.1 语言与语言理解语言与语言理解 l语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。l要研究自然语言理解,必须对自然语言的构成有个基本认识。l语言的构成框图如图10.1所示 语言语言 词汇词汇语法语法 词词熟语熟语词法词法句法句法词素词素构词法构词法 词组构词组构 造法造法

2、造句法造句法构形法构形法图10.1 语言的构成图l 从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。l从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: 回答有关提问; 提取材料摘要;不同词语叙述;不同语言翻译。 怎样才算理解了语言呢? 归纳起来主要有以下几个方面:能够理解句子的正确词序规则和概念,又能理解不含规则的句子知道词的确切含义、形式、词类及构词法了解词的语义分类以及词的多义性和歧义性指定和不定特性及所有(隶属)特性问题领域的结构知识和时间概念语言的语气信息和韵律表现有关语言表达形式的文学知识论域的背景知识Google transla

3、te l你得藏在一个你看得见他,可是他看不见你的地方lYou have hidden in the one you see him, but he could not see where you arel车臣武装分子和世界其他地区的武装分子是一丘之貉,应予以合力打击lChechen fighters and militants elsewhere in the world are birds of a feather, should be to combatl胡六点横看成岭侧成峰,见仁见智lHu Wang as six different angles, a matter of opinion

4、l 规则翻译是傻子 统计翻译是疯子10.1.10.1.2 2 自然语言理解的一般问题自然语言理解的一般问题(1)(1)l自然语言:是指人类种族集团的本族语言,是我们日常使用的语言八大语系l汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。5600多种不同的语言和方言使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。自然语言是相对于人工语言(程序设计语言)而言的。语言是思维的载体,是人际交流的重要工具。我国八大方言我国八大方言1.北方方言2.吴方言3.湘方言4.赣方言5.客家方言6.闽北方言7.闽南方言8.粤方言 l海南方言自然语言

5、理解的一般问题自然语言理解的一般问题( (2)2)l自然语言自然语言自自然然语语言言:人人类类交交流流的的语语言言, ,口口语语、书书面面语语、手手语语、旗旗语语等等人造语言:机器语言,包括人造语言:机器语言,包括C+, BASIC,C+, BASIC,世界语等世界语等到目前为止的人类知识有到目前为止的人类知识有80%80%以上使用自然语言文字记载以上使用自然语言文字记载下来的。但将来,可能用计算机语言形式记载的知识将下来的。但将来,可能用计算机语言形式记载的知识将会越来越多。因此说,语言信息处理技术和每年所处理会越来越多。因此说,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化

6、水平的重要标志的信息总量已成为衡量一个国家现代化水平的重要标志之一。之一。相比较人工智能其它领域,自然语言理解是难度大,进相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。展小的。至今为止未能达到很高的水平。 自然语言理解的一般问题自然语言理解的一般问题( (3)3)l自然语言理解自然语言理解520.2020(计算语言学计算语言学740.3550)是人工智能领域的重要分支,也是一个极其活跃是人工智能领域的重要分支,也是一个极其活跃的研究领域的研究领域什么是什么是“理解理解”?l从微观上来说,理解是指从自然语言到机器内部表从微观上来说,理解是指从自然语言到机器内

7、部表示之间的一种映射示之间的一种映射l从宏观上讲,理解是指能够完成我们所希望的一些从宏观上讲,理解是指能够完成我们所希望的一些功能功能l与与“智能智能”一样,存在各种各样的理解和解释。一样,存在各种各样的理解和解释。 利用计算机对自然语言进行理解利用计算机对自然语言进行理解l自然语言理解分为两个方面:自然语言理解分为两个方面:书面语理解书面语理解和和口语口语理解理解书面语理解书面语理解l将文字输入计算机将文字输入计算机l计算机识别和理解文字、词、短语、句子、段落和计算机识别和理解文字、词、短语、句子、段落和篇章篇章l按指定的目标作出相应的回答或反映按指定的目标作出相应的回答或反映口语理解口语理

8、解l用口语对计算机讲话用口语对计算机讲话l计算机识别和理解语音输入,把语音流变换为文字计算机识别和理解语音输入,把语音流变换为文字流流l然后按书面语理解然后按书面语理解l最后利用语音合成将回答转换成声音输出最后利用语音合成将回答转换成声音输出自然语言理解的一般问题自然语言理解的一般问题( (4)4)l自然语言自然语言“理解理解”的准则:的准则:美国认知心理学家美国认知心理学家 G.M.UlsonG.M.Ulson 提出判别计算机是否理解自然语言的四条标准提出判别计算机是否理解自然语言的四条标准 给计算机输入一段自然语言文本,如果计算机能给计算机输入一段自然语言文本,如果计算机能问答问答( (q

9、uestion-answering)question-answering)机器能正确地回答输入文机器能正确地回答输入文本中的有关问题;本中的有关问题;文摘生成文摘生成( (summarizing)summarizing)机器有能力产生输入文本的摘机器有能力产生输入文本的摘要;要;释义释义( (paraphrase)paraphrase)机器用不同的词语和语句复述输入机器用不同的词语和语句复述输入文本;文本;翻译翻译( (translation)translation)机器把一种语言机器把一种语言( (源语言源语言) )翻译为翻译为 另一种语言另一种语言( (目标语言目标语言) )l计算机只要达

10、到了以上标准的一条,就可以说它能够理解计算机只要达到了以上标准的一条,就可以说它能够理解自然语言自然语言自然语言理解的一般问题自然语言理解的一般问题( (5)5)l自然语言理解自然语言理解自然语言理解是语言信息处理技术的一个高层自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能领域关注的核心问题次的重要方向。是人工智能领域关注的核心问题之一。之一。 自然语言理解的困难原因:自然语言理解的困难原因: l目标表示的复杂性目标表示的复杂性l映射类型的多样性映射类型的多样性l源表示中各元素间交互程度的差异性源表示中各元素间交互程度的差异性 自然语言理解的一般问题自然语言理解的一般问题(

11、(6)6)l语言学的研究语言学的研究自然语言理解是哲学自然语言理解是哲学( (philosophy)philosophy),语言学语言学( (linguistics), linguistics), 语言心理学语言心理学( (psycholinguistics), psycholinguistics), 认知科学认知科学( (cognitive cognitive science), science), 计算机科学计算机科学( (computer science)computer science),数数学学( (mathematics)mathematics),逻辑学逻辑学( (logic)lo

12、gic)及相关学科发及相关学科发展和结合而形成的一门交叉学科。展和结合而形成的一门交叉学科。自然语言理解的一般问题自然语言理解的一般问题( (7)7)l语言学的研究语言学的研究语语言言学学家家:只只关关心心词词组组成成短短语语,短短语语组组成成句句子子,句句法法如如何。即语言理论何。即语言理论哲学家:词怎么能表示万物万事。如何用词来描述。哲学家:词怎么能表示万物万事。如何用词来描述。心心理理学学家家:语语言言产产生生的的机机制制,人人怎怎么么能能理理解解句句子子的的意意思思。神经网络。神经网络。计计算算语语言言学学家家:用用数数据据结结构构、数数学学模模型型把把哲哲学学、心心理理学学、语语言言

13、学学等等语语言言分分科科的的知知识识进进行行表表示示,用用恰恰当当的的算算法法识识别别句子的结构,完成自然语言相关的各项任务。句子的结构,完成自然语言相关的各项任务。自然语言理解的一般问题自然语言理解的一般问题( (8)8)l语言学的研究理解的层次语言学的研究理解的层次语语音音分分析析:找找出出最最小小可可独独立立的的声声音音单单元元-音音素素词词法法分分析析:找找出出词词汇汇的的各各个个词词素素(词词根根),从从中获得语言学信息中获得语言学信息例:我们研究所有东西例:我们研究所有东西; ;把手放在桌上把手放在桌上我们我们-研究所研究所-有有-东西东西 (交叉歧义)(交叉歧义)我们我们-研究研

14、究-所有所有-东西东西把把-手手-放在放在-桌上桌上(组合歧义)(组合歧义)把手把手-放在放在-桌上桌上自然语言理解的一般问题自然语言理解的一般问题( (9)9)l语言学的研究理解的层次语言学的研究理解的层次句句法法分分析析:对对句句子子和和短短语语的的结结构构进进行行分分析析,找找出出词词、短短语语等等的的相相互互关关系系以以及及各各自自在在句句子子中中的的作作用用等等。在在语语言言自自动动处处理理的的研研究究中中,句句法法分分析析的的研研究究是是最最为为集集中中的的,这这与与乔乔姆姆斯斯基基(ChomskyChomsky)的的贡贡献献是是分分不不开开的的。主主要要方方法法有有:短短语语结结

15、构构语语法法、格语法、扩充转移网络、功能语法等。格语法、扩充转移网络、功能语法等。语语法法分分析析:将将单单词词之之间间的的线线性性次次序序变变换换成成一一个个显显示示单单词词如如何何与与其其它它单单词词相相关关联联的的结结构构。确确定定语语句是否合乎语法句是否合乎语法自然语言理解的一般问题自然语言理解的一般问题( (10)10)l语言学的研究理解的层次语言学的研究理解的层次语语义义分分析析:通通过过分分析析找找出出词词义义,结结构构意意义义及及其其结结合合意意义义,从从而而确确定定语语言言所所表表达达的的真真正正(实实际际)含含义义或或概概念念。在在语语言言自自动动理理解解中中,语语义义越越

16、来来越越成成为为一一个个重重要要的的研研究究内内容容。(尤其是对话系统)(尤其是对话系统)你打我你打我我打你我打你语语用用分分析析:研研究究语语言言所所在在的的外外界界环环境境对对语语言言使使用用所所产产生生的的影影响响。描描述述语语言言的的环环境境知知识识、语语言言与与语语言言使使用用者者在在某某个个给给定定语语言言环环境境中中的的关关系系。为为确确定定真真正正含含义义,对对表表达达的的结构重新加以解释。(故宫、一块)结构重新加以解释。(故宫、一块)自然语言理解的一般问题自然语言理解的一般问题( (11)11)l研究目标研究目标建立一个足够精确的语言数学模型使计算机通建立一个足够精确的语言数

17、学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。通过语言索写、说,释义,翻译,回答问题等。通过语言索取信息,由此能力则说明该系统对语言已理解了取信息,由此能力则说明该系统对语言已理解了 。自然语言理解的一般问题自然语言理解的一般问题( (12)12)自然语言的层次划分及对应技术理论层次结构实现技术模板匹配、基于规则语音模式匹配基于词素、词汇词汇词典结构转换生成、词汇功能语法语法扩 展 转 移 网 络(ATN),CF规则 格语法、语义基元理论、模型理论语义产生式规则、概念相依理论、脚本、框架、语义网络、逻辑

18、基于记忆的推理、语言行为理论、篇章语法语用自然语言理解的一般问题自然语言理解的一般问题( (13)13)l应用应用机器翻译或机器辅助翻译。机器翻译或机器辅助翻译。文本理解:将输入文本转换成某种数据库格式。文本理解:将输入文本转换成某种数据库格式。文文本本生生成成:根根据据用用户户需需要要以以某某种种自自然然语语言言的的方方式式输输出出储储存存在在计算机内的各种信息。计算机内的各种信息。自自然然语语言言接接口口:人人类类直直接接用用自自然然语语言言与与数数据据库库、专专家家系系统统等等进行人机交互。进行人机交互。自然语言理解的一般问题自然语言理解的一般问题( (14)14)l应用应用网络方面:信

19、息检索(网络方面:信息检索(information retrievalinformation retrieval), , 提出提出(extractionextraction), , 过滤(过滤(filteringfiltering), , 分类分类(classificationclassification),), 汇总汇总 (summarizationsummarization)等等如:网上信息检索,电子图书馆(如:网上信息检索,电子图书馆(digital librarydigital library), , 电电子商务(子商务(e-commercee-commerce) 等等例:例:和服和服

20、 | | 务务 | | 于三日后裁制完毕。于三日后裁制完毕。( (kimono must)kimono must) 这个酒店的设施这个酒店的设施 | | 和和 | | 服务服务 | | 是一流的。是一流的。( (and and service)service)未登录词未登录词( (unknown word processing): unknown word processing): 如:高如:高海燕海燕 ( (storm petrel)storm petrel)l机器翻译是自然语言理解最早的研究领域。机器翻译是自然语言理解最早的研究领域。l自然语言理解的研究大体上经历了三个时期自然语言理解的研

21、究大体上经历了三个时期萌芽萌芽时期期 发展时期发展时期 l早期早期: 60: 60年代以关键词匹配为主流年代以关键词匹配为主流l中期中期: 70: 70年代以句法语义分析为主流年代以句法语义分析为主流, ,对语言理解对语言理解对话系统的研究取得进展。对话系统的研究取得进展。l近期近期: 80: 80年代以来开始走向实用化和工程化年代以来开始走向实用化和工程化, ,自然语自然语言理解的应用研究广泛开展,机器学习研究又十分活言理解的应用研究广泛开展,机器学习研究又十分活跃。跃。大规模真实文本处理时期大规模真实文本处理时期 l自然语言理解的研究为专家系统的知识获取提供了新的途自然语言理解的研究为专家

22、系统的知识获取提供了新的途径。自然语言理解的研究已促进计算机辅助语言教学径。自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计和计算机语言设计(CLD)等的发展。等的发展。l比较成功的系统处理都是受限的自然语言子集比较成功的系统处理都是受限的自然语言子集句法受限:句子结构的复杂性方面受到限制句法受限:句子结构的复杂性方面受到限制语义受限语义受限/ /领域受限:所表达的事物的数量方面受到限制领域受限:所表达的事物的数量方面受到限制10.1.3 自然语言理解研究的进展自然语言理解研究的进展 l6060年代以关键词匹配为主流年代以关键词匹配为主流 特点:特点:没有真正意义上的语法

23、分析,主要依靠关键词匹配技术没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式,每个在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释模式与一个或多个解释( (响应式响应式) )相对应。相对应。每当输入一个句子,系统便查找与之匹配的模式,一旦每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响句子意义的影响是一种近似匹配技术,输入句子可以不准循语法,但是是一种近似匹配技术,输入句子可以不准循语

24、法,但是也容易导致错误也容易导致错误l系统中事先存放了大量系统中事先存放了大量包含关键字的模式包含关键字的模式,每个模式都,每个模式都和一个解释相对应。和一个解释相对应。l待理解句子输入系统,系统将句子与模式逐个匹配,一待理解句子输入系统,系统将句子与模式逐个匹配,一旦匹配成功便立刻得到对应的解释。旦匹配成功便立刻得到对应的解释。l如:人如:人-机接口系统(列车数据库查询系统)机接口系统(列车数据库查询系统)模式:模式:经过经过吗?吗?解释:询问解释:询问是否经过是否经过,执行查询指令,执行查询指令,如如 SQL 语句语句问题:问题:571次经过金华吗?次经过金华吗?7070年代句法语义分析为

25、主流年代句法语义分析为主流 采用句法采用句法- -语义分析技术语义分析技术l句法分析句法分析识别构成句子的各个成分以及它们之间的相互关系,识别构成句子的各个成分以及它们之间的相互关系,例如确定每个动词的主语和宾语,以及每个修饰性例如确定每个动词的主语和宾语,以及每个修饰性的词或短语所修饰的成分。的词或短语所修饰的成分。分析结果一般是句子的一棵分析树。分析结果一般是句子的一棵分析树。l语义分析语义分析根据输入句子的句法结构和句中每个实词的词义推根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示。导出能反映这个句子意义的某种形式化表示。结果可以是逻辑表达式、语义网络

26、或其它一些复杂结果可以是逻辑表达式、语义网络或其它一些复杂的数据结构。的数据结构。典型例子典型例子lLUNARLUNAR允许用普通英语和数据库对话的人机接口允许用普通英语和数据库对话的人机接口句法分析句法分析语义解释语义解释数据检索数据检索ATN语法语法词典词典语义规则语义规则数据库数据库8080年代以来的实用化和工程化年代以来的实用化和工程化l主要特点是开始走向实用化和工程化。其重要标志之一是主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。向了市场。l19901990年年8 8月,

27、月,1313届国际计算语言学大会,首次提出届国际计算语言学大会,首次提出了处理大规模真实文本的战略目标。了处理大规模真实文本的战略目标。l语料库语言学兴起,它顺应了大规模真实文本处理语料库语言学兴起,它顺应了大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。究及自然语言处理新思路。l句法语义分析为主的思想来自于规则的方法,而规则不句法语义分析为主的思想来自于规则的方法,而规则不可能把所有的知识表示出来可能把所有的知识表示出来自然语言在数量上浩瀚无际自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。在性质上具有不

28、确定性和模糊性。l语料库语言学语料库语言学( (corpus linguistics)corpus linguistics)l语言学知识的源泉是大规模活生生的语料,要想让语言学知识的源泉是大规模活生生的语料,要想让计算机理解自然语言,首先要让计算机能从库存的计算机理解自然语言,首先要让计算机能从库存的大规模语料中自动或半自动地获取语言理解所需的大规模语料中自动或半自动地获取语言理解所需的各种知识,对语言现象作出客观的、细致的描述。各种知识,对语言现象作出客观的、细致的描述。l目前采用的主要手段是建立各种统计模型,可用于目前采用的主要手段是建立各种统计模型,可用于词类的自动标注,以及句法语义的更

29、高层次的分析。词类的自动标注,以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。该方法可以和规则方法相互补充。l在当今计算技术条件下,要想把处理自然语在当今计算技术条件下,要想把处理自然语言所需要的知识都用现有的知识表示技术明言所需要的知识都用现有的知识表示技术明确表达出来,是不可能的。这既是由于这种确表达出来,是不可能的。这既是由于这种知识的知识的“数量数量”巨大,有时由于它们在巨大,有时由于它们在“质质”的方面高度的不确定性和模糊性。的方面高度的不确定性和模糊性。l最近十几年来新提出的语料库语言学,它顺最近十几年来新提出的语料库语言学,它顺应了大规模真实文本处理的需要,提出了以应

30、了大规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语计算机语料库为基础的语言学研究及自然语言处理的新思想。言处理的新思想。 l基于语料库的处理思想能够在工程上、在宽广的语基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,对传统的处理方法的一个强有了的补充。的课题,对传统的处理方法的一个强有了的补充。 l新型的智能计算机和多媒体计算机均要求设计出更新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声为友好的人机界面,使自然语言、文字、图像和声音等信号

31、都能直接输入计算机。要求计算机能以自音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。语言能力,尤其是口语理解和生成能力。汉语机器理解研究的发展汉语机器理解研究的发展l19561956年开始俄汉机译系统的研究,年开始俄汉机译系统的研究,19591959年完成,采用年完成,采用的技术主要是词对词翻译和模式匹配。的技术主要是词对词翻译和模式匹配。l19781978年后开始了真正意义上的汉语理解研究,经过二年后开始了真正意义上的汉语理解研究,经过二十几年的发展,在汉语的句法和语义分析

32、、各级语言十几年的发展,在汉语的句法和语义分析、各级语言单位的语义表示与获取、歧义消解等方面都取得了进单位的语义表示与获取、歧义消解等方面都取得了进展,并建立了一批实验系统,其中一些系统已经实用展,并建立了一批实验系统,其中一些系统已经实用化、商品化。化、商品化。l目前国内开展此项研究的单位目前国内开展此项研究的单位北京大学(俞士汶)北京大学(俞士汶)清华大学(黄昌宁、周明)清华大学(黄昌宁、周明)东北大学(姚天顺)东北大学(姚天顺)山西大学(刘开瑛、郭炳炎)山西大学(刘开瑛、郭炳炎)哈工大(王开铸)哈工大(王开铸)微软中国研究院微软中国研究院l发展快的原因:发展快的原因:l计算机的发展计算机

33、的发展: :高速、统计处理。高速、统计处理。l需需求求: :机机器器人人能能听听懂懂人人的的话话,与与人人交交谈谈,自自动学习。动学习。 但但是是,因因为为自自然然语语言言是是开开放放集集,每每天天都都有有新新词词产产生,用规则描述马上可以找出反例。生,用规则描述马上可以找出反例。 所以,很难。所以,很难。10.1.4 自然语言理解过程的层次自然语言理解过程的层次 语言的分析和理解过程是一个层次化的过程,语言的分析和理解过程是一个层次化的过程,它主要包括如下四个层次:它主要包括如下四个层次: 语音分析语音分析 词法分析词法分析 句法分析句法分析 语义分析语义分析10.2 10.2 词法分析词法

34、分析l词法分析是理解单词的基础,其主要目的是从句词法分析是理解单词的基础,其主要目的是从句子中切分出单词,找出词汇的各个词素,从中获子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义得单词的语言学信息并确定单词的词义 例如例如unchangeableunchangeable是由是由un-change-ableun-change-able构成的,构成的,其词义由这三个部分构成。其词义由这三个部分构成。 语言语言 词汇词汇语法语法 词词熟语熟语词法词法句法句法词素词素构词法构词法 词组构词组构 造法造法造句法造句法构形法构形法图10.1 语言的构成图l在英语等语言中,因为

35、单词之间是以空格自然分在英语等语言中,因为单词之间是以空格自然分开的,切分一个单词很容易,所以找出句子的一开的,切分一个单词很容易,所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化,要找出各个词素数、时态、派生、变形等变化,要找出各个词素就复杂的多,需要对词尾或词头进行分析。如就复杂的多,需要对词尾或词头进行分析。如importableimportable,它可以是它可以是imim-port-able-port-able或或import-import-ableable,这是因为这是因为imim、portport、ab

36、leable这三个都是词素。这三个都是词素。 l汉语中的每个字就是一个词素,所以要找出各个汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常困词素是相当容易的,但要切分出各个词就非常困难,不仅需要构词的知识,还需要解决可能遇到难,不仅需要构词的知识,还需要解决可能遇到的切分歧义。如的切分歧义。如“我们研究所有东西我们研究所有东西”。可以是。可以是“我们我们研究所研究所有东西有东西”,也可以是,也可以是“我们我们研究研究所有所有东西东西”。 自然语言处理的方向自然语言处理的方向1歧义消除歧义消除l词切分中的歧义词切分中的歧义固有歧义:根据不同语境所出现的分词歧义固

37、有歧义:根据不同语境所出现的分词歧义l例:(例:(1 1)物理学物理学是一门基础科学。是一门基础科学。 物理学物理学起来很难。起来很难。l例:(例:(2 2)将来将来的上海将有严重的污染。的上海将有严重的污染。 他他将来将来上海。上海。组合歧义:本身并不组成一个词,在不同语境下,产生组合歧义:本身并不组成一个词,在不同语境下,产生不同的组合切分不同的组合切分l例:他例:他的确切的确切地址在这儿。地址在这儿。 这块肉这块肉的确切的确切得不错。得不错。l词的歧义词的歧义词性歧义:一个词有多种词性(兼类)词性歧义:一个词有多种词性(兼类)l例:汉语例:汉语学习学习十分重要。(名词)十分重要。(名词)

38、 他们努力他们努力学习学习汉语。(动词)汉语。(动词)词义歧义:一个词有多种词义词义歧义:一个词有多种词义l例:例:红红花。(红颜色的)花。(红颜色的) 红红军。(革命的)军。(革命的)l结构歧义结构歧义即词组成词组乃至句子时,由于其组成的词或词组间可即词组成词组乃至句子时,由于其组成的词或词组间可能存在不同的语法或语义关系而出现的(潜在)歧义现能存在不同的语法或语义关系而出现的(潜在)歧义现象象10.3 句法分析l句法分析的主要任务:句法分析的主要任务:确定输入句子的结构:识别句子的各个成分及确定输入句子的结构:识别句子的各个成分及其之间的关系其之间的关系句子结构的规范化:目的是简化后续处理

39、句子结构的规范化:目的是简化后续处理l分析自然语言的方法主要分为两类:分析自然语言的方法主要分为两类: 基于规则的方法:如短语结构语法和基于规则的方法:如短语结构语法和ChomskyChomsky语语法体系法体系 基于统计的方法基于统计的方法短语结构语言l定义定义句子:一个符号串句子:一个符号串语言:句子的集合语言:句子的集合语法:对一个句集一种有限的形式化描述语法:对一个句集一种有限的形式化描述l描述一般语言的方法:描述一般语言的方法:识别器:由程序判断读入的符号串是不是一个句子识别器:由程序判断读入的符号串是不是一个句子短语结构语法:一种基于产生式的形式化工具,也称为短语结构语法:一种基于

40、产生式的形式化工具,也称为产生式语法产生式语法定义:短语结构语法定义为:定义:短语结构语法定义为:G G(T(T,N N,S S,P P)T T是终结符集合,即被定义的语言的所有词是终结符集合,即被定义的语言的所有词 汇(或符号)汇(或符号)N N是非终结符集合,这些符号用于描述语法是非终结符集合,这些符号用于描述语法 成分,并不成分,并不出现于句子中。出现于句子中。 则有:则有:V VT T N N,T T N N (空集),空集),V V是属于该语法的是属于该语法的全部符号。全部符号。S S是起始符号,它是是起始符号,它是N N中的一个成员。中的一个成员。 P P是一个产生式规则集。是一个

41、产生式规则集。a ab b(a(a b,ab,a V V+ +,b,b V*)V*)l在短语结构语法中,基本运算是把一个符号串重写在短语结构语法中,基本运算是把一个符号串重写为另一个符号串,每条语法规则也叫为另一个符号串,每条语法规则也叫重写规则重写规则l一个句子的产生就是从一个句子的产生就是从S S符号到词汇串的符号到词汇串的推导推导过程过程l如果一个程序能够根据一个短语结构语法来确定一如果一个程序能够根据一个短语结构语法来确定一个句子的推导,则它可称为一个句法分析器个句子的推导,则它可称为一个句法分析器( (parser)parser)。l语法语法G G所定义的语言记为所定义的语言记为L(

42、G):L(G): L(G)=W | W T*, S*GWl刻画语言的形式体系的强和弱刻画语言的形式体系的强和弱l递归可枚举语言:如果有一个程序,它能以某种顺递归可枚举语言:如果有一个程序,它能以某种顺序逐个地输出(即枚举)一种语言的句子,这种语序逐个地输出(即枚举)一种语言的句子,这种语言是递归可枚举的言是递归可枚举的l递归语言:如果有一个程序,它在读入一个符号串递归语言:如果有一个程序,它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子,后能最终确定这个串是或不是某种语言的一个句子,这称该语言是递归这称该语言是递归 l正则语法:正则语法:正则语法有两种形式:正则语法有两种形式:l

43、左线性语法:如左线性语法:如 A a | Ba l右线性语法:右线性语法: 如如 A A a | a | aBaB可以表示如下的句子:可以表示如下的句子:la*b*语法例子:语法例子:lS a | S1 | a SlS1 b | b S1与有限状态机等价与有限状态机等价l上下文无关语法:上下文无关语法:语法规则形式为:语法规则形式为: A x 即左边为一非终结符,右边没有限制即左边为一非终结符,右边没有限制可以表示的句子如:可以表示的句子如:lanbn语法例子:语法例子:lS a | S b S该文法应用于程序设计语言中该文法应用于程序设计语言中l上下文有关语法:上下文有关语法:语法规则:语法

44、规则:l规则右边的符号数不能少于左边符号数规则右边的符号数不能少于左边符号数l右边的符号可以是终止符也可以是非终止符右边的符号可以是终止符也可以是非终止符上下文有关语言是递归的上下文有关语言是递归的可以表示的语言:可以表示的语言:lanbncn语法例子:语法例子:lAB BAl无约束短语结构语法:无约束短语结构语法:语法规则是没有限制的:语法规则是没有限制的:l左边可以是任意多个终止符或非终止符左边可以是任意多个终止符或非终止符l右边可以是任意多个终止符或非终止符右边可以是任意多个终止符或非终止符该语言是递归可枚举的该语言是递归可枚举的该语言与图灵机等价该语言与图灵机等价语法例子:语法例子:l

45、A B ClChomskyChomsky体系体系无约束语法无约束语法上下文有关语法上下文有关语法上下文无关语法上下文无关语法正则语法正则语法10.3.1 句法模式匹配和转移网络句法模式匹配和转移网络 句法分析最为简单直观的方法-模式匹配模式匹配。 一个句子可以表示成:(pronoun(adj*noun)verb(pronoun(adj*noun) 这也可以用状态转移图来表示,称之为转移网络转移网络(TN,transition network),如图10.2所示。 图中,q0,q1,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。图10.2 转移网络(TN)q0nou

46、npron.q2q1adjq3qTverbverbpron.nounq4q5adjl转移网络在自动机理论中用来表示语法。转移网络在自动机理论中用来表示语法。l句法分析中的转移网络由结点和带有标记的弧组成,句法分析中的转移网络由结点和带有标记的弧组成,结点表示状态,弧对应于符号,基于该符号,可以结点表示状态,弧对应于符号,基于该符号,可以实现从一个给定的状态转移到另一个状态。实现从一个给定的状态转移到另一个状态。 扩充转移网络ATNlATN是20世纪70年代由W. Woods提出来的lATN语法属于一种增强型的上下文无关语法,即用上下文无关文法描述句子文法结构,并同时提供有效的方式将各种理解语句

47、所需要的知识加到分析系统中,以增强分析功能,从而使得应用ATN的句法分析程序具有分析上下文有关语言的能力。 lATN主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候,附加在该弧上的过程就会被执行。这些过程的主要功能是(I)对文法特征进行赋值;(II)检查数(number)或人称(第一、二或三人称)条件是否满足,并据此允许或不允许转移。 扩充转移网络ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。 ATN的每个寄存器由两部分构成: 句法特征寄存器 句法功能寄存器 图10.4所示是一个简单的名词短语(NP)的扩充 转移网络。 图10.4 名词短语(

48、NP)的扩充转移网络ghfNP7: pp8: send3: adj4: noun2: jump1: det5: pron.6: prop.表示句子的框架转移网络转移网络 (4)表示句子的框架表示句子的框架10.3.3 词汇功能语法词汇功能语法 LFGLFG用一种结构来表达特征、功能、词汇和成分的顺序。用一种结构来表达特征、功能、词汇和成分的顺序。 LFGLFG对句子的描述分为两部分:对句子的描述分为两部分: 直接成分结构直接成分结构(Constituent Structure,(Constituent Structure,简称简称C- C- Structure);Structure); 功能结

49、构功能结构(Functional Structure,(Functional Structure,简称简称F-F-structure)structure)。用LFG语法对句子进行分析的过程如下: 用上下文无关语法分析获得C-structure,不考虑语法中的下标;该C-structure就是一棵直接成分树; 将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式); 对方程式作代数变换,求出各个变量,获得功能结构F-structure。 l用一个短语结构语法对一个句子进行语法分析,意用一个短语结构语法对一个句子进行语法分析,意味着寻找一个从起始符到该句子的推导,这个

50、推导味着寻找一个从起始符到该句子的推导,这个推导一般可以表示为一棵句法树一般可以表示为一棵句法树l一般一棵句法树对应的推导不是唯一的,但是如果一般一棵句法树对应的推导不是唯一的,但是如果在推导过程中每次总是重写最左边的非终止符,则在推导过程中每次总是重写最左边的非终止符,则称该推导为最左推导。称该推导为最左推导。l Mary Mary Mary eats Mary eats cheese := :=John | Marry:= :=eats | drinks :=wine | cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMaryl句法分

51、析器分为:句法分析器分为:从推导方向来分:从推导方向来分:l自顶向下:从树顶的根结点开始推导建立句法树,方自顶向下:从树顶的根结点开始推导建立句法树,方向是从起始符向是从起始符S到句子到句子l自底向上:从树底部的叶结点自底向上:从树底部的叶结点(词或词类词或词类)规约,建立规约,建立句法树,方向是从句子到句法树,方向是从句子到S从算法上分:从算法上分:l回溯算法:每次只尝试一种推导,当这种推导失败时回溯算法:每次只尝试一种推导,当这种推导失败时便返回以尝试另一种推导便返回以尝试另一种推导l并行算法:同时进行所有的推导并行算法:同时进行所有的推导l自顶向下的回溯算法自顶向下的回溯算法该方法逐个地

52、枚举推导直到找到一个能生成句子该方法逐个地枚举推导直到找到一个能生成句子的推导的推导一般,对具有左递归的语法,该方法需要增加某一般,对具有左递归的语法,该方法需要增加某些测试以避免陷入死循环些测试以避免陷入死循环对于对于”Mary eats cheese”的句法和推导为:的句法和推导为:SNP+VP (1) SNP+VP (1)NP N (2) N+VP (2)VP V (3) N+V+NP (4)VP V+NP (4) N+V+N (2)10.4 语义分析l语义分析的任务:语义分析的任务: 输入句子的句法结构和句子中每个实词的词义推导输入句子的句法结构和句子中每个实词的词义推导出能反映该句子

53、意义的某种形式化表示出能反映该句子意义的某种形式化表示l对语义现象作形式化处理要比句法现象困难得多,主对语义现象作形式化处理要比句法现象困难得多,主要原因有要原因有语义和句法系统的界限很难划清楚语义和句法系统的界限很难划清楚语义及其他认知系统的界限也难以划清楚。语义及其他认知系统的界限也难以划清楚。用于计算机语义处理的计算语义学还远未成熟用于计算机语义处理的计算语义学还远未成熟 语义解析的步骤如下:语义解析的步骤如下: 第一步第一步 确定每个词在句子中所表达的词义;确定每个词在句子中所表达的词义; 第二步第二步 根据已有的背景知识来确定语义。根据已有的背景知识来确定语义。 逻逻辑辑形形式式表表

54、达达是是一一种种框框架架式式的的结结构构,它它表表达达一一个个特特定定形形式式的的事事例例及及其其一一系系列列附附加加的的事事实实,如如“Jack Jack kissed Jillkissed Jill”,可以用如下逻辑形式来表达:可以用如下逻辑形式来表达: (PAST (PAST S1 S1 KISS-ACTIONKISS-ACTION AGENT(NAME AGENT(NAME j1 j1 PERSONPERSON“JackJack”) ) THEM THEM ENAME(NAME ENAME(NAME j2 j2 PERSONPERSON“JillJill”) ) ) l格文法格文法 格

55、文法是Filmore于1968年提出来的,曾 经对自然语言理解技术的发展产生过较 大的影响,直到现在不少研究仍在使用 格语法。因为人们认识到格关系确实是 描述语言语义(包括和语法的关系)的一种很好的形式,当然在实际应用过程中不 可避免地要有些修改。l格文法格文法 格文法的特点是允许以动词为中心构造分析结果,尽管文格文法的特点是允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却相应于语义法规则只描述句法,但分析结果产生的结构却相应于语义关系,而非严格的句法关系关系,而非严格的句法关系如句子:如句子:Mary hit Bill Mary hit Bill 的格文法分析结果

56、可以表示为的格文法分析结果可以表示为 ( ( hit ( Agent Mary ) hit ( Agent Mary ) ( ( Dative Bill ) Dative Bill ) 在格文法中,格表示的语义方面的关系,反映的是句子中在格文法中,格表示的语义方面的关系,反映的是句子中包含的思想、观念等,称为深层格。和短语结构语法相比,包含的思想、观念等,称为深层格。和短语结构语法相比,格文法对于句子的深层语义有着更好的描述。格文法对于句子的深层语义有着更好的描述。 l如果两个句子的底层的语义关系一致,各名词成分所如果两个句子的底层的语义关系一致,各名词成分所代表的格关系不会发生相应的变化。例

57、如,被动句代表的格关系不会发生相应的变化。例如,被动句“Bill was hit by MaryBill was hit by Mary”与上述主动句具有不同的与上述主动句具有不同的句法分析树,但格表示完全相同。句法分析树,但格表示完全相同。10.5 10.5 真实文本的处理真实文本的处理l语料库语言学及其特点语料库语言学及其特点 传统的句法传统的句法-语义分析技术,所采取的主要研究方法是基于语义分析技术,所采取的主要研究方法是基于规则的方法规则的方法 由于自然语言理解的复杂性,各种知识的由于自然语言理解的复杂性,各种知识的“数量数量”浩瀚无浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不

58、可能际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识,而且,规完全准确地表达理解自然语言所需的各种知识,而且,规则实际上面向语言的使用者人的,将它面向机器则分析结则实际上面向语言的使用者人的,将它面向机器则分析结果始终不尽如人意。果始终不尽如人意。 研究语言知识所用的真实文本称为语料,大量的真实文本研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库即构成语料库 l传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释,包括传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释,包括拼音、读音、词形变化及派生词、词根、短语、时态变换的

59、定义及说明、拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图,包含着相当可观同义词、反义词、特殊用法注释,偶尔还有图示或插图,包含着相当可观的信息存储。但是,它还有一些不足,特别是用在自然语言理解时更显得的信息存储。但是,它还有一些不足,特别是用在自然语言理解时更显得不够不够 l例如,对于名词例如,对于名词“树树”,传统的词典一般解释为:一种大型的、木制的、,传统的词典一般解释为:一种大型的、木制的、多年生长的、具有明显树干的植物。基本上是上位词加上辨别特征。但是,多年生长的、具有明显树干的植物。基本上是上位词加上辨别特征。但是,

60、这还不够,还缺少一些信息这还不够,还缺少一些信息 第一,它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提及它第一,它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提及它们是生命的组织形式。但是在们是生命的组织形式。但是在WordNetWordNet中,只要查一下它的上位词中,只要查一下它的上位词“植物植物”,就可以找到这些信息。,就可以找到这些信息。 第二,树的定义没有包括对等词的信息,不能推测其他种类的植物存在的第二,树的定义没有包括对等词的信息,不能推测其他种类的植物存在的可能性。可能性。 第三,对于各种树都感兴趣的读者,除了查遍词典,没有别的办法。第三,对于各种树都感兴趣的读者

61、,除了查遍词典,没有别的办法。 第四,每个人对树都有自己的认识,而词典的编撰者又没有将其写在树的第四,每个人对树都有自己的认识,而词典的编撰者又没有将其写在树的定义中。如树包括树皮、树枝;树由种子生长而成,等等。定义中。如树包括树皮、树枝;树由种子生长而成,等等。 可以看出,普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性可以看出,普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息的信息WordNetWordNet是按一定结构组织起来的义类词典,主要特征表现在是按一定结构组织起来的义类词典,主要特征表现在 第一,整个名词组成一个继承关系。第一,整个名词组成一个继承关系。 W

62、ordNetWordNet有有着着严严格格的的层层次次关关系系,这这样样一一个个单单词词可可以以把把它它所所有有的的前前辈辈的的一一般般性性的的上上位位词词的的信信息息都都继继承承下下来来,可可以以提提供供全全局局性性的语义关系,具有的语义关系,具有IS-AIS-A关系关系 第二、动词是一个语义网第二、动词是一个语义网 动动词词大大概概是是最最难难以以研研究究的的词词汇汇,在在动动词词词词典典中中,很很少少有有真真正正的的同同义义动动词词。表表达达动动词词的的意意义义对对任任何何词词汇汇语语言言学学来来说说都都是是困困难难的的。WordNetWordNet不不做做成成分分分分析析,而而是是进进

63、行行关关系系分分析析。这这一一点点是是计计算算语语言言学学界界所所热热衷衷的的课课题题,与与以以往往的的语语义义分分析析方方法法不不同同。这这种种关系讨论的是动词间的纵向关系,即词汇蕴涵关系关系讨论的是动词间的纵向关系,即词汇蕴涵关系 WordNetWordNet基基于于名名词词和和动动词词以以及及其其他他词词性性的的关关系系进进行行词词类类间间的的纵纵向向分分析析,在在国国际际计计算算语语言言学学界界有有很很大大的的影影响响。但但是是,它它也也有有不不足足之处,如对横向关系还没有考虑。之处,如对横向关系还没有考虑。 l大规模真实文本处理的数学方法主要是统计方法 基于语料库的统计模型(如Mar

64、kov模型、向量空间模型)不仅能胜任词类的自动标注任务,而且也能够应用到句法和语义等更高层次的分析上来。汉语自动分词汉语自动分词l由于汉语句子的最小构成单位是字,有由于汉语句子的最小构成单位是字,有 意义的最小单意义的最小单位却是词,而汉语词与词位却是词,而汉语词与词 之间又没有分割符号(英语之间又没有分割符号(英语词和词之间词和词之间 是空格)。因此,汉语理解首先要进行是空格)。因此,汉语理解首先要进行 汉语自动分词。汉语自动分词。l可以概括为两大类方法,可以概括为两大类方法,无词典分词,它完全依靠整段文章中汉字之间的搭配的频无词典分词,它完全依靠整段文章中汉字之间的搭配的频率算出成词可能率

65、算出成词可能有词典分词,是一种更有普遍意义的分词方法。有词典分有词典分词,是一种更有普遍意义的分词方法。有词典分词主要有最大匹配法,逆向最大匹配法,逐词遍历匹配法,词主要有最大匹配法,逆向最大匹配法,逐词遍历匹配法,设立切分标志法,以及正向最佳匹配和逆向最佳匹配法,设立切分标志法,以及正向最佳匹配和逆向最佳匹配法,而这些方法的一个基本思想都是要依次分出待切分串的可而这些方法的一个基本思想都是要依次分出待切分串的可能最长成词能最长成词基于统计结果的分词算法基于统计结果的分词算法l首先,根据汉语词典首先,根据汉语词典(有有56800条词汇条词汇)进进 行统计,发行统计,发现:虽然词典中的最长词可现

66、:虽然词典中的最长词可 以达到为以达到为20多个字节多个字节(十几个汉字),(十几个汉字), 但是大多数汉语词都可以由前两字但是大多数汉语词都可以由前两字唯一唯一 确定,这样的词占绝大多数确定,这样的词占绝大多数(如在上述词典中占如在上述词典中占总词汇量的总词汇量的85以上以上)。两个首字相同的词的个数的统计l根据前两字可确定的词个数词总数 所占百分比() 148431 85.22 228012 9.86 35143 2.71 41184 0.83 5 465 0.40 6 306 0.32 7167 0.20 868 0.08 9 89 0.13 10510 0.09 14214 0.05

67、15 315 0.08 18118 0.03机械分词机械分词l主要是在字典索引的支持下进行的,索引结构可以分主要是在字典索引的支持下进行的,索引结构可以分为两级。为两级。l一级索引就用汉字内码,查找算法用散一级索引就用汉字内码,查找算法用散 列方法。列方法。l而二级索引采用整个词长。而二级索引采用整个词长。l最最大大匹匹配配法法。最最大大匹匹配配法法简简称称MMMM方方法法。其其思思想想是是:在在计计算算机机磁磁盘盘中中存存放放一一个个分分词词用用词词典典,从从待待切切分分的的文文本本中中按按自自左左到到右右的的顺顺序序截截取取一一个个定定长长的的汉汉字字串串,通通常常为为为为词词典典中中的的

68、最最大大词词长长,这这个个字字符符串串的的长长度度称称作作最最大大词词长长。将将这这个个具具有有最最大大词词长长的的字字符符串串与与词词典典中中的的词词进进行行匹匹配配,若若匹匹配配成成功功,则则可可确确定定这这个个字字符符串串为为词词,计计算算机机程程序序的的指指针针向向后后移移动动与与给给定定最最大大词词长长相相应应个个数数的的汉汉字字,继继续续进进行行匹匹配配;否否则则,把把该该字字符符串串从从右右边边逐逐次次减减去去一一个个汉汉字字,再与词典中的词进行匹配,直到成功为止。再与词典中的词进行匹配,直到成功为止。 l逆逆向向最最大大匹匹配配法法。逆逆向向最最大大匹匹配配法法简简称称RMMR

69、MM法法。这这种种方方法法的的基基本本原原理理与与MMMM法法相相同同,所所不不同同的的是是分分词词时时对对待待切切分分文文本本的的扫扫描描方方向向。MMMM方方法法从从待待切切分分文文本本中中截截取取字字符符串串的的方方向向是是从从左左到到右右,而而RMMRMM方方法法则则是是从从右右向向左左。在在与与词词典典匹匹配配不不成成功功时时,将将所所截截取取的的汉汉字字串串从从左左至至右右逐逐次次减减去去一一个个汉汉字字,再再与与词词典典中中的的词词进进行行匹匹配配,直直到到匹匹配配成成功功为为上上。实实验验表表明明,RMMRMM法法的的切切词词正正确确率率要要比比MMMM法法高高 汉语分词的其他

70、难点主要有 l分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的问题。对歧义字段的处理水平,直接影响着自动分词系统的分词准确率。l未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大,对它们识别正确与否直接影响着分词系统的正确率。然而,目前对于这些词语的自动辨识尽管作了不少的研究,但要想达到实际应用的要求,仍还有不少的困难。 l除了由于未登录词

71、而引起的歧义,切分歧义主要有三除了由于未登录词而引起的歧义,切分歧义主要有三种类型:种类型:交集型歧义,即汉字串既可切成,交集型歧义,即汉字串既可切成,又可切成。又可切成。组合型歧义,即汉字串既可切分成,又可切分组合型歧义,即汉字串既可切分成,又可切分成。成。混合型歧义,是前两种的自我嵌套或三者的交叉组混合型歧义,是前两种的自我嵌套或三者的交叉组合产生的。合产生的。l为了既能得到较高的准确率,又有较小的开销,可以为了既能得到较高的准确率,又有较小的开销,可以 着重解决相对数量较大又较容易解决的交集型歧义。着重解决相对数量较大又较容易解决的交集型歧义。词类分析词类分析l汉语的发展是先有字后有词,

72、所以关于汉语的发展是先有字后有词,所以关于 词的研究还存词的研究还存在一些问题,比较突出的在一些问题,比较突出的 是汉语词类的兼类问题。例是汉语词类的兼类问题。例如,大量的如,大量的 双字动词兼作名词。要进行汉语理解,双字动词兼作名词。要进行汉语理解, 如果不把词类先确定下来的话,那么下如果不把词类先确定下来的话,那么下 一步的分析也一步的分析也难以进行。难以进行。汉语词类的兼类处理方法汉语词类的兼类处理方法l两种方法两种方法根据规则消除兼类,根据规则消除兼类,根据预料库统计消除兼类根据预料库统计消除兼类l汉语词汇计量研究随着语料库加工的逐步深入而发展10.6 Web信息抽取l万维网既为人工智

73、能和自然语言理解软件带来了机遇,也万维网既为人工智能和自然语言理解软件带来了机遇,也带来了许多挑战。最大的挑战是基于带来了许多挑战。最大的挑战是基于Web, 抽取抽取“有兴趣有兴趣的的”信息,提供用户个性化服务。最广泛使用的信息,提供用户个性化服务。最广泛使用的Web信息信息抽取是搜索引擎。抽取是搜索引擎。l大型互联网搜索引擎的数据中心一般运行数千台甚至数十大型互联网搜索引擎的数据中心一般运行数千台甚至数十万台计算机。搜集机器自动搜集网页信息,平均速度每秒万台计算机。搜集机器自动搜集网页信息,平均速度每秒数十个网页,检索机器则提供容错的可缩放的体系架构以数十个网页,检索机器则提供容错的可缩放的

74、体系架构以应对每天数千万甚至数亿的用户查询请求应对每天数千万甚至数亿的用户查询请求l企业搜索引擎可根据不同的应用规模,从单台计算机到计企业搜索引擎可根据不同的应用规模,从单台计算机到计算机集群都可以进行部署。算机集群都可以进行部署。 l搜索引擎一般的工作过程是搜索引擎一般的工作过程是: 首先对互联网上的网页进行搜首先对互联网上的网页进行搜集,然后对搜集来的网页进行预处理,建立网页索引库,集,然后对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互进行排序后

75、返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。联网上的文本信息提供全文检索。 l搜索引擎的一般系统架构包括页面搜集器、索引器、检索器、索引文件等部分。 l各部分之间的关系:各部分之间的关系:1. 搜集器搜集器 l搜集器的功能是在互联网中漫游,发现并搜集信息,搜集器的功能是在互联网中漫游,发现并搜集信息,它搜集的信息类型多种多样,包括它搜集的信息类型多种多样,包括HTML页面、页面、XML文档、文档、Newsgroup文章、文章、FTP文件、字处理文文件、字处理文档、多媒体信息等。档、多媒体信息等。l搜索器是一个计算机程序,其实现常常采用分布式搜索器是一个计算机程序,其实

76、现常常采用分布式和并行处理技术,以提高信息发现和更新的效率和并行处理技术,以提高信息发现和更新的效率 l搜索器一般要不停地运行,要尽可能多、尽可能快搜索器一般要不停地运行,要尽可能多、尽可能快地搜集互联网上的各种类型的新信息。因为互联网地搜集互联网上的各种类型的新信息。因为互联网上的信息更新很快,所以还要定期更新已经搜集过上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。的旧信息,以避免死链接和无效链接。 2 . 分析器分析器 l对搜集器搜集来的网页信息或者下载的文档一般要对搜集器搜集来的网页信息或者下载的文档一般要首先进行分析,以用于建立索引首先进行分析,以用于建

77、立索引l文档分析技术一般包括文档分析技术一般包括: 分词(有些仅从文档某些部分词(有些仅从文档某些部分抽词,如分抽词,如Altavista)、过滤(使用停用词表)、过滤(使用停用词表stoplist)、转换(有些对词条进行单复数转换、词)、转换(有些对词条进行单复数转换、词缀去除、同义词转换等工作),这些技术往往与具缀去除、同义词转换等工作),这些技术往往与具体的语言以及系统的索引模型密切相关体的语言以及系统的索引模型密切相关 3. 索引器 l索引器的功能是对搜索器所搜索的信息进行分析处索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文理,从中抽取出索引项

78、,用于表示文档以及生成文档库的索引表。档库的索引表。l索引项有元数据索引项和内容索引项两种索引项有元数据索引项和内容索引项两种: : 元数据元数据索引项与文档的语意内容无关,如作者名、索引项与文档的语意内容无关,如作者名、URLURL、更、更新时间、编码、长度、链接流行度等等新时间、编码、长度、链接流行度等等; ; 内容索引内容索引项是用来反映文档内容的,如关键词及其权重、短项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英索引项(或称短语索引项)两种。单索引项对于英文

79、来讲是英语单词,比较容易提取,文来讲是英语单词,比较容易提取,l在搜索引擎中,一般要给单索引项赋予一个权值,在搜索引擎中,一般要给单索引项赋予一个权值,以表示该索引项对文档的区分度,同时用来计算查以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。概率法和语言学法。 l为了快速查找到特定的信息,建立索引数据库是一为了快速查找到特定的信息,建立索引数据库是一个常用的方法,即将文档表示为一种便于检索的方个常用的方法

80、,即将文档表示为一种便于检索的方式并存储在索引数据库中。式并存储在索引数据库中。l搜索引擎普遍借鉴了传统信息检索中的索引模型,搜索引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。例包括倒排文档、矢量空间模型、概率模型等。例l索引器的输出是索引表,它一般使用倒排形式索引器的输出是索引表,它一般使用倒排形式(Inversion List),即由索引项查找相应的文档。),即由索引项查找相应的文档。索引表也可能记录索引项在文档中出现的位置,以索引表也可能记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系便检索器计算索引项之间的相邻或接近关系(prox

81、imity)。索引器可以使用集中式索引算法或)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现实时分布式索引算法。当数据量很大时,必须实现实时索引(索引(Instant Indexing),否则就无法跟上信息量),否则就无法跟上信息量急剧增加的速度。索引算法对索引器的性能(如大急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。搜索引擎的有效性在很大程度上取决于索引的质量。 4. 检索器 l检索器的功能是根据用户的查询在索引库中快速检检索器的功能

82、是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机出的结果进行排序,并实现某种用户相关性反馈机制。制。l检索器常用的信息检索模型有集合理论模型、代数检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种,可以查询到文模型、概率模型和混合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文中。本信息中的任意字词,无论出现在标题还是正文中。 l检索器从索引中找出与用户查询请求相关的文档,检索器从索引中找出与用户查询请求相关的文档,采用与分析索引文档相识

83、的方法来处理用户查询请采用与分析索引文档相识的方法来处理用户查询请求。求。5. 用户接口 l用户接口的作用是为用户提供可视化的查询输入和用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用户输入查询条件、显示查询结果输出界面,方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等,其主要目的是结果、提供用户相关性反馈机制等,其主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效的信息。引擎中得到有效的信息。l用户接口的设计和实现必须基于人机交互的理论和用户接口的设计和实现必须基于人机交互的理论和方法,以适应人类的思维

84、和使用习惯。方法,以适应人类的思维和使用习惯。 10.7 句子的自动理解句子的自动理解(Automatic Understanding of Sentences)10.7.1 简单句的理解方法简单句的理解方法 为了理解一个简单句,需要做以下两方面 的工作:l理解语句中的每一个词。l以这些词为基础组成一个可以表达整个语句意义的结构。其中第二项工作又可分成以下3个部分来进行: l句法分析将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。l语义分析各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对象之间进行映射变换。l语用分析为确定真正含义,对表达的结构重新加以解释

85、。10.7.2 复合句的理解方法复合句的理解方法 复合句的理解,要求发现句子之间的相互关系。这种关系包括以下几种:v 相同的事物v 事物的一部分v 行动的一部分v 与行动有关的事物v 因果关系v 计划次序 10.8 语言的自动生成语言的自动生成(Automatic Generation of Language) 语言生成就是把在计算机内部以某种形式存放的需要交流的信息,以自然语言的形式表达出来 。 语言生成是自然语言理解的一个逆过程。一般包括以下两部分: 建立一种结构,以表达出需要交流的信息 以适当的词汇和一定的句法规则,把要交流的信息以句子形式表达出来10.9 自然语言理解系统应用举例自然语

86、言理解系统应用举例(Application Examples of Natural Language Understanding Systems)10.9.1 自然语言自动理解系统自然语言自动理解系统 l指挥机器人的自然语言理解系统SHRDLU SHRDLU系统是由MIT研制的,这个系统能用自然语言来指挥机器手在桌面上摆弄积木,按一定的要求重新安排积木块的空间位置。l自然语言情报检索系统LUNAR LUNAR系统是由伍兹于1972年研制成功的一个自然语言情报检索系统,具有语义分析能力。 10.9.2 自然语言问答系统自然语言问答系统 简单的自然语言问答系统,至少要做简单的自然语言问答系统,至少

87、要做3 3件事:件事:分分析析一一语语句句,同同时时构构造造它它的的逻逻辑辑表表示示,检检查查它它的的语语义义正正确性。确性。如果可能的话,转换该逻辑形式为如果可能的话,转换该逻辑形式为HornHorn子句。子句。如如果果该该语语句句是是陈陈述述句句,则则在在知知识识库库中中增增加加该该子子句句,否否则则认为该子句为一个问题,并演绎地检索相应的答案。认为该子句为一个问题,并演绎地检索相应的答案。 此3项功能主要由谓词talk完成,talk的定义是: talk(Sentence,Reply): -Parse(Sentence,LF,-Type), clausify(LF,Clause,Freev

88、ars),!, reply(Type,Ereevars,Clause,Reply). talk(Sentence,error(too difficult). 上述定义中引出 3 个谓词,即parse, clausify, reply分别对应上述 3 项功能。l谓词parse表达句法分析能力 parse主要根据文法规则记号系统的规定,执行分析和转换任务,给出相应的逻辑表示和该语句的类型l谓词clausify表达生成子句的能力 l谓词reply表达回答功能 小结小结(Summary) l 自然语言理解是一个困难的和富有挑战性的研究任务,它需要大量的和广泛的知识。l 自然语言理解分解为语音分析、语法分析、句法分析和语义分析等层次。l 句法分析方法包括句法模式匹配、转移网络、扩充转移网络和词汇功能语法(LFG)等。l语言自动生成是语言自动理解的逆过程,其难点在于如何把要交流的信息表示为机器内部的一种结构。 l举出了自然语言理解系统的2个应用实例,即自然语言自动理解系统以及自然语言问答系统。从这些实例可以看到自然语言理解的重要作用。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号