第三章自然语言的处理PPT课件

资源描述

《第三章自然语言的处理PPT课件》由会员分享，可在线阅读，更多相关《第三章自然语言的处理PPT课件（156页珍藏版）》请在金锄头文库上搜索。

1、第第3章章自然语言的处理自然语言的处理2021/7/2413.1 基本概念基本概念2021/7/242信息的主要载体语言信息的主要载体语言语言的两种形式文字和声音语言的两种形式文字和声音文字和声音作为语言的两个不同形式的载体，所承文字和声音作为语言的两个不同形式的载体，所承载的信息占整个信息组成的载的信息占整个信息组成的90以上。以上。如何让计算机实现人们希望实现的语言处理功能如何让计算机实现人们希望实现的语言处理功能？如何让计算机真正实现海量的语言信息的自动处如何让计算机真正实现海量的语言信息的自动处理和有效利用？理和有效利用？2021/7/243自然语言处理自然语言处理（Natu

2、ralLanguageProcessing，简，简称称NLP）是利用计算机为工具，对人类特有的书）是利用计算机为工具，对人类特有的书面形式和口头形式的自然语言的信息进行各种类面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。型处理和加工的技术。冯志伟冯志伟自然语言的计算机处理自然语言的计算机处理NLP是用计算机通过可计算的方法对自然语言的是用计算机通过可计算的方法对自然语言的各级语言单位（字、词、语句、篇章等）进行转各级语言单位（字、词、语句、篇章等）进行转换、传输、存储、分析等加工处理的理论和方法。换、传输、存储、分析等加工处理的理论和方法。2021/7/244其它名称其它名称

3、自然语言理解自然语言理解(Natural Language Understanding) 计算语言学计算语言学(Computational Linguistics) 现代语言学的一大分支，它是用计算机理现代语言学的一大分支，它是用计算机理解、生成和处理自然语言，即它的研究范解、生成和处理自然语言，即它的研究范围不仅涵盖语言信息的处理，还包括语言围不仅涵盖语言信息的处理，还包括语言的理解和生成。的理解和生成。2021/7/245研究语言的目的研究语言的目的研究语言的目的研究语言的目的为为语语言言构构造造出出足足够够精精细细的的计计算算模模型型，以以便便能能够够写写出出由计算机程序来完成的涉及自然

4、语言的各种任务。由计算机程序来完成的涉及自然语言的各种任务。计算模型的用途计算模型的用途作为科学研究的目的可以探索语言交流的本质；作为科学研究的目的可以探索语言交流的本质；作为实用的目的能够实现有效的人机通信。作为实用的目的能够实现有效的人机通信。终极目标终极目标能能够够给给出出一一些些模模型型，这这些些模模型型在在完完成成阅阅读读、写写作作、听、说等任务时能够接近人的行为。听、说等任务时能够接近人的行为。2021/7/246 不不关关注注与与所所使使用用的的特特定定媒媒介介相相关关的的问问题题，例例如如手手写写输输入入、键键盘盘输输入入或或语语音音输入的问题。输入的问题。关注关注在词语识别

5、完成后理解和使用在词语识别完成后理解和使用语言的过程。语言的过程。 2021/7/247NLP的历史的历史u20世纪世纪50年代起步年代起步u提出机器翻译等重要问题提出机器翻译等重要问题u50年代年代-60年代采用模式匹配法和文法分析方法年代采用模式匹配法和文法分析方法u对基于理解和基于统计方法的讨论对基于理解和基于统计方法的讨论u60年代后期衰落年代后期衰落u70-80年代采用了面向受限域的深入理解方法年代采用了面向受限域的深入理解方法u80年代后期至今统计方法占据主流年代后期至今统计方法占据主流u大规模语料可用，计算机性能大幅提高大规模语料可用，计算机性能大幅提高u互联网的迅速发展为互联网

6、的迅速发展为NLP提供了实验数据来源和新的应提供了实验数据来源和新的应用场景用场景2021/7/2483.2 自然语言处理技术可以为我们做自然语言处理技术可以为我们做什么？什么？1、信息检索、信息检索http:/.hk微软：微软：106,000,000条（条（8年前年前2,060,000条）条）微软，亚洲研究院：微软，亚洲研究院：1,060,000条条微软，亚洲研究院，研究方向：微软，亚洲研究院，研究方向：116,000条条微软，亚洲研究院，自然语言处理：微软，亚洲研究院，自然语言处理：38,900条条08年年7月一万亿个网页，每天数十亿增加月一万亿个网页，每天数十亿增加获得的信息只有获得的信

7、息只有1被有效利用被有效利用2021/7/249“框框”计算计算“框计算框计算”是是20092009年年8 8月月1818日，百度董事长兼首席日，百度董事长兼首席执行官李彦宏在执行官李彦宏在20092009百度百度技术创新大会上所提出的技术创新大会上所提出的全新技术概念。用户只要全新技术概念。用户只要在在“百度框百度框”中输入服务中输入服务需求，系统就能明确识别需求，系统就能明确识别这种需求，并将该需求分这种需求，并将该需求分配给最优的内容资源或应配给最优的内容资源或应用提供商处理，最终精准用提供商处理，最终精准高效地返回给用户相匹配高效地返回给用户相匹配的结果。这种高度智能的的结果。这种高度

8、智能的互联网需求交互模式，以互联网需求交互模式，以及及“最简单可依赖最简单可依赖”的信的信息交互实现机制与过程，息交互实现机制与过程，称之为称之为“框计算框计算”。2021/7/24102、借助于语言信息处理的、借助于语言信息处理的web智能智能http:/ 如如“给我找出所有有关在给我找出所有有关在1986年到年到1990年之间曾经年之间曾经尝试而最终失败且金额超过尝试而最终失败且金额超过1亿美元的融资收买的亿美元的融资收买的文章。文章。” 处理方法：处理方法： 1 1、对数据库的每篇文章建立一种表示形式、对数据库的每篇文章建立一种表示形式 2 2、这种表示形式能用于后续的推理、这种表示形式

9、能用于后续的推理 5、复杂的检索任务、复杂的检索任务2021/7/2417输入：美欧贸易摩擦升级输入：美欧贸易摩擦升级识别结果：美欧贸易摩擦识别结果：美欧贸易摩擦生机生机输入：新技术的发展日新月异输入：新技术的发展日新月异识别结果：新识别结果：新纪录纪录的发展日新月异的发展日新月异6、语音识别、语音识别2021/7/2418信息过滤，信息安全信息过滤，信息安全文摘生成文摘生成问答系统，人机交互问答系统，人机交互语言教学语言教学文字输入，文字编辑与排版文字输入，文字编辑与排版语音翻译语音翻译网络内容管理与知识发现网络内容管理与知识发现 2021/7/24191.3 关于关于“理解理解”的理解的理

10、解他说：他说：“她这个人真有意思她这个人真有意思(funny)”。她说：。她说：“他这个人怪有意思的他这个人怪有意思的(funny)”。于是人们以为他们。于是人们以为他们有了意思有了意思(wish)，并让他向她意思意思，并让他向她意思意思(express)。他。他火了：火了：“我根本没有那个意思我根本没有那个意思(thought)”！她也生气！她也生气了：了：“你们这么说是什么意思你们这么说是什么意思(intention)”？事后有？事后有人说：人说：“真有意思真有意思(funny)”。也有人说：。也有人说：“真没意真没意思思(nonsense)”。生活报生活报1994.11.13.第六版第

11、六版2021/7/2420人脑对语言的理解是一个复杂的思维过程。人脑对语言的理解是一个复杂的思维过程。自然语言理解技术同多个学科有着千丝万缕的关系。自然语言理解技术同多个学科有着千丝万缕的关系。语言学：研究语言本身的结构语言学：研究语言本身的结构语言心理学：语言心理学：研究人类生成和理解语言的过程研究人类生成和理解语言的过程逻辑学：逻辑学：计算机科学计算机科学人工智能人工智能数学与统计学数学与统计学 2021/7/2421一种测试一种测试机器机器是不是具备是不是具备人类智能人类智能的方法。的方法。图灵测试图灵测试2021/7/24221.4 自然语言理解研究的基本问题自然语言理解研究的基本问题

12、研究的层次研究的层次语法学：研究语句的组成结构，包括词和短语语法学：研究语句的组成结构，包括词和短语在语句中的作用等。在语句中的作用等。为什么一句话可以这么说也可以那么说？为什么一句话可以这么说也可以那么说？2021/7/2423研究的层次研究的层次语义学：研究如何从一个语句中推导词的意义，语义学：研究如何从一个语句中推导词的意义，以及这些词在该语句中句法结构中的作用来推导出该以及这些词在该语句中句法结构中的作用来推导出该语句的意义。语句的意义。这句话说了什么？这句话说了什么？(1)今天中午我吃食堂。今天中午我吃食堂。(2)这个人真牛。这个人真牛。(3)这个人眼下没些什么，那个人嘴不太好。这

13、个人眼下没些什么，那个人嘴不太好。2021/7/2424研究的层次研究的层次语用学：研究在不同上下文中的语句的应用，语用学：研究在不同上下文中的语句的应用，以及上下文对语句理解所产生的影响。以及上下文对语句理解所产生的影响。为什么要说这句话？为什么要说这句话？（1）火，火！）火，火！（2）A:看看鱼怎么样了？看看鱼怎么样了？B:我刚才翻了一下。我刚才翻了一下。2021/7/2425自然语言理解的基本模型自然语言理解的基本模型2021/7/2426汉语的特点：汉语的特点：p汉语是大字符集（汉语是大字符集（GBK字符集字符集）的意音文字（图形）的意音文字（图形符号既代表语素，又代表音节的文字系统）

14、；符号既代表语素，又代表音节的文字系统）；p汉语词与词之间没有空格，没有形态变化；汉语词与词之间没有空格，没有形态变化；p汉语的同音词较多；汉语的同音词较多；p字形复杂；字形复杂；p汉语的语法研究尚未规范化；汉语的语法研究尚未规范化；p汉语的语言学知识的量化与形式化工作滞后。汉语的语言学知识的量化与形式化工作滞后。1.5 汉语的自然语言理解汉语的自然语言理解英语只有英语只有26 个字母个字母,中文却有中文却有44 908 个汉字个汉字(中华大辞典中华大辞典) 。英语有。英语有1500 年历史年历史牛津英语辞典牛津英语辞典收词收词40 多万条。汉语长达六千多年历史多万条。汉语长达六千多年历史中华

15、大辞典中华大辞典收词六十多万条收词六十多万条,比英比英语多语多50 %。这一特性为汉字的输入。这一特性为汉字的输入和计算机编码造成了极大的困难。和计算机编码造成了极大的困难。西方语言的形态对于计算机来说就是西方语言的形态对于计算机来说就是标记；汉语以字为基本单位，词之间标记；汉语以字为基本单位，词之间没有明显的标记，需要词的切分，而没有明显的标记，需要词的切分，而分词本身有一定的错误率，降低了后分词本身有一定的错误率，降低了后续处理的实际效果。汉语词本身没有续处理的实际效果。汉语词本身没有性、数、格、时态变化等形态标志，性、数、格、时态变化等形态标志，给语义分析增加了困难。给语义分析增加了困难

16、。方块汉字由象形文字演化而方块汉字由象形文字演化而来，汉字字形的信息量较大，来，汉字字形的信息量较大，给计算机的内部信息压缩和给计算机的内部信息压缩和文字显示制造了困难。文字显示制造了困难。汉语句子中词序虽同可能意义迥异；虚词汉语句子中词序虽同可能意义迥异；虚词并非非用不可，特别是在口语里，虚词更并非非用不可，特别是在口语里，虚词更少，因此虚词只能是解决词与词、句与句少，因此虚词只能是解决词与词、句与句关系问题的辅助手段；关系问题的辅助手段；“意合意合” 包含着许包含着许多语言环境、语言背景和语言风格知识以多语言环境、语言背景和语言风格知识以及缺省问题，如何全面把握有关意义的诸及缺省问题，如何

17、全面把握有关意义的诸项要素，并把它形式化，是最大的难题。项要素，并把它形式化，是最大的难题。2021/7/24271、交集型切分歧义问题交集型切分歧义问题乒乓球乒乓球/拍拍卖卖/完完/了了乒乓球乒乓球拍拍/卖卖/完完/了了美美国国/会通过对台售武法案会通过对台售武法案美美/国国会会/通过对台售武法案通过对台售武法案汉语自然语言理解的难点汉语自然语言理解的难点2021/7/24282、未登录词（新词）问题未登录词（新词）问题汉语词典中未列入的词汉语词典中未列入的词包括：包括：专专有有名名词词：中中文文人人名名、地地名名、机机构构名名称称、外外国国译译名、时间词名、时间词重叠词：高高兴兴

18、重叠词：高高兴兴派生词：一次性用品派生词：一次性用品专业术语：互联网专业术语：互联网2021/7/24293、词性岐义问题、词性岐义问题多多词词性性和和多多词词义义是是语语言言的的一一种种普普遍遍现现象象，汉汉语语这这种现象比西方语言严重得多。种现象比西方语言严重得多。和和根根据据现现代代汉汉语语词词典典，可可以以有有五五种种读读音音：he2；he4；hu2；huo2；huo4 六六种种词词性性：名名词词、形形容容词词、连连词词、动动词词、介介词词、量词量词十六种不同的词义十六种不同的词义2021/7/24304、否定词和语义上的混乱、否定词和语义上的混乱汉汉语语上上的的否否定定词词“不

19、不”有有时时并并不不表表示示否否定定。相相反反，反而会更肯定。反而会更肯定。如：如：“可不是可不是”比比“可是可是”更可是。更可是。2021/7/24315、汉语的岐义结构（短语歧义）、汉语的岐义结构（短语歧义）岐岐义义结结构构是是句句子子自自生生固固有有的的，必必须须在在整整个个语语境境环环境下才可能消歧，自动消歧是很难的。境下才可能消歧，自动消歧是很难的。u彩色铅笔盒子彩色铅笔盒子彩色彩色铅笔盒子铅笔盒子彩色铅笔彩色铅笔盒子盒子u他在看病他在看病他在给别人看病他在给别人看病大夫给他看病大夫给他看病2021/7/24326、汉语的词义岐义、汉语的词义岐义l打打乒乓球乒乓球l打打电话电话l打打

20、毛衣毛衣7、语用岐义、语用岐义你真讨厌！你真讨厌！2021/7/24331.6 自然语言处理技术自然语言处理技术2021/7/2434如何描述一种语言？如何描述一种语言？u穷举：穷举：u给出语言中所有的句子；给出语言中所有的句子；u只适合含有有限多个句子的语言。只适合含有有限多个句子的语言。u文法：文法：u给出可以生成语言中所有句子的方法；给出可以生成语言中所有句子的方法；u当且仅当能够用该方法产生的句子属于该语言。当且仅当能够用该方法产生的句子属于该语言。u自动机：自动机：u给出识别该语言中句子的机械方法；给出识别该语言中句子的机械方法；u可以检验输入句子是否属于该语言。可以检验输入句子是否

21、属于该语言。2021/7/2435按技术路线分为：按技术路线分为：基于语言学规则的语言处理技术基于语言学规则的语言处理技术基于统计的语言处理技术基于统计的语言处理技术两者结合两者结合 2021/7/24361、基于语言学规则的语言处理技术、基于语言学规则的语言处理技术通过对语言学知识的形式化、形式化规则的算法通过对语言学知识的形式化、形式化规则的算法化，以及算法实现等步骤将语言学知识转化为计化，以及算法实现等步骤将语言学知识转化为计算机可以处理的形式。算机可以处理的形式。强调语言学家对语言现象的认识。强调语言学家对语言现象的认识。采用非歧义的规则形式描述或解释歧义行为或歧采用非歧义的规则形式

22、描述或解释歧义行为或歧义特性。义特性。理性主义方法理性主义方法2021/7/2437语言学家语言学家：撰写：撰写“规则库规则库”（包括（包括“词典词典”）计算机学家计算机学家：编写算法程序，对：编写算法程序，对“规则库规则库”进行解进行解释和执行。释和执行。2021/7/24382、基于统计的语言处理技术、基于统计的语言处理技术从大规模真实语料库中获得各级语言单位上的统计从大规模真实语料库中获得各级语言单位上的统计信息，并依据较低级语言单位上的统计信息，用相信息，并依据较低级语言单位上的统计信息，用相关的统计推理技术计算较高级语言单位上的统计信关的统计推理技术计算较高级语言单位上的统计信息。息

23、。注重用数学方法注重用数学方法概率论与数理统计。概率论与数理统计。能从代表自然语言规律的大规模真实文本中发现知能从代表自然语言规律的大规模真实文本中发现知识，抽取语言现象或统计规律（从大量的语言数据识，抽取语言现象或统计规律（从大量的语言数据中获得语言的知识结构）。中获得语言的知识结构）。经验主义方法经验主义方法2021/7/2439语言学家语言学家：建立：建立“语料库语料库”经科学取样和加工的经科学取样和加工的大规模电子文本库。大规模电子文本库。存放的是在语言的实际使用中真实出现过的语言材料；存放的是在语言的实际使用中真实出现过的语言材料；以电子计算机为载体承载语言知识的基础资源；以电子计

24、算机为载体承载语言知识的基础资源；真实语料需要经过加工（分析和处理），才能成为有用的真实语料需要经过加工（分析和处理），才能成为有用的资源。资源。计算机学家计算机学家：建立统计模型：建立统计模型利用语料库训练模型参数利用语料库训练模型参数编写算法解决问题编写算法解决问题2021/7/2440二者区别二者区别研究对象不同研究对象不同u基于规则的方法主要研究人的语言知识结构，实际基于规则的方法主要研究人的语言知识结构，实际的语言数据只提供了这种内在知识的间接证据。的语言数据只提供了这种内在知识的间接证据。u基于统计的方法研究对象就是实际的语言数据。基于统计的方法研究对象就是实际的语言数据。20

25、21/7/2441二者区别二者区别理论基础不同理论基础不同u基于规则的方法是基于乔姆斯基的语言理论基于规则的方法是基于乔姆斯基的语言理论的。通过语言所必须遵守的一系列原则来描的。通过语言所必须遵守的一系列原则来描述语言，以此判断一个句子是正确的还是错述语言，以此判断一个句子是正确的还是错误的。误的。u基于统计的方法基于香农的信息论。将语言基于统计的方法基于香农的信息论。将语言事件赋予概率，作为其可信度，由此来判断事件赋予概率，作为其可信度，由此来判断一个句子是常见的还是罕见的。一个句子是常见的还是罕见的。2021/7/2442二者区别二者区别范围不同范围不同u基于规则的方法通过对一些特定领域或

26、范围基于规则的方法通过对一些特定领域或范围内的语言现象的研究来得到对人的语言能力内的语言现象的研究来得到对人的语言能力的认识，而这些语言现象在实际应用中可能的认识，而这些语言现象在实际应用中可能并不常见。并不常见。u基于统计的方法偏重于对语料库中人们实际基于统计的方法偏重于对语料库中人们实际使用的普通语言现象的统计表述。使用的普通语言现象的统计表述。2021/7/2443二者区别二者区别方法不同方法不同u基于规则的方法：符号处理系统。基于规则的方法：符号处理系统。u基于统计的方法偏重于对语料库中人们实际基于统计的方法偏重于对语料库中人们实际使用的普通语言现象的统计表述。使用的普通语言现象的统计

27、表述。2021/7/24441.7 基于语言学规则的语言处理技术基于语言学规则的语言处理技术规则举例规则举例新词抽取的常规规则新词抽取的常规规则：1、If(pos(A)=NAND(pos(B)=VORpos(B)=Aorpos(B)=NORpos(B)=Q)ThenABisnew该规则表示该规则表示:如果由两个词构成的二元组中如果由两个词构成的二元组中A为名词，为名词，而而B为动词或形容词或名词或量词，则将该二元组做为动词或形容词或名词或量词，则将该二元组做标记，认为是新词。标记，认为是新词。2、If(pos(A)=VANDpos(B)=A)ThenABisnew例如：减肥，模仿秀例如：减肥，

28、模仿秀2021/7/2445分词结果中含词数最少分词结果中含词数最少等价于在有向图中搜索最短路径等价于在有向图中搜索最短路径方法：最小匹配算法方法：最小匹配算法n分段；分段；n逐段统计最短路径（逐段统计最短路径（ dijkstra算法：用于计算一个节算法：用于计算一个节点到其他所有节点的最短路径）；点到其他所有节点的最短路径）；n得到若干分词结果：得到若干分词结果：n发展发展/中中/国家国家n发展发展/中国中国/家；家；n统计排歧。统计排歧。最少分词问题最少分词问题2021/7/24462021/7/2447按处理对象的不同，可分为：按处理对象的不同，可分为：1、字字处理技术处理技术2、词词处

29、理技术处理技术词是自然语言中最小的有意义的构成单位，词是自然语言中最小的有意义的构成单位，是最基本的研究对象。词处理主要包括分词、词是最基本的研究对象。词处理主要包括分词、词性标注、词义消歧。性标注、词义消歧。3、语句语句处理技术处理技术4、篇章篇章处理技术处理技术2021/7/2448基于规则的句法分析理论和方法基于规则的句法分析理论和方法uChomsky的形式语言理论的形式语言理论u上下文无关文法上下文无关文法u转移生成文法转移生成文法u扩充转移网络扩充转移网络2021/7/24491、chomsky的形式语言理论的形式语言理论2021/7/24502021/7/24512021/7/2

30、4522021/7/2453用用G表示形式语法，表示形式语法，G定义为四元组：定义为四元组：G=（Vn,Vt,S,P）（1）Vt：终结符集合。：终结符集合。是一个形式语言的基本符号。它们能在是一个形式语言的基本符号。它们能在一个形式语法的推导规则的输入或输出字符串存在，而且它一个形式语法的推导规则的输入或输出字符串存在，而且它们不能被分解成更小的单位。一个语法的规则不能改变终结们不能被分解成更小的单位。一个语法的规则不能改变终结符符。下面的语法有两个规则：下面的语法有两个规则：xxaxax在这种语法之中，在这种语法之中，a是一个终结符，因为没有规则可以把是一个终结符，因为没有规则可以把a变变成

31、别的符号。不过，有两个规则可以把成别的符号。不过，有两个规则可以把x变成别的符号，所变成别的符号，所以以x是非终结符。一个形式语法所推导的形式语言必须完全是非终结符。一个形式语法所推导的形式语言必须完全由终结符构成。由终结符构成。短语结构语法短语结构语法2021/7/2454（2）Vn：非终结符集合：非终结符集合，是可以被取代的符号，不能处于生，是可以被取代的符号，不能处于生成过程的终点，即在实际句子中不出现。在上下文无关文法成过程的终点，即在实际句子中不出现。在上下文无关文法中，每个推导规则的左边只能有一个非终结符而不能有两个中，每个推导规则的左边只能有一个非终结符而不能有两个以上的非终结符

32、或终结符。以上的非终结符或终结符。（3）S：起始符号。：起始符号。一个语法中必须有一个起始符号，这个起一个语法中必须有一个起始符号，这个起始符号属于非终结符的集合。始符号属于非终结符的集合。（4）P：重写规则，也叫做产生式规则集合：重写规则，也叫做产生式规则集合（产生式的形式是产生式的形式是P Pa a）。）。2021/7/2455采用短语结构语法对英语子集语法的描述采用短语结构语法对英语子集语法的描述G=（Vn,Vt,S,P）Vn=S，NP，VP，PP，N，V，Prep，Det；Vt=the,girl,letter,pencil,write,witha；S=s；P：uSNPVP.该规则表示该

33、规则表示“句子句子”由由“名词短语名词短语动词短动词短语语”组成组成uNPDetN.该规则表示该规则表示“名词短语名词短语”由由“冠词冠词名词名词”组成组成uVPVPPP.该规则表示该规则表示“动词短语动词短语”由由“动词短语动词短语介词短语介词短语”组成组成2021/7/2456uVPVNP.该规则表示该规则表示“动词短语动词短语”由由“动动词词名词短语名词短语”组成组成uPPPrepNP.该规则表示该规则表示“介词短语介词短语”由由“介介词词名词短语名词短语”组成组成uDetthe|a.该规则表示该规则表示“冠词冠词”由由the或或a组组成成uNgirl|letter|pencil.该规则

34、表示该规则表示“名词名词”由由girl或或letter或或pencil组成组成uVwrite.该规则表示该规则表示“动词动词”由由write组成组成uPrepwith.该规则表示该规则表示“介词介词”由由with组成组成2021/7/2457n在对一个句子分析过程中，如果把分析句子各成分在对一个句子分析过程中，如果把分析句子各成分间关系的推导过程用树形图表示出来的话，那么这间关系的推导过程用树形图表示出来的话，那么这种图称作句法分析树。种图称作句法分析树。n对句子对句子“thegirlwritestheletterwithapencil”进行进行分析的语法树如下：分析的语法树如下：句法分析树句

35、法分析树语法树中的叶子结点语法树中的叶子结点语法树中的叶子结点语法树中的叶子结点即为分析的句子。即为分析的句子。即为分析的句子。即为分析的句子。2021/7/2458例：已知汉语句子的分词和词性标注结果如下：例：已知汉语句子的分词和词性标注结果如下：他他/PRON教教/V我我/PRON学学/V日语日语/N请画出该句子的语法树，并给出上下文无关规则。请画出该句子的语法树，并给出上下文无关规则。G=（Vt,Vn,S,P）Vn=S，PRON，V，OBJECT，NVt=他他,教教,我我,学学,日语日语S=SP:SPRONVOBJECTOBJECTN|SPRON他他|我我V教教|学学N日语日语PRON主

36、语主语OBJECT宾语宾语2021/7/24592021/7/24602021/7/24610型文法（型文法（type 0 grammar）2021/7/2462上下文有关文法（上下文有关文法（CSG）如果所有产生式都有右边部分长度如果所有产生式都有右边部分长度大于等于左边部分，那么大于等于左边部分，那么G是上下是上下文有关文法文有关文法2021/7/2463上下文无关文法（上下文无关文法（CFG）如果如果所有产生式的左边如果如果所有产生式的左边部分都是单个非终极符号，部分都是单个非终极符号，那么那么G是上下文无关文法是上下文无关文法2021/7/2464正则文法（正则文法（RG）2021/7

37、/2465如果所有产生式的右边部分如果所有产生式的右边部分都是以终极符号开始、含有都是以终极符号开始、含有至多一个非终极符号、如果至多一个非终极符号、如果有非终极符号则出现在最右有非终极符号则出现在最右边，那么边，那么G是正则文法。是正则文法。2021/7/24662021/7/2467请判断以下文法的类型请判断以下文法的类型G1:G1: SCDSCDAbbAAbbACaCACaCABaaBBaaBCbCB CbCB BbbBBbbBADaD ADaD CaCaBDbD BDbD DbDbAabDAabDG1G1是上下文有关文法是上下文有关文法2021/7/2468请判断以下文法的类型请判断以

38、下文法的类型G2:SaB,G2:SaB,AbAAAbAASbA, SbA, BbBbAa, Aa, BbSBbSAaS,AaS,BaBBBaBBG2G2是上下文无关文法是上下文无关文法2021/7/2469请判断以下文法的类型请判断以下文法的类型G3:S0A G3:S0A A1BA1B S1B S1B B1B B1B S0 B1 S0 B1 A0A A0A B0 B0 A0S A0SG3G3是正则文法是正则文法2021/7/2470自动机自动机2021/7/2471文法、语言和自动机文法、语言和自动机2021/7/24722、上下文无关文法、上下文无关文法2021/7/24732021/7/2

39、4742021/7/24752021/7/24762021/7/24772021/7/24782021/7/24792021/7/24802021/7/24812021/7/24822021/7/24832021/7/24842021/7/24852021/7/24862021/7/24873、转换生成文法、转换生成文法2021/7/24882021/7/24892021/7/24902021/7/24912021/7/24924、扩充转移网络、扩充转移网络2021/7/2493（1）有限状态转移网络）有限状态转移网络u以冠词以冠词“The”开头的一类名词短语开头的一类名词短语NP的转移网络，

40、它可以的转移网络，它可以拥有零个或多个形容词；最后以一个名词结尾。拥有零个或多个形容词；最后以一个名词结尾。u组成：一组状态（或称结点）和一组弧组成。组成：一组状态（或称结点）和一组弧组成。u例子：输入例子：输入“theprettypicture”。从起始状态从起始状态NP开始，只有一条标注着开始，只有一条标注着“the”的外射弧。由于输入串中的的外射弧。由于输入串中的the能同它匹配，所以能同它匹配，所以“the”从输入串中删除，过程进入图中的状态从输入串中删除，过程进入图中的状态NP1。此时输入串是此时输入串是“prettypicture”，由于第一个，由于第一个“pretty”的词类是的

41、词类是ADJ，同标注同标注ADJ的弧匹配，于是的弧匹配，于是“pretty”从输入串中删除，但沿着从输入串中删除，但沿着ADJ弧转弧转移的结果是再次回到这个移的结果是再次回到这个NP1状态。状态。此时输入串只剩下此时输入串只剩下“picture”，由于它是一个名词，因此发生了沿，由于它是一个名词，因此发生了沿N弧弧前进到结束状态的转移。输入串成为空串，分析成功。前进到结束状态的转移。输入串成为空串，分析成功。2021/7/24942021/7/2495这个句子的识别还可以在网络中走其它弧，如由这个句子的识别还可以在网络中走其它弧，如由状态状态c输入输入“swallow”也可以走弧也可以走弧cd

42、，但接下，但接下来输入来输入“flies”时就被拒绝识别了。由此可看时就被拒绝识别了。由此可看出网络识别的过程应找出各种可能的路径，因出网络识别的过程应找出各种可能的路径，因此算法要采用此算法要采用并行算法或回溯算法并行算法或回溯算法。2021/7/2496(1)(1)并行算法。并行算法的关键是在任何一个状态并行算法。并行算法的关键是在任何一个状态都要选择所有可以到达下一个状态的弧都要选择所有可以到达下一个状态的弧, ,同时进同时进行试验。行试验。(2)(2)回溯算法。回溯算法则是在所有可以通过的弧回溯算法。回溯算法则是在所有可以通过的弧中选出一条往下走中选出一条往下走, ,并保留其他可能性并

43、保留其他可能性, ,以便必要以便必要时可以回过来选择之。这种方式需要一个堆栈结时可以回过来选择之。这种方式需要一个堆栈结构。构。2021/7/24972021/7/2498（2）递归转移网络（）递归转移网络（RTN）l是对是对有限转移网络的一种扩展有限转移网络的一种扩展，在，在RTN中每条弧的中每条弧的标注不仅可以是一个终结符（词或词类），而且可标注不仅可以是一个终结符（词或词类），而且可以是一个用来指明另一个网络名字的非终结符。以是一个用来指明另一个网络名字的非终结符。l例如，下面是一部上下文无关语法：例如，下面是一部上下文无关语法：SNPVNPPP*NPTADJ*NPP*PPPNPX*表示

44、符号表示符号X可以出现可以出现零次或多次。零次或多次。2021/7/24992021/7/24100（3）扩充转移网络（）扩充转移网络（ATN）2021/7/24101 ATN ATN语法属于一种增强型的上下文无关语法，即语法属于一种增强型的上下文无关语法，即用上下文无关文法描述句子文法结构，并同时提供用上下文无关文法描述句子文法结构，并同时提供有效的方式将各种理解语句所需要的知识加到分析有效的方式将各种理解语句所需要的知识加到分析系统中，以增强分析功能，从而使得应用系统中，以增强分析功能，从而使得应用ATNATN的句法的句法分析程序具有分析上下文有关语言的能力。分析程序具有分析上下文有关语言

45、的能力。 ATN ATN主要是对转移网络中的弧附加了过程而得到主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候，附加在该弧上的过程就的。当通过一个弧的时候，附加在该弧上的过程就会被执行。这些过程的主要功能是（会被执行。这些过程的主要功能是（I I）对文法特征对文法特征进行赋值；进行赋值；( (II)II)检查数（检查数（numbernumber）或人称（第一、或人称（第一、二或三人称）条件是否满足，并据此允许或不允许二或三人称）条件是否满足，并据此允许或不允许转移。转移。 2021/7/24102ATN在三方面对在三方面对RTN作了作了扩展扩展和和增强增强：（1）添置了一组）添置了

46、一组寄存器寄存器，用来存储分析过程中得，用来存储分析过程中得到的中间结果和有关信息。到的中间结果和有关信息。例如，例如，“小王研究鲁迅的文章小王研究鲁迅的文章”可能先被分析可能先被分析为为NPVP，但发现后面的词是，但发现后面的词是“发表发表”，则要，则要回到前面的某个转移点重新分析，选择另一条路。回到前面的某个转移点重新分析，选择另一条路。2021/7/24103（2）每条弧上除了用句法范畴来标注以外，可以附）每条弧上除了用句法范畴来标注以外，可以附加任意加任意测试测试，只有当弧上的这种测试成功之后才，只有当弧上的这种测试成功之后才能用这条弧。能用这条弧。2021/7/24104（3）每条弧

47、上还可以附加某些）每条弧上还可以附加某些动作动作，当通过一条，当通过一条弧时，相应的动作便被依次执行，这些动作主要弧时，相应的动作便被依次执行，这些动作主要用来用来设置或修改寄存器的内容设置或修改寄存器的内容。2021/7/24105 例：一个简单的名词短语例：一个简单的名词短语(NP)的扩充转移网的扩充转移网络，络，网络中弧上的条件和操作如下所示：网络中弧上的条件和操作如下所示：2021/7/24106u该网络主要是用来检查该网络主要是用来检查NPNP中的中的数的一致值问题数的一致值问题。u特征特征是是Number(Number(数数),),有两个值：有两个值：singular(sing

48、ular(单数单数) )和和plural(plural(复数复数),),缺省值是缺省值是( (空空) )。uC C是弧上的条件是弧上的条件,A,A是弧上的操作是弧上的操作,*,*是当前词是当前词,proper,proper是专用名词是专用名词, ,detdet是限定词是限定词,PP,PP是介词短语是介词短语,*.Number,*.Number是当前词的是当前词的“数数”。u该扩充转移网络有一个网络名该扩充转移网络有一个网络名NPNP。网络。网络NPNP可以是其可以是其他网络的一个子网络他网络的一个子网络, ,也可以包含其他网络也可以包含其他网络, ,如其中如其中的的PPPP就是一个子网络就是一

49、个子网络, ,这就是网络的递归性。这就是网络的递归性。 2021/7/24107u弧弧NP-1将当前词的将当前词的Number放入当前放入当前NP的的Number中；中；u而弧而弧NP-4则要求当前则要求当前noun的的Number与与NP的的Number是是相同时，或者相同时，或者NP的的Number为空时为空时,将将noun作为作为NP的的Number，这就要求，这就要求det的数和的数和noun的数是一致的。因的数是一致的。因此此thisbook,thebook,thebooks,thesebooks都可顺利通都可顺利通过这一网络过这一网络,但是但是thisbooks,或或thesebo

50、ok就无法通过。就无法通过。u如果当前如果当前NP是一个代词是一个代词(pron.)或者专用名词或者专用名词(proper),那么网络就从那么网络就从NP-5或或NP-6通过通过,这时这时NP的数就是代词或的数就是代词或专用名词的数。专用名词的数。PP是一个修饰前面名词的介词短语是一个修饰前面名词的介词短语,一一旦到达旦到达PP弧就马上转入子网络弧就马上转入子网络PP.2021/7/24108例：一个句子的例：一个句子的ATN,主要用来识别主、被动态的句子。主要用来识别主、被动态的句子。nS网络中所涉及的功能名和特征维包括：网络中所涉及的功能名和特征维包括：n功能名：功能名：Subject(主

51、语主语),Direct-Obj(直接宾语直接宾语),Main-Verb(谓语动谓语动词词),Auxs.(助动词助动词),Modifiers(修饰语修饰语)。n特征维：特征维：nVoice(语态语态)：Active(主动态主动态),Passive(被动态被动态),缺省值是缺省值是Active。nType(动词类型动词类型)：Be,Do,Have,Modal,Non-Aux,缺省值是缺省值是Non-AuxanForm(动词式动词式)：Inf不定式不定式),Present(现在式现在式),Past(过去式过去式),Pres-part(现在分词现在分词),Past-part(过去分词过去分词),缺省值

52、是缺省值是Present。2021/7/241092021/7/24110lSubject即把当前成分放入名为即把当前成分放入名为Subject的功能寄存器的功能寄存器(当前当前成分作主语成分作主语)。l是一种添加操作是一种添加操作,Auxs.Main-Verb就是将当前的谓语动词就是将当前的谓语动词添加到添加到Auxs功能寄存器中功能寄存器中(原来原来Auxs中可能已有内容中可能已有内容)。l在在S网络中网络中,当弧当弧S-2遇到第一个动词时遇到第一个动词时,就把它置入就把它置入Main-Verb,但是在接下来的弧但是在接下来的弧S-3中发现中发现Main-Verb中刚才被置入的是助动中刚才

53、被置入的是助动词词,网络操作就把网络操作就把Main-Verb中的内容添加到中的内容添加到Auxs寄存器的尾部。寄存器的尾部。若若Auxs为空为空,添加操作与赋值是相同的添加操作与赋值是相同的,但是当但是当Auxs非空时非空时(有几有几个助动词个助动词),这即是一个添加操作。另外这即是一个添加操作。另外,网络中有一种网络中有一种dummy节节点点,这是一种空节点这是一种空节点,用来表示一种形式上的或者预示的成分用来表示一种形式上的或者预示的成分,如如形式上的主语等。形式上的主语等。l弧弧S-4和和S-7就是对于被动态句子的分析和处理。弧就是对于被动态句子的分析和处理。弧S-4主要是识主要是识别

54、被动态的谓语动词别被动态的谓语动词,一旦确认是被动态一旦确认是被动态,则将当前的主语作为则将当前的主语作为直接宾语直接宾语,弧弧S-7用来处理被动态句子中用来处理被动态句子中by所引导的介词短语所引导的介词短语,该该介词的宾语就是实际上的主语。介词的宾语就是实际上的主语。2021/7/241112021/7/241121.8 基于统计的语言处理技术基于统计的语言处理技术 n统计语言模型：试图捕获自然语言的统计规统计语言模型：试图捕获自然语言的统计规律以改善各种自然语言应用系统的性能。律以改善各种自然语言应用系统的性能。n广泛应用于语音识别、手写体文字识别、机广泛应用于语音识别、手写体文字识别、

55、机器翻译、键盘输入、信息检索领域。器翻译、键盘输入、信息检索领域。n统计语言建模相当于对各种语言单位如字、统计语言建模相当于对各种语言单位如字、词、句子或整篇文章进行概率分布的估计。词、句子或整篇文章进行概率分布的估计。2021/7/24113概率概率2021/7/24114最大似然估计最大似然估计2021/7/24115现代汉语字频统计结果：现代汉语字频统计结果：前前20个最高频汉字及其频率个最高频汉字及其频率2021/7/24116条件概率条件概率2021/7/24117例例2021/7/24118全概率公式全概率公式2021/7/24119贝叶斯定理贝叶斯定理2021/7/24120先验

56、概率、后验概率先验概率、后验概率2021/7/24121例例2021/7/24122解解2021/7/24123定义定义u给定所有可能的句子给定所有可能的句子s，统计语言模型是一个概率分布，统计语言模型是一个概率分布p(s)。u假设一个句子假设一个句子S可以表示为一个序列可以表示为一个序列S=w1w2wn,语言模型就语言模型就是要求句子是要求句子S的概率的概率P(S)：Wi是句中的第是句中的第i个词，个词，hi=w1,w2,wn-1称为历史。称为历史。up(我是一个学生我是一个学生)=p(我，是，一，个，学生我，是，一，个，学生)=p(我我)p(是是|我我)p(一一|我，是我，是)p(个个|我

57、，是，一我，是，一)p(学生学生|我，是，一，个我，是，一，个)2021/7/24124 上述概率的计算量太大，解决问题的方法是将所有历史w1w2wi-1按照某个规则映射到等价类S(w1w2wi-1)，等价类的数目远远小于不同历史的数目，即假定：2021/7/24125由于语言模型的训练文本由于语言模型的训练文本T的规模及其分布存在着的规模及其分布存在着一定的局面性和片面性，许多合理的语言搭配现象一定的局面性和片面性，许多合理的语言搭配现象没有出现在没有出现在T中。中。例如：一个词串例如：一个词串Wi-N+1Wi没有出现在训练文本没有出现在训练文本T中，中，该词串对应的上下文条件概率该词串对应

58、的上下文条件概率p(Wi|Wi-N+1Wi )=0，从而导致该词串所在的语句，从而导致该词串所在的语句S的出现概率的出现概率p(S )=0。2021/7/24126127当前主要语言模型当前主要语言模型uN-gramN-gram模型模型u决策树模型决策树模型u指数模型（最大熵模型）指数模型（最大熵模型）u整句模型整句模型u文法模型文法模型u概率上下文无关文法概率上下文无关文法u链文法链文法u概率依存文法概率依存文法u自适应模型自适应模型2021/7/24127N-gram模型模型u实际应用中，由于严重的数据稀疏和系统处理能力的限制，实际应用中，由于严重的数据稀疏和系统处理能力的限制，统计语言建

59、模只能考虑有限长度的历史。统计语言建模只能考虑有限长度的历史。u数据稀疏问题可能会错误地推导出小概率事件是不重要的。数据稀疏问题可能会错误地推导出小概率事件是不重要的。u当两个历史的最近的当两个历史的最近的N-1个词（或字）相同时，映射两个历个词（或字）相同时，映射两个历史到同一个等价类，在此情况下的模型称之为史到同一个等价类，在此情况下的模型称之为N-Gram模型。模型。uN-Gram模型被称为一阶马尔科夫链。模型被称为一阶马尔科夫链。N的值不能太大，否的值不能太大，否则计算仍然太大。则计算仍然太大。u根据最大似然估计，语言模型的参数：根据最大似然估计，语言模型的参数：u其中，其中，C(w1

60、w2wi)表示表示w1w2wi在训练数据中出现的次数。在训练数据中出现的次数。2021/7/24128u通过将语言模拟成通过将语言模拟成N-1阶马尔科夫源，阶马尔科夫源，N-gram模型模型减少了参数估计的维数：减少了参数估计的维数：uN的选择要考虑参数估计的稳定性和描述能力的折的选择要考虑参数估计的稳定性和描述能力的折衷。衷。u二元语法（二元语法（Bigram）和三元语法）和三元语法Trigram是通常的是通常的选择。选择。2021/7/24129BigramTrigram2021/7/24130N N的选择：可靠性的选择：可靠性 vs. vs. 辨别力辨别力“我我正在正在 _ ” ”讲课

61、讲课? ?图书馆图书馆? ?听课听课? ?学习学习? ?借书借书?“我我正在正在图书馆图书馆 _”_”学习学习? ? 借书借书? 2021/7/24131可靠性可靠性 vs. vs. 辨别力辨别力l更大的更大的n: n: 对下一个词出现的约束性信息对下一个词出现的约束性信息更多，更大的辨别力；更多，更大的辨别力；l更小的更小的n: n: 在训练语料库中出现的次数更在训练语料库中出现的次数更多，更可靠的统计结果，更高的可靠性。多，更可靠的统计结果，更高的可靠性。 2021/7/24132构造方法构造方法p采用语言学家构造的词的语法分类体系，按词性采用语言学家构造的词的语法分类体系，按词性进行

62、词类划分，借助于词性标注技术，构造基于进行词类划分，借助于词性标注技术，构造基于词性的词性的N-POSN-POS模型。模型。p采用词的自动聚类技术，自动构造基于词的自动采用词的自动聚类技术，自动构造基于词的自动聚类的类聚类的类N-gramN-gram模型。模型。2021/7/24133基于词类的基于词类的N-gram模型模型类模型提出的意义：类模型提出的意义：降低模型参数的规模；降低模型参数的规模；数据稀疏问题的一种解决方式。数据稀疏问题的一种解决方式。2021/7/24134几种模型比较几种模型比较基于词的基于词的N-gramN-gram模型模型对近邻语言约束关系的描述能对近邻语言约束关系的

63、描述能力最强，应用程度最为广泛。一般力最强，应用程度最为广泛。一般N N小于等于小于等于3 3，难，难以描述长距离的语言约束关系。以描述长距离的语言约束关系。N-POSN-POS模型模型的参数空间最小，一般不存在数据稀疏问的参数空间最小，一般不存在数据稀疏问题，可以构造高元模型，用于描述长距离的语言约题，可以构造高元模型，用于描述长距离的语言约束关系。但由于词性数目过少，过于泛化，因此限束关系。但由于词性数目过少，过于泛化，因此限制了语言模型的描述能力。制了语言模型的描述能力。自动聚类生成的词类数量介于词和词性的数量之间，自动聚类生成的词类数量介于词和词性的数量之间，由此建立的由此建立的类类N

64、-gramN-gram模型模型，既不存在严重的数据稀，既不存在严重的数据稀疏问题，又不存在过于泛化的问题。疏问题，又不存在过于泛化的问题。2021/7/24135统计语言模型的参数统计语言模型的参数u基于统计的方法基本上使用了隐马尔科夫模型，基于统计的方法基本上使用了隐马尔科夫模型，这样的模型使用了许多参数来参与消除歧义的决这样的模型使用了许多参数来参与消除歧义的决策机制，这些参数必须经过适当的语料进行训练策机制，这些参数必须经过适当的语料进行训练来提取。来提取。u统计模型需要有足够的训练数据来提取参数。统计模型需要有足够的训练数据来提取参数。2021/7/24136统计语言模型的参数学习统计

65、语言模型的参数学习1、有指导的参数学习、有指导的参数学习基于完全数据的极大似然基于完全数据的极大似然估计估计设设Count(x)为模型所预测的一个事件为模型所预测的一个事件x在训练语料中在训练语料中出现的次数，出现的次数， Count(y)为语料中所有入选的相应的为语料中所有入选的相应的条件事件条件事件y的观察数，则模型所描述的事件的观察数，则模型所描述的事件x的概率的概率可以由下式估计：可以由下式估计： f(x)相对频度函数相对频度函数2、无指导的参数学习、无指导的参数学习具有隐含变量的参数训练具有隐含变量的参数训练过程过程所依赖的训练集可以是不完全数据，因而不需事先所依赖的训练集可以是不完

66、全数据，因而不需事先进行人工加工。进行人工加工。2021/7/24137参数训练系统参数训练系统2021/7/24138N-gram模型的概率估计模型的概率估计2021/7/24139数据稀疏数据稀疏2021/7/24140N-gram模型的数据稀疏模型的数据稀疏2021/7/24141Zipf统计定律统计定律相信你一定听过这样的说法：相信你一定听过这样的说法：80%的财富集中在的财富集中在20%的人手中的人手中80%的用户只使用的用户只使用20%的功能的功能20%的用户贡献了的用户贡献了80%的访问量的访问量“二八原则二八原则”或或“20/80原则原则”2021/7/24142如果把所有的单

67、词（字）放在一起看呢？会不会如果把所有的单词（字）放在一起看呢？会不会20%的词（字）占了的词（字）占了80%的出现次数？答案是肯的出现次数？答案是肯定的。定的。Zipf定律：如果把单词出现的频率按由大到小的定律：如果把单词出现的频率按由大到小的顺序排列，则每个单词出现的频率与它的名次的顺序排列，则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系。常数次幂存在简单的反比关系。2021/7/24143降低已出现的降低已出现的n-gram条件概率分布，以使未条件概率分布，以使未出现出现n-gram条件概率分布非条件概率分布非0;又可称为又可称为“折扣方法折扣方法”(Discountingm

68、ethods);数据平滑（数据平滑（Smoothing）2021/7/241442021/7/24145加法平滑加法平滑2021/7/24146Good-Turning估计估计2021/7/24147回退平滑回退平滑2021/7/24148数据平滑的效果数据平滑的效果n数据平滑的效果与训练语料库的规模有关数据平滑的效果与训练语料库的规模有关u数据平滑技术是构造高鲁棒性语言模型的重数据平滑技术是构造高鲁棒性语言模型的重要手段要手段u训练语料库规模越小训练语料库规模越小, ,数据平滑的效果越显著数据平滑的效果越显著u训练语料库规模越大训练语料库规模越大, ,数据平滑的效果越不显数据平滑的效果越不显

69、著著, ,甚至可以忽略不计甚至可以忽略不计2021/7/24149统计语言模型的不足之处统计语言模型的不足之处2021/7/241501.9 自然语言理解研究现状自然语言理解研究现状u近十几年来，统计方法成为了自然语言处理研究近十几年来，统计方法成为了自然语言处理研究的主流方法；的主流方法；u近年来，统计方法和规则方法融合的趋势，统计近年来，统计方法和规则方法融合的趋势，统计模型更加复杂，可以将一些复杂的语言学知识融模型更加复杂，可以将一些复杂的语言学知识融入到统计模型中，克服了早期统计模型无法处理入到统计模型中，克服了早期统计模型无法处理长距离依赖问题的缺陷；长距离依赖问题的缺陷；u统计模型

70、的深入研究，更加需要合适的语言学理统计模型的深入研究，更加需要合适的语言学理论的指导，需要大规模的适用于自然语言处理的论的指导，需要大规模的适用于自然语言处理的语言资源的支持；语言资源的支持；2021/7/24151u中文词语切分技术已经比较成熟，但中文切分的领中文词语切分技术已经比较成熟，但中文切分的领域自适应技术、命名实体识别技术、多粒度切分技域自适应技术、命名实体识别技术、多粒度切分技术等都还有深入研究的必要；术等都还有深入研究的必要；u中文的句法分析和语义角色标注距离英语都还有较中文的句法分析和语义角色标注距离英语都还有较大的差距，主要的困难在于中文缺乏明确的形态标大的差距，主要的困难

71、在于中文缺乏明确的形态标记导致汉语句法分析的困难，句法语义一体化分析记导致汉语句法分析的困难，句法语义一体化分析也许是下一步值得努力的方向；也许是下一步值得努力的方向；u自然语言处理的应用技术，包括信息检索、信息提自然语言处理的应用技术，包括信息检索、信息提取、机器翻译、自动文摘、自动问答等等近年来也取、机器翻译、自动文摘、自动问答等等近年来也取得了非常大的进展，一些技术已经走向实用，甚取得了非常大的进展，一些技术已经走向实用，甚至极大地影响着人们的生活。至极大地影响着人们的生活。2021/7/24152 可以预期：可以预期：自然语言处理还将处于在一个比较长时自然语言处理还将处于在一个比较长时

72、期的快速发展的轨道上，理论上的突破将给我们期的快速发展的轨道上，理论上的突破将给我们带来更多的惊喜，而在应用上也将为满足我们的带来更多的惊喜，而在应用上也将为满足我们的需求作出更大贡献。需求作出更大贡献。2021/7/24153中文自然语言处理技术的主要科目中文自然语言处理技术的主要科目2021/7/24154参考文献参考文献1、宗成庆，统计自然语言处理，清华出版社、宗成庆，统计自然语言处理，清华出版社2、王晓龙、王晓龙，关毅等，关毅等，计算机自然语言处理，清华大学计算机自然语言处理，清华大学出版社出版社2、姚天顺等，、姚天顺等，自然语言理解，自然语言理解，清华大学出版社清华大学出版社3、王小

73、捷，常宝宝，自然语言处理技术基础，北京邮、王小捷，常宝宝，自然语言处理技术基础，北京邮电大学出版社电大学出版社4、江铭虎，自然语言处理，高等教育出版社、江铭虎，自然语言处理，高等教育出版社2021/7/24155本章小结本章小结1、自然语言处理的概念、自然语言处理的概念2、自然语言处理的应用、自然语言处理的应用3、自然语言理解研究的问题、自然语言理解研究的问题4、中文自然语言理解的难点、中文自然语言理解的难点5、自然语言处理的技术自然语言处理的技术u基于规则的自然语言处理基于规则的自然语言处理u基于统计的自然语言处理基于统计的自然语言处理6、自然语言处理的研究现状、自然语言处理的研究现状2021/7/24156

展开阅读全文

第三章自然语言的处理PPT课件

最新文档