文档详情

人工智能ch7-1自然语言处理技术课件幻灯片

E****
实名认证
店铺
PPT
442.50KB
约51页
文档ID:89806898
人工智能ch7-1自然语言处理技术课件幻灯片_第1页
1/51

1,人工智能,,第7章 自然语言处理技术 (1),从自然语言的词法、句法、语义分析的角度介绍了自然语言理解所涉及的主要方面, 介绍了真实文本处理和对话分析问题, 从应用角度阐述了信息检索、机器翻译和语音识别技术2,7.1 自然语言理解的一般问题,7.1.1 概念及意义 自然语言 多义性、 上下文相关性、 模糊性、 非系统性、 环境相关性、 理解与所应用的目标相关 自然语言理解是指从自然语言到机器内部的一个映射(微观); 自然语言是指机器能够执行人类所期望的某些语言功能(宏观)3,功能包括: 回答问题 文摘生成 释义 翻译,4,,书面语理解包括词法、文法和语义分析, 口语理解还需要加上语音分析7.1.2 研究进展,三个时期: 20世纪40和50年代的萌芽时期, 20世纪60和70年代的发展时期 20世纪80年代以后的走向实用化、大规模进行真实文本处理的时期5,美苏等国开展的俄-英和英-俄互译研究工作 Chomsky提出了形式语言和形式文法的概念,把自然语言和程序设计语言置于相同层面,用统一的数学方法来解释和定义20世纪60年代以关键词匹配技术为主的阶段和 20世纪70年代以句法-语义分析为主流技术的阶段。

发展时期的几个著名系统包括1968年出现的SRI和ELIZA系统等6,B. Raphael在美国麻省理工学院完成的SIR(Semantic Information Retrieval)系统,它能记住用户通过英语告诉它的事实,然后对这些事实进行演绎,回答用户提出的问题J.Weizenbaum在美国麻省理工学院设计的ELIZA系统,能模拟一位心理治疗医生(机器)同一位患者(用户)的谈话20世纪70年代,代表系统包括: W.Woods设计的LUNAR, T.Winograd设计的SHEDLU系统,,7,允许用普通英语同数据库对话的人机接口,用于协助地质学家查找、比较和评价阿波罗11飞船带回的月球标本的化学分析数据,在 “积木世界”中进行英语对话的自然语言理解系统,它把句法、推理、上下文和背景知识灵活地结合于一体,模拟一个能够操纵桌子上一些积木玩具的机器人手臂,用户通过人-机对话方式命令机器人放置那些积木块,系统通过屏幕给出回答并显示现场的相应情景大规模真实文本处理时期,20世纪80年代后 著名的人机接口系统有 美国人工智能公司(AIC)生产的英语人-机接口系统Intellect, 美国弗雷公司生产的Themis人-机接口。

有较高水平的翻译系统,包括 欧洲共同体在美国乔治伦敦大学开发的机译系统SYSTRAN的基础上,成功地实现了英、法、德、西、意及葡等多语对的机器翻译系统, 美国的META等系统8,此期间特征 AI和专家系统中的思想, 知识的表示和处理方法, 领域知识和推理机制, 不再局限句法和词法研究, 极大地提高了系统处理的正确性9,为了处理大规模的真实文本,提出了语料库语言学: 20世纪80年代,英国Leech领导的UCREL研究小组,利用已带有词类标记的语料库,经过统计分析得出了一个反映任意两个相邻标记出现频率的“概率转移矩阵” 设计的CLAWS系统依据这种统计信息,对LOB语料库的一百万词的语料进行词类的自动标注,准确率达96% 基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题10,7.1.3自然语言理解的层次,一个文字表达的句子的层次是 词素→词或词形→词组或句子, 声音表达的句子的层次则是 音素→音节→音词→音句, 其中每个层次都受到文法规则的制约 语言的处理过程也应当是一个层次化的过程11,这一过程分为五个层次: 语音分析 词法分析 句法分析 语义分析 语用分析,12,根据音位规则,从语音流中区分出独立的音素,根据音位形态规则找出音节及其对应的词素或词。

语用就是研究语言所存在的外界环境对语言使用所产生的影响它描述语言的环境知识,语言与语言使用者在某个给定语言环境中的关系关注语用信息的自然语言处理系统更侧重于讲话者/听话者模型的设定,而不是处理嵌入到给定话语中的结构信息7.2,7.3,7.4,7.2 词法分析,从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义,如unchangeable是由un-change-able构成的,其词义由这三个部分构成13,英语单词切分 英语单词有 词性、 数、 时态、 派生及 变形等变化, 找词素复杂,需要对词尾或词头分析 如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素14,从词素中获得语言学信息 如英语中构成词尾的词素 “s” 名词复数/动词第三人称单数, “ly” 副词的后缀, “ed” 动词的过去分词,,15,一个词可有许多的派生、变形,如work, works, worked, working, worker, workable等 词根只有一个 电子词典一般只放词根,并支持词素分析算法(英语词法分析) /*它可以对那些按英语文法规则变化的英语单词进行分析*/ repeat look for word in dictionary if not found then modify the word until word is found or no further modification possible 其中“word”是一个变量,初始值就是当前的单词。

16,如,分析catches、ladies catches ladies, 词典中查不到 catche ladie 修改1:去掉“-s” catch ladi 修改2:去掉“-e” lady 修改3:把“i”变成“y” 在修改2的时候,可以找到“catch”在修改3的时候就可以找到“lady”17,词法分析难在词义判断,单词有多种解释,仅依靠查词典无法判断 如, “diamond” 解释: 菱形,边长均相等的四边形; 棒球场; 钻石 依靠句子中其他相关单词和词组的分析如: John saw Susan's diamond shining from across the room. 中的“diamond”的词义必定是钻石18,汉语切分困难 如“不是人才学人才学”, “不是人才-学人才学” “不是人-才学人才学”,19,7.3 句法分析,(1)对句子或短语结构进行分析,以确定构成句子的各个词、短语之间的关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达; (2)对句法结构进行规范化句法分析树),20,由专门设计的分析器进行的,构造句法树的过程,将每个输入的合法语句转换为一棵句法分析树。

7.3.1 短语结构文法和 Chomsky文法体系,1.短语结构文法 短语结构文法G的定义: G=(T,N,S,P),21,是描述自然语言和程序设计语言强有力的形式化工具,可用于在计算机上对被分析句子的形式化进行描述和分析其中:T是终结符的集合, N是非终结符号的集合, S是起始符,P是产生式规则集产生式规则: a→b , 其中a ∈ V﹢ ,b∈V﹡,a≠b, V﹡表示由V中的符号所构成的全部符号串(包括空符号串Ф)的集合, V﹢表示中除空符号串Ф之外的一切符号串的集合22,在一部短语结构文法中,基本运算就是把一个符号串重写为另一符号串 如果a→b是一条产生式规则,那么就可以通过用b来置换a,重写任何一个包含子串a的符号串,这个过程记作“=”. 如u,v∈ V﹢有uav=ubv,就说uav直接产生ubv23,,以不同的顺序使用产生式规则,就可以从同一符号产生许多不同的串 由一部短语结构文法定义的语言L(G)就是可以从起始符S推导出符号串W的集合 即一个符号串要属于L(G)必须满足: (1)该符号串只包含终结符; (2)该符号串能根据文法G从起始符S推导出来24,采用短语结构文法所定义的某种语言是由一系列产生式组成的。

例7.1 G=(T,N,S,P) T={the,man,killed,a,deer,likes} N={S,NP,VP,N,ART,V,Prep,PP} S=S P: (l)S→NP+VP (2)NP→N (3)NP→ART+N (4)VP→V (5)VP→V+NP (6)ART→the|a (7)N→man|deer (8)V→killed|likes,25,2.Chomsky定义的四种形式文法,Chomsky文法定义: (1)无约束短语结构文法(0型文法) (2)上下文有关文法(1型文法) (3)上下文无关文法(2型文法) (4)正则文法(3型文法),26,正则文法(有限状态文法): 左线性文法 右线性文法 左线性文法中,规则: A→Bt 或 A→t 其中A,B∈N,t∈T 右线性文法中,规则: A→tB 或 A→t,27,上下文无关文法规则: A→x 其中A∈N,x∈ V﹡ 规则被应用时不依赖于符号A所处的上下文28,上下文有关文法,对于每一条形式为 x→y 的产生式,y的长度总是大于或等于x的长度,且x,y∈V﹡ 如: AB→CDE是合法产生式,但 ABC→DE不是。

29,自然语言——上下文有关的语言(用1型文法)文法规则允许其左部有多个符号 (至少包括一个非终结符),以指示上下文相关性 对于产生式: aAb→ayb(A∈N,y≠Ф,a和b不能同时为Ф),30,在增强上下文无关语言的句法分析的基础上,实现自然语言的自动理解 ATN是基于这种思想实现的一种自然语言句法分析技术31,无约束短语结构文法,无约束短语结构文法——仅要求x中至少含有一个非终结符(能力最强) x→y(x∈ V﹢,y∈V﹡) 0型文法无法在读入一个字符串后,最终判断出这个字符串是或不是由这种文法所定义的语言中的一个句子因此,0型文法很少用于自然语言处理32,7.3.2 句法分析树,对于例7.1的文法结构,该文法属于上下文无关文法,利用该文法分析: The man killed a deer. 分析过程: S→NP + VP →ART + N+ VP →The man + VP →The man + V + NP →The man killed + NP →The man killed + ART + N →The man killed a deer,33,(l)S→NP+VP (2)NP→N (3)NP→ART+N (4)VP→V (5)VP→V+NP (6)ART→the|a (7)N→man|deer (8)V→killed|likes,自上向下。

自下向上34,35,,对应的句法分析树如图7-1所示 在句法分析树中,初始符号总是出现在树根上,终止符则是出现在叶上图7-1句法分析树,7.3.3 转移网络,句法分析中的转移网络由结点和带有标记的弧组成,结点表示状态,弧对应于符号,基于该符号,可以实现从一个给定的状态转移到另一个状态 重写规则和相应的转移网络可表示如下 (见图7-2)36,,37,,图7-2(b) NP→ART+N和NP→N的转移网络,图7-2(a) S→NP+VP的转移网络,图7-2(c) VP→V+NP和VP→V的转移网络,38,,先从句子S开始启动转移网络 若句子的表示形式和转移网络的部分结构(NP)匹配,那么控制会转移到和NP相关的网络部分 这样,转移网络进入中间状态,然后接着检查VP短语 在VP的转移网络中,假设整个VP匹配成功,控制会转移到终止状态,并结束如 “The man laughed”的状态转移网络如下图所示,39,虚线上的数字表示转移的顺序,图7-3所示的转移网络含有10个线段,表示了网络中状态的控制流 首先,当控制在句子的发现NP时,它会通过虚线1移动到NP转移网络 现在,如果。

下载提示
相似文档
正为您匹配相似的精品文档