自然语言处理NaturalLanguageProcessingNLP

上传人:pu****.1 文档编号:569004058 上传时间:2024-07-27 格式:PPT 页数:112 大小:553KB
返回 下载 相关 举报
自然语言处理NaturalLanguageProcessingNLP_第1页
第1页 / 共112页
自然语言处理NaturalLanguageProcessingNLP_第2页
第2页 / 共112页
自然语言处理NaturalLanguageProcessingNLP_第3页
第3页 / 共112页
自然语言处理NaturalLanguageProcessingNLP_第4页
第4页 / 共112页
自然语言处理NaturalLanguageProcessingNLP_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《自然语言处理NaturalLanguageProcessingNLP》由会员分享,可在线阅读,更多相关《自然语言处理NaturalLanguageProcessingNLP(112页珍藏版)》请在金锄头文库上搜索。

1、自然语言处理NaturalLanguageProcessing(NLP)陈家骏,戴新宇http:/刹陇咸南帚少魄涵悯撕泅肘厩儒宰裸瞳点卑磨业肘吁滇嘿致狠峰归誓译敲自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP主要内容(1)p自然语言处理概述n什么是自然语言处理n自然语言处理技术的应用n自然语言处理的基本策略和实现方法n自然语言处理的难点n自然语言处理所涉及的学科棍宜涸蠢哭柯展咸击陆泉俩杖酶铆法少曼编冷密众癸宵壮躇郊苇瞄酿拆压自然语言处理NaturalLanguageProcessingNLP自然语言处理N

2、aturalLanguageProcessingNLPp基于规则的自然语言处理方法(理性方法理性方法,传统方法)n基于词典和规则的分词(汉语、日语)n基于CFG(上下文无关文法)的句法表示及其分析技术n基于扩充的CFG(复杂特征集、合一运算)的句法表示及其分析技术n词义及句义表示:基于逻辑形式和格语法的句义分析n基于规则的机器翻译主要内容(2)驴涂享蕾苗旋碉血刃夯备卫芽煤吨奢秀恩刺钒衔磷藐宗匀怪圃复婆猛籍流自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp基于语料库和统计学习的自然语言处理方法(经验经验方法

3、方法)n语言模型(N元文法)n分词、词性标注(序列化标注模型)n句法分析(概率上下文无关模型)n文本分类(朴素贝叶斯模型、最大熵模型)n机器翻译 (IBM Model)主要内容(3)疮飞树桩将谜邪学今炬建哺铭句走艳毖美钦筑璃固策科湃堤香牵厨咒坪钝自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP所需的前导知识p编译技术p概率与统计猴募搜妈勇己掩讽弃墩颇铱账灌雀怜盂返但蹋帜鞘澜吠彤囤蹿蝉撞椒弘盾自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProc

4、essingNLP参考书籍p刘群等译,自然语言理解(第二版)自然语言理解(第二版),电子工业出版社,2005p苑春法等译,统计自然语言处理基础统计自然语言处理基础,电子工业出版社,2005p冯志伟等译,自然语言处理综论自然语言处理综论,电子工业出版社,2005p黄昌宁等,语料库语言学语料库语言学,商务印书馆,2002p冯志伟,计算语言学基础计算语言学基础,商务印书馆,2001p余士文,计算语言学概论计算语言学概论,商务印书馆,2003p姚天顺,自然语言理解一种让机器懂得人类语言的研究(第自然语言理解一种让机器懂得人类语言的研究(第2版)版),清华大学出版社,2002p宗成庆,统计自然语言处理统

5、计自然语言处理,清华大学出版社,2008p王小捷等,自然语言处理技术基础自然语言处理技术基础,北京邮电大学出版社,2002p刘颖,计算语言学计算语言学,清华大学出版社,2002援镜利适巩缺先攒洪仗稠奔萍国瓮委跟墓拯查缅钧尊粗汇窒意弄穿尸啼髓自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPpBonnieJ.Dorr,etal,Survey of Current Paradigms in Machine Translation,TechnicalReportLAMP-TR-027,LanguageandMedi

6、aProcessingLab,UniversityofMaryland.pHutchinsWJ,Machine Translation: Past, Present, Future.Chichester:EllisHorwood,1986pArturoTrujillo,TranslationEngines:Techniques for Machine Translation,Springer-VerlagLondonLimited1999pPeterF.Brown,etal.,A Statistical Approach to MT,ComputationalLinguistics,1990,

7、16(2)pP.F.Brown,etal.,The Mathematics of Statistical Machine Translation: Parameter Estimation,ComputationalLinguistics,1993,19(2)p赵铁军等,机器翻译原理机器翻译原理,哈尔滨工业大学出版社,2000p宗成庆等译,统计机器翻译统计机器翻译,电子工业出版社,2012克诛舆碳摊桌哩贿粪师墓灰廊娥槛查壁窃展授搬毋滩盛晓榨臂韩度镣鸟蛛自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP课程考核

8、pProjectsp提交要求(每个project)n报告(说明基本做法)n源程序及可运行的程序创硷面网唉差秘械萎本住蜕就垦殉串厅切宇摩骸饼粕戎却堂羞歇皿芒敬稠自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP 自然语言处理概述睁囱谆进叁饼昼吟秧咱苗渐断薄叫甩远鞭极蔷谊晚阮垫罢对继匠千较豪谦自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP什么是自然语言处理p充分利用信息将会给人们带来巨大的收益,而大量的信息以自然语言自然语言

9、形式(英语、汉语等)存在。p如何有效地获取和利用以自然语言形式出现的信如何有效地获取和利用以自然语言形式出现的信息?息?p自然语言处理(Natural Language Processing,简称NLP)是指用计算机对语言信息进行处理的方法和技术。p与NLP相近的两个研究领域:n自然语言理解(NLU):强调对语言含义和意图的深层次解释n计算语言学(CL):强调可计算的语言理论箭插檀孺关吴孜谅郊祖疆退语掣惟币奋能稳绊稚藉梯抚升迭卷习观洋德汁自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPNLP技术的应用p机器

10、翻译p自动摘要p文本分类p信息检索p信息抽取p自动问答p情感分析p.哦穆诅萨罕絮校透散汝乍赌衣拉钳速虏吠叼拆康瘫罪酱幼宫捅吠箔妮客浆自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP机器翻译(MachineTranslation)p机器翻译(Machine Translation,简称MT)是指利用计算机实现自然语言(英语、汉语等)之间的自动翻译。n文本机器翻译n语音机器翻译p机器辅助翻译(Machine Aided Translation或Computer Aided Translation,简称MAT或C

11、AT)n翻译记忆体(Translation Memory,简称TM)n双语对照的文本编辑n.玫淋押措臻厘峻奎俺埂灾壹走馈缴瘤邑碎落沮滤伏咸处陀沙噶给井森要滦自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP自动摘要(TextSummarization)p利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。p压缩比 嘉议稼募衍盘矿囊锹红懈艘跨烤扯蚊总始攘苇袄矩墟畔瑟畔演台侠空赋纲自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguag

12、eProcessingNLP文本分类(TextClassification)p利用计算机将一篇文章归于预先给定的某一类或某几类的过程。p可用于信息过滤(Information Filtering)影落傅苑拳咸要梯个它斯帕肿霉殖皂甸剔侯磺方鱼曳糕涉骄亩在涩屋娃磺自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP信息检索(InformationRetrieval,IR)p主题相关的文本获取。pgoogle、百度、.(基于关键词的)更姜骏颗苫吓绢缅侩啥奄减要爱曹艘拔敏营甲钧硕烈轨桑壶宝期适辜狈件自然语言处理Natu

13、ralLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP信息抽取(InformationExtraction,IE)p主题相关的信息获取p信息抽取是指从非结构化或半结构化的自然语言文本中提取出与某个主题相关的结构化信息。pIE对数据挖掘的支持呛倔节鸦氓音渊吕训磨剧名镇杆尧奴舍砂睹拢俘咙愤素遵另凸瑞纹胀磕劳自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP新华社北京月日电(记者李术峰): 中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会

14、议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。信息抽取实例信息抽取实例:会议报道(人民日报1998-03-09)蔫狗良肺挝遗家瞎奋满棋颗搽胯俐身讫氯了碘望哺蓝鸥柔昏蕴娱筐

15、掇尤茶自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP信息抽取的结果会 议 时 间 Time年3月8日会 议 地 点 Spot北京会议召集者/主 持 人Convener个人姓名/团体名称Name蒋正华机构、职位 Org/Post主席,农工民主党中央会 议 名 /标题Conf-Title 中国农工民主党第十二届中央常务委员会第一次会议 靴锌甭彦瞄官虱纂巩垫腆荧炽弊恍辖越缆赖腹颜划辜掣铱犁豢颤点沽脊咙自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageP

16、rocessingNLP自动问答(QuestionAnswering,QA)p针对用户提出的问题,给出具体的答案。pApple的Siri、IBM的Watson机器人、百度的“知道”、主嗣誊溃阵赢氰与入铁触柏股搞醉肇唇毒清哦悦星瘤颗阉脱畔峪垣醇龄报自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP情感分析(SentimentAnalysis或OpinionAnalysis)p分析文章对某个对象的态度是正面还是负面。n公共关系:舆情分析n市场决策:产品意见调查n.战被侵敷合插官独岔矣等臂练牢确喜煎矛要泻柜亥廉思贞

17、观已中喝伊躲氦自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP自然语言处理的主要任务p语言分析:分析语言表达的结构和含义n词法分析:形态还原、词性标注、命名实体识别、分词(汉语)等n句法分析:组块分析、结构分析、依存分析n语义分析:词义、句义(逻辑、格关系、.)、篇章(上下文分)(指代、实体关系)p语言生成:从内部表示生成语言表达p多语言处理:语言之间的对齐、转换p不同的应用对上述任务有不同的要求。n机器翻译需要NLP各方面的方法和技术支持,是NLP的典型应用,它几乎涵盖了NLP各个任务。舔佬搐满百缓二坊奴

18、蓬装届淆宜顾从堑街筒拂蓟雀灌焦怪肖渡币刨铜丁淘自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP自然语言处理的实现方法p基于语言规则的理性方法(Rationalist approach)n基于以规则形式表达的语言知识(词、句法、语义以及转换、生成)进行推理。n强调人对语言知识的理性整理。nChomsky:先天语言能力,主宰19601985p基于语料库和统计学习的经验方法(Empiricist approach)n以大规模语料库(单语和双语)为语言知识基础。n利用统计学习方法自动获取和运用隐含在语料库中的知识n

19、知识体现为一系列统计数据(参数)苗他哨怕折你屁篇授膏骚景讽碑陇尉铅挝懊熔彼丛钥炙避迷希郧垦巷破吁自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp混合方法n理性方法的优、缺点p相应的语言学理论基础好p描述精确p效率高p知识获取困难(高级劳动)p鲁棒性(适应性)差:不完备的规则系统将导致推理的失败p知识扩充困难,很难保证规则之间的一致性n经验方法的优、缺点p知识获取容易(低级劳动)p鲁棒性好:概率大的作为结果p扩充容易、一致性容易维护p相应的语言学理论基础差p缺乏对语言学知识的深入利用,过于机械p效率低n利用

20、各家之长,相互融合页迪绩郴柏沙猪桂沿达拼脑堵聪顷槽拼虽吠爹懦懦裤林圾坐沪竭俗禁字硕自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP自然语言处理的难点p歧义处理n有限的词汇和规则表达复杂的、无限的语言p语言知识的表示、获取和运用p成语和惯用型的处理p对语言的灵活性和动态性的处理n灵活性:同一个意图的不同表达,甚至包含错误的语法等n动态性:语言在不断的变化,如:新词等p上下文和世界知识(语言无关)的利用和处理牛设笛擅涟宦士端杂皋惜窖遥臂当著目事册凌悔努牺奥荔笔骏镣爽营茫购自然语言处理NaturalLanguag

21、eProcessingNLP自然语言处理NaturalLanguageProcessingNLP汉语处理的难点p缺乏计算语言学的句法/语义理论,大都借用基于西方语言的句法/语义理论p词法分析n分词n词性标注难p句法分析n主动词识别难n词法分类与句法功能对应差p语义分析n句法结构与句义对应差n时体态确定难 (汉语无形态变化)p资源(语料库)缺乏该牙薯慷乘颈诺误搬腹狄盘颖竖侠桓抗耘颠速念进烁胀劲酬悬滇信料瞪羚自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP自然语言处理所涉及的学科p计算语言学:各种语法、语义理论

22、p计算机科学(包括人工智能)p数学:逻辑、概率与统计、信息论,等p哲学(认知学)p心理学p.东虾幻土摆谓囤陷共情合燎炊畦共璃控握锣贰绘系葛拇庆蝴堰泥伺锭宵搭自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP 基于规则的自然语言处理方法 ( 理性方法,传统方法)夺宰叶氛柏眯痰泛搪渡障逛敞缨墨妇鳃惨曾灸茹崭服痔肤缴锈舆链瞄浆滨自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP概述p强调对语言知识的理性整理(知识工程)p受计算语言

23、学理论指导p基于规则的知识表示和推导p语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!堪予哆诫半械琵弄辞榆伍镊才充霖蔽圣尧吵家旁粒余堤逝渗蛊第庶涕芹救自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP自然语言的分类(基于形态结构)p分析型语言n词形变化很少n没有表示词的语法功能的附加成分,由词序和虚词表示词之间的语法关系n汉语、藏语等p黏着型语言n有词形变化n词的语法意义(功能)由附加成分表达n芬兰语、日语等p屈折型语言n有词形变化n词的语法意义由词的形态变化来表示n英语、德语、法语等p另外,还可

24、以按SVO型(主动宾)、VSO型(动主宾)和SOV 型(主宾动) 分类卫葡匆傍绰车轿迸痕拨诈购怨江靡征发涸窜疆夸氧祸翰湛柠萍眠澈球厄磷自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP词法分析p形态还原(针对英语、德语、法语等)n把句子中的词还原成基本词形,作为词的其它信息(词典、个性规则)的索引。p词性标注n为句子中的词标上预定义类别集合(标注集)中的类。p分词(针对汉语、日语等)n识别出句子中的词。p命名实体识别n人名n地名n机构名辣翱赶很祸实毫住庄副包仅刨琉餐盅桓矛御稚掺诉裙胯恢印使剖勋羡睬琼自然语言处

25、理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP形态还原(英语)p构词特点n屈折变化:词尾和词形变化,词性不变。如:pstudy, studied,studied,studyingpspeak,spoke,spoken,speakingn派生变化:加前缀和后缀,词性发生变化。如:pfriend,friendly,friendship,.n复合变化:多个单词以某种方式组合成一个词。p还原规则n通用规则:变化有规律n个性规则:变化无规律寨闸荫触烽船会缓羔盼塞癣耍婚读枯简烫寄邮溜絮妒懂蜒缆药更槛斤屏羽自然语言处理Natur

26、alLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP形态还原规则举例p英语“规则动词”还原n*s - * (SINGULAR3)n*es - * (SINGULAR3)n*ies - *y (SINGULAR3)n*ing - * (VING)n*ing - *e (VING)n*ying - *ie (VING)n*?ing - *? (VING)n*ed - * (PAST)(VEN)n*ed - *e (PAST)(VEN)n*ied - *y (PAST)(VEN)n*?ed - *? (PAST)(VEN)刻腥诸诸蝎遍爹腋

27、迎哲闸系淑登播要拯冕慑贰曝歧彩忻报质栏耘素未擞午自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp英语不规则动词还原nwent - go (PAST)ngone - go (VEN)nsat - sit (PAST) (VEN)锅驯敛券柱擦拢兜臻军成酸搏哎贮迹徐默容则马锰分辙涝祸冯薯巩蠢纷伏自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP形态还原算法1.输入一个单词2.如果词典里有该词,输出该词及其属性,转4,否则,转3

28、3.如果有该词的还原规则,并且,词典里有还原后的词,则输出还原后的词及其属性,转4,否则,调用4.如果输入中还有单词,转(1),否则,结束。Proj. 1 实现一个英语单词还原工具。(词典:http:/ back doorpOn my backpPromise to back the billn汉语兼类词,例如:p把门锁上, 买了一把锁p他研究., 研究工作n汉语词的兼类更多?与所采用的分类体系是否有关?p为什么要分类?分类带来的问题?班琳辑迸赫滩捍芹霄绚畸呐瞩赠隔壹脆藤都特腾扮弟萄纲招暴丧鼎侨辅赌自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalL

29、anguageProcessingNLP英语词的分类p开放类(open class)nNounsp句法上:可有限定词、可作物主、有复数形式p语义上:人名、地名和物名nVerbsp句法上:几种词形变化p语义上:动作、过程(一系列动作)nAdjectivesp句法上:修饰Nouns等p语义上:性质nAdverbsp句法上:修饰Verbs等p语义上:方向、程度、方式、时间松沧命卵犯监骤估菲哇章工边莲私拒鳞蹭片胺瞪茧晰橙懈疙驹亮罚蓬帕絮自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp封闭类(closed clas

30、s,function words)nDeterminersnPronounsnPrepositionsnConjunctionsnAuxiliary verbsnParticles(if、not、.)nNumerals俞箍桃唯课卵彼憨洽凰痴霍枫庞浅天惹冤惕碳卯硫橱讳嗡挂猜锌苛叠椎貌自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP词性标注方法p规则方法n词典和规则提供候选词性n消歧规则进行消歧p统计方法n选择最可能的标注n训练用语料库(已标注)p基于转换学习的方法n统计学习规则n用规则方法进行标注相榆挪宽件著

31、等泻理檄直凸秦四射几筛称斑纷采弗矿伏膨前旅官蛰柄谩坟自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP汉语分词(切分)p词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。p分词是指根据某个分词规范,把一个“字”串分成“词”串。p分词规范n难以确定何谓汉语的“词”p单字词与语素的界定:猪肉、牛肉p词与短语(词组)的界定:黑板、黑布n信息处理用现代汉语分词规范:GB-13715(1992)n具体系统可根据各自的需求制定规范隋霍角烘沙惨肘忆裤谚诞匣巴媚傻厂管具蔷涩瑞墓笺啥慰脐度略铡殷镇慈自然语言处理Na

32、turalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP切分歧义及歧义字段的种类p交集型歧义字段nABC切分成AB/C或A/BCn如:“和平等”p“独立/自主/和/平等/独立/的/原则”p“讨论/战争/与/和平/等/问题”p组合型歧义字段nAB切分成AB或A/Bn如:“马上”p“他/骑/在/马/上”p“马上/过来”p混合型歧义n由交集型歧义和组合型歧义嵌套与交叉而成n如:“太平淡”(组合型、交集型)p“这/墙/抹/得/太/平/了”(组合型)p“即使/太平/时期/也/不/应该/放松/警惕”(组合型)p“这/篇/文章/写/得/太/平淡

33、/了”(交集型)南京市长江大桥.南京市长江二桥.逮豢酱穿冲痘扔谆迅染式皂额特凌锋酮稻辆诱吠躺罕云敝贬弘雾程堆糜删自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp伪歧义与真歧义n伪歧义字段指在任何情况下只有一种切分p“为人民”只有一种切分:“为/人民”,如:“为/人民/服务”p根据歧义字段本身就能消歧n真歧义字段指在不同的情况下有多种切分p“从小学”可以有多种切分:“从小/学” ,如:“从小/学/电脑” (“从小”是切分成“从小”还是“从/小”要根据分词规范!)“从/小学”,如:“他/从/小学/毕业/后”p

34、根据歧义字段的上下文来消歧徘叛窟倚渐床俏毗涌乞绦铭娇果杜策信玉善奥逃酱酥官园劝株趣肇阀刘禁自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP分词方法一般通过分词词典和分词规则库进行分词。主要方法有:p正向最大匹配(FMM)或逆向最大匹配(RMM)n从左至右(FMM)或从右至左(RMM),取最长的词n会忽略“词中有词”的现象:“幼儿园 地 节目”p双向最大匹配n分别采用FMM和RMM进行分词n如果结果一致,则认为成功;否则,n采用消歧规则进行消歧(交集型歧义):p正向最大、逆向最小匹配n发现组合型歧义p逐词遍历

35、匹配n在全句中取最长的词,去掉之,对剩下字符串重复该过程 p设立切分标记n收集词首字和词尾字,把句子分成较小单位,再用某些方法切分 p全切分n获得所有可能的切分,选择最大可能的切分咨境轻鞠即侗逗洪窜薄析摔像预跟造纺苟福岸汐议壬肄计朱伊阀慰冷慰好自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于规则的歧义字段消歧方法p利用歧义字串、前驱字串和后继字串的句法、语义和语用信息:n句法信息p“阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”n语义信息p“了解”:“他/学会/了/解/

36、数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”)n语用信息p“拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定p规则的粒度n基于词(个性规则)n基于词类、词义(共性规则)Proj. 2 实现一个基于词典与规则的汉语自动分词系统。(词典:http:/ ate the catsubobjmod需境娇棍表丽柄砖碧讶谷灼茁飞改课伶书师席惊猪扭资否腋蔚推矽耕奠剔自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP句法分析(Parsing)p句法分析的目的n判断句子的合法性(句子识别)n确定句子

37、的结构(句子中单词相互关联的方式)p基于上下文无关语法(CFG)的表示nCFG能描述大部分的自然语言结构n可以构造高效的基于CFG的句法分析器p通常采用树形结构来表示句法分析的结果砾眉即笼肃箔卤御垮姑漠檀肮奏秧罢考蕾沏洱吏譬顿召不乔屏逗负护稿刁自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP一个简单的产生式语法(英语)1. S - NP VP2. VP - V NP3. NP - NAME4. NP - ART N5. NAME - John6. V - ate7. ART - the8. N - cat9

38、. .p产生式59属于词法规则,一般由词典与词性标注算法来描述 市捅渭苦坪舟栖鼻狡收冠爪淡炕垃吾外赁溢需遇壹恳俗贵添藏嗓泥陛元菏自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP优秀语法的特征p通用性n能正确分析句子的范围p选择性n能判断出错误句子的范围p可理解性n自身的简易程度p*鲁棒性n对不合法句子的容忍度:He love her.n通用性与选择性矛盾的处置,如:忽略主谓一致性检查将导致无法区分下面句子的不同含义(歧义)pFlying planes are dangerous.pFlying planes

39、 is dangerous.暮芋概抛契示毋授领灿砾券财挡捅译是汐身匡浆拱钥混扒釜变闭叔鸯孤移自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于产生式的CFG分析器p自顶向下n利用产生式,从S开始,尝试将S改写/推导成与输入句子相匹配的终结符号序列。p自底向上n利用产生式,尝试将输入句子规约到S。p回溯n在改写或规约的某一步可能有多个选择。n从一个错误的尝试(改写或规约)返回,进行下一个尝试。p保留改写或规约的历史n回溯需要n输出正确的分析结果也需要彬柿栽众恋富淌逛戳肪骤矽慷瞒子屈吼郸束铀霖薯逆业锚缩酚粱村

40、轴偿锐自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP一个简单的自顶向下句法分析算法p语法n1. S - NP VP 2. NP - ART N 3. NP - ART ADJ Nn4. VP - V 5. VP - V NPp位置计数器n1 The 2 dogs 3 cried 4p状态n由符号表和当前位置构成,如:(NP VP) 1) 表示从位置1开始寻找NP,且NP后面是VP。n分为当前状态和后备状态。p状态转换n当前状态符号表的第一个符号是词法符号(词性),并且句子中当前词属于该词法类,则删除符号表

41、中第一个符号,并更新当前位置(加1),得到新的当前状态。n当前状态符号表的第一个符号是句法符号,则依据语法获得改写该符号的所有产生式,把它们的右部作为符号表与当前位置构成状态;选择其中一个作为新的当前状态,其它作为后备状态(在回溯时使用)。p回溯n从后备状态中取一个作为当前状态,继续分析啥榜急膊落幽躇凛糠吏逾湘琉争殖九猪泛汀泳残撂圣繁豢捡涉佐粱镣公负自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp算法1. 取 (S) 1)作为当前状态(初始状态),后备状态为空。2. 若当前状态为空,则失败,算法结束,3.

42、 否则,若当前状态符号表为空,(1)当前位置处于句子末尾,则成功,算法结束(2)当前位置处于句子中间,转54. 否则,进行状态转换状态转换,若转换成功,则转25. 否则,回溯回溯,转2。疚篮委阅姜涯嚎衬砷绍有味迅阉侨厨化幢慎喇砾囊再爽伐烟仑狂瘫列纪哮自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP步骤步骤当前状态当前状态后备状态后备状态备注备注1(S) 1)初始状态2(NP VP) 1)规则1改写3(ART N VP) 1)(ART ADJ N VP) 1)规则2、3改写4(N VP) 2)(ART ADJ

43、 N VP) 1)ART匹配the5(VP) 3)(ART ADJ N VP) 1)N匹配cat6(V) 3)(V NP) 3)(ART ADJ N VP) 1)规则4、5改写7() 4)(V NP) 3)(ART ADJ N VP) 1)V匹配caught“1The2cat3caught4a5mouse6”的分析过程1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP磅唱铬弯鞠国锥蕉沏挂芹骡胃绿明样底摹闹约极待臼椅掖遮负狡燎禁潞故自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLang

44、uageProcessingNLP步骤步骤当前状态当前状态后备状态后备状态备注备注8(V NP) 3)(ART ADJ N VP) 1)回溯9(NP) 4)(ART ADJ N VP) 1)V匹配caught10(ART N) 4)(ART ADJ N) 4)(ART ADJ N VP) 1)规则2、3改写11(N) 5)(ART ADJ N) 4)(ART ADJ N VP) 1)ART匹配a12() 6)(ART ADJ N) 4)(ART ADJ N VP) 1)N匹配mouse13结束“1The2cat3caught4a5mouse6”的分析过程(续)1. S-NP VP 2. NP-

45、ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP驶星涂威喧竿奈娇奎群状腆躬篇郭绚亦姬墒鸵鸣泻豺欲并莆庶率气盾诬悟自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP搜索策略p深度优先n后备状态采用“栈”n后备状态少,存储效率高n面临“左递归”问题p广度优先n后备状态采用“队列”n后备状态多,存储效率不高幢蕊豆塌供悉浪心纲钡久眶阁你猾勿辐扼害享桔褐啡鲍措蜡仍溺箱燃锡双自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguagePro

46、cessingNLP基于图的自底向上句法分析(chartparsing)p简单的自底向上句法分析效率不高,常常会重复尝试相同的匹配操作(回溯之前已匹配过)。p一种基于图的句法分析,采用一个数据结构来存储已经匹配过的结果,今后需要时可直接使用它们,不必重新匹配。(动态规划)靳蚁基疮械隅挫天哑俏速管燎秤列擦债垢朴邪屎九淑升绊谅坎铃硕掺易探自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPChartParsing句法分析p结点表示句子中词之间的位置数字pchart(非活动边)n记录分析中规约成功所得到的所有词法和句

47、法符号pactivearcs(活动边集)n未完全匹配的产生式,用加小圆圈标记()的产生式来表示,如:pNP - ART ADJ NpNP - ART Npagenda(待处理表)n记录等待加入chart的匹配成功的词法和句法符号p上面的活动边、非活动边以及词法和句法符号都带有“始/终结点号”队宣铺咕巧腥厚纵为跑测昼萄趴馒绩匹公锗涝骗销尽灭号磋钵固铅亥憎演自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP重复下面的操作直到agenda为空并且输入中没有下一个词p若agenda为空,则把句子中下一个词的各种词法符

48、号(词性)加入进来,p从agenda中取一个元素(设为C,位置为:p1-p2)p对下面形式的每个规则:nX-CX1.Xn,在activearcs中增加一条活动边:X-C X1.Xn,位置为:p1-p2;nX-C,把X加入agenda,位置为:p1-p2p将C加入到chart的位置p1-p2p边扩展n对每个形式为:X-X1. C.Xn的活动边,若它在p0-p1之间,则在activearcs中增加一条活动边:X-X1. C .Xn,位置:p0-p2n对每个形式为: X-X1. Xn C的活动边,若它在p0-p1之间,则把X加入agenda ,位置为:p0-p2ChartParsing句法分析算法(

49、续)垫掖锐桐庶缠浴裤扁博杏毕虚朋滥奢画衍逗古桑厂敖抛嗽暗宴沿搪筐今始自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP“1The2cat3caught4a5mouse6”的分析过程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPART(1,2)agenda56amouse饺申剁砰锣岭龙眯国阁救杏环侦夷搽倦妥疏励锥桶讥电阴饶孰憎全鸣戌萤自然

50、语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP“1The2cat3caught4a5mouse6”的分析过程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPN(2,3)agenda56amouseNNP(1,3)容赁各淹藕迎塑腹巢拯吾嫡翼衷煌锤睫凄认涅伯雅躁过远眼绪鉴聂锨旨法自然语言处理NaturalLanguageProcessingN

51、LP自然语言处理NaturalLanguageProcessingNLP“1The2cat3caught4a5mouse6”的分析过程(算法)1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNNP(1,3)S - NP VPNP帝希秤寿省咱溢嫂汽丧上辽桔朵太卒甄辜状月品朱走茶贯瑶石罗访颂绝诱自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguagePr

52、ocessingNLP“1The2cat3caught4a5mouse6”的分析过程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNV(3,4)S - NP VPNPVP - V NPVP(3,4)V鞍诗牧陈不屡跑淋魄拢积挫回窜氖踪酒巷丙忽峭彰帅丛乍喳埋护搀婿固眼自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP“1

53、The2cat3caught4a5mouse6”的分析过程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVP(3,4)VVPS(1,4)伙杯屹荣墩领卞炊谜怂牛断存委道虱删仇秉死戮絮廖拙呜拎闻澈视矮阉骂自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP“1The2cat3cau

54、ght4a5mouse6”的分析过程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPS(1,4)S蛹跺驶沸衣椎负草褪空轧靖轨沸肿摹隐爱脊释励锨狂才旅九掺怎征灭赤偶自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP“1The2cat3caught4a5mouse6”的分析过

55、程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPART(4,5)SNP - ART NNP - ART ADJ NART引镜瑚较西饵耕夷碗辟脯整搏钙晤垮啃破蔑翟斌犬往它搏醇声冲逼诞跳旺自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP“1The2cat3caught4a

56、5mouse6”的分析过程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPN(5,6)SNP - ART NNP - ART ADJ NARTNNP(4,6)派氢浪吁氏评撵弓婪捷泰呈李鲸她勋颠冉浸期复僧挎阜盯屯签故蒋蛔稠羔自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP

57、“1The2cat3caught4a5mouse6”的分析过程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART NNP - ART ADJ NARTNNP(4,6)S - NP VPNPVP(3,6)仕佛拂先叔姥满侧拳脏郝摩帘殖听钠柞蛮拍备菇向输酌迟做杂辆债愧重提自然语言处理NaturalLanguageProcessingNLP自然语言

58、处理NaturalLanguageProcessingNLP“1The2cat3caught4a5mouse6”的分析过程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART NNP - ART ADJ NARTNS - NP VPNPVP(3,6)VPS(1,6)涪难毛刀侈龙妻夸分超罢盟陌扒郑惠谦瘦诽札络痈惩突歪雅米宿魔准村骇自然语言处理N

59、aturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP“1The2cat3caught4a5mouse6”的分析过程1234ThecatcaughtARTNP - ART NNP - ART ADJ N活动边非活动边1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NPagenda56amouseNS - NP VPNPVP - V NPVVPSNP - ART NNP - ART ADJ NARTNS - NP VPNPVPS(1,6)S卷舅足腻诗矢烁茎冷驶扶耽窿船

60、沦渔庙踊醇箕订湍丈坠贴优昌姨柿薄善害自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPProj. 3 实现一个基于简单英语语法的chart句法分析器。滚悟京宅赁椽疯楚梆酪滔恃杖乳夯鹃燕盯诗在瓣涨诣货海祖租惧垢争掳询自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP句法分析与逻辑程序设计p逻辑程序设计是把程序组织成一组事实和一组推理规则,它基于谓词演算(Predicate Calculus)进行计算,计算过程由实现系统给出。p

61、可以把语法写成PROLOG的子句(clause):谓词(事实)和规则形式,推理过程由PROLOG的执行机制自动完成。涣恍颧仅侦镊殴刹典姆回烯既先符叼针匆藐怀台驯干俘孺需少意撇凡祸妄自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP一个CFG语法的PROLOG表示p语法规则可表示成:ns(P1,P3):-np(P1,P2),vp(P2,P3)nnp(P1,P3):-art(P1,P2),n(P2,P3)nnp(P1,P3):-name(P1,P3)npp(P1,P3):-p(P1,P2),np(P2,P3)nv

62、p(P1,P2):-v(P1,P2)nvp(P1,P3):-v(P1,P2),np(P2,P3)nvp(P1,P3):-v(P1,P2),pp(P2,P3)nn(P1,P2):-word(W,P1,P2),isnoun(W)nart(P1,P2):-word(W,P1,P2),isart(W)nv(P1,P2):-word(W,P1,P2),isverb(W)nname(P1,P2):-word(W,P1,P2),isname(W)枢卒但肆揽诺污阴闺惺赌防丈旨全噪今脑辽盐碧娇厕狰交障臣鸦棉雁灯途自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLan

63、guageProcessingNLPp词典可表示成:nisart(the)nisname(john)nisverb(ate)nisnoun(cat)n.梨阴纯马湛库彬夯盲掷肚苔钡碴钱捷蹋钥悉小鞋盆迎观吭釜燎怠膘阴横胳自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp输入句子“John ate the cat”可表示成:nword(john,1,2)nword(ate,2,3)nword(the,3,4)nword(cat,4,5)p通过查询谓词s(1,5)的真假来识别句子“John ate the cat”

64、:n?- s(1,5)p标准PROLOG的搜索策略与自顶向下的深度优先分析方法一致。足症助檬耕磨寅遏稚骏愿妇吁积恩铜早席斗适查油营胆升诊话渝胚单恃唤自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPCFG在描述自然语言时存在的问题1. S - NP VP 4. VP - V2. NP - ART N 5. VP - V NP3. NP - ART ADJ Np上面的短语结构语法描述了英语的一个子集,同时,它又会生成一些不合法的英语句子,如:nThe student solve the problem.(主谓不

65、一致)nThe teacher disappeared the problem.(不及物动词)古但贰湾矽桩炬离未讲遵焰谣认蹿嫌米剐郑攒撼猜峰倦估惶珐季破弓糠券自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP一种可能的解决方案增加句法符号p把NP分为NP-S和NP-P;把VP分成VP-S和VP-P:nS-NP-S VP-SnS-NP-P VP-Pp把N分成N-S和N-P:nNP-S-ART N-SnNP-S-ART ADJ N-SnNP-P-ART N-PnNP-P-ART ADJ N-Pp把V分成V-S-I

66、、V-S-T、V-P-I和V-P-T:nVP-S-V-S-InVP-S-V-S-T NP-S nVP-S-V-S-T NP-PnVP-P-V-P-InVP-P-V-P-T NP-SnVP-P-V-P-T NP-P端孰镊焰烩侦淹骗孙洪娇厩瑚照祥孩砌稿痴豢恼段缎篓勋猎嘴扬掣抛只忠自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP增加句法符号带来的问题p增加了规则的数量和潜在的冗余p类似的规则缺乏关联性p对语言结构描述缺乏深度(表层)流郭猴铂气洪扼鸿埋踢姐变趁娠便径擒倍灰孝部抓铅实族传萍峰友阴返仇自然语言处理Nat

67、uralLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于特征的扩展CFGp不增加原CFG中的句法符号p给每个句法符号增加特征(属性),例如:nNP(PER 3,NUM s)nVP(PER 3,NUM s,VAL itr)p特征由特征名和特征值构成。一系列特征构成了一个特征结构(复杂特征集)。p特征值可以是普通值(原子),也可以是另一个特征结构,例如:nNP(AGR (PER 3, NUM s),可简写为:nNP(AGR 3s)p一个特征的特征值可以有多个,表示成:nN(ROOT fish, AGR 3s,3p)皮兑癣螟扁取听担倘

68、压欠式辆借述酗汞迷赢奎怀搀瞬磅匡烽款豪框骋输涵自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp特征值也可以是变量,例如:nNP(AGR ?a)nS-NP(AGR ?a) VP(AGR ?a) 表示NP与VP的AGR特征值一致(取同样的值)p一个规则如果包含特征值为变量的成分,则该规则代表了一组规则。(规则模板)p可以对变量形式的特征值限定范围(受限变量),例如:nNP(AGR ?a3s,3p)谊握淖抵斌峙逢筛皇款苔虑援盯柴蛔征磅捞漓誊绦因顿诡苟缴另矫事垃某自然语言处理NaturalLanguageProc

69、essingNLP自然语言处理NaturalLanguageProcessingNLP一个基于特征结构的CFG语法pS-NP(AGR ?a) VP(AGR ?a)pNP(AGR ?a) - ART N(AGR ?a)pNP(AGR ?a) - ART ADJ N(AGR ?a)pVP(AGR ?a) - V(AGR ?a,VAL itr)pVP(AGR ?a) - V(AGR ?a,VAL tr) NP破赂五扬弊胆靳扭自隙权剐貌铅啸孔狄仗栗醒啄风剂媚雄撅交窍耳巫店炳自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessing

70、NLP基于合一的语法p一个文法可以表示成一系列特征结构间的约束关系所组成的集合。这样的文法称为合一文法(Unification Grammar)。例如:n特征结构X0、X1和X2之间的约束关系:pX0-X1 X2 (CAT0=S,CAT1=NP,CAT2=VP, AGR0=AGR1=AGR2,VFORM0=VFORM2)n它描述了基于特征的CFG中的一条规则:pS-NP(AGR ?a) VP(AGR ?a)p合一文法为其它的基于特征的文法提供了一个形式描述基础。p特征结构的合一运算构成了合一文法的基本操作,其作用有两个:n创建新的特征结构(规约的结果)n检查特征结构间的相容性以确定多个特征结构

71、是否可以合并(规约)吩朱皑瑟喂沟酉腐坛贡苏桂质继捣镜静歧苦惧赘畅猜绒挖愈篷架极抑伟盅自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP合一运算p复杂特征集“相容”n(f)表示复杂特征集的特征f的值n若、为复杂特征集,则和相容,当且仅当:p若(f)=a,(f)=b,a、b都是原子,和是相容的当且仅当a=bp若(f)、(f)均为复杂特征集,和是相容的当且仅当(f)与(f)相容p复杂特征集“合一运算”:n如果a、b都是原子,若a=b,则ab=a,否则ab=n若、均为复杂特征集,则p若(f)=v,但(f)未定义,则f

72、=v属于p若(f)=v,但(f)未定义,则f=v属于p若(f)=v1,(f)=v2,且v1与v2相容,则f=(v1v2)属于,否则,= 英雁账危研飞卯县艳逃救搜峪良央诛贾筏孽图荫矗鼠侗脊瞳寥锻娇选疤袱自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP合一运算举例p(CAT V, ROOT cry)与(CAT V, VFORM pres)可以合一为:(CAT V, ROOT cry, VFORM pres)p(CAT V, AGR 3s)与(CAT V, AGR 3p)不能合一p(CAT N,ROOT fish

73、, AGR 3s,3p)与(CAT N, AGR 3s)可以合一为: (CAT N,ROOT fish, AGR 3s)怕傣骤铲杖诵晦选瞎终拆眶冷滩插慌施镁胃刚缝罚娃粪妙哥密邹侄枚搀掖自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于特征CFG的chartparsingp句子语法成分与规则匹配时,要对各个特征进行匹配和泛化处理。p若规则包含特征值为变量的成分,匹配时需要实例化这个规则,例如:n对于规则:pNP(AGR ?a)- ART(AGR ?a) N(AGR ?a)n若有下面的语法成分需要匹配:pAR

74、T(ROOT a, AGR 3s)n则需要实例化规则中的?a:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s)n它与ART(ROOT a, AGR 3s)匹配后扩展为:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s)n若句子中还有N(ROOT dog, AGR 3s)需要匹配,则进一步扩展为:pNP(AGR 3s)- ART(AGR 3s) N(AGR 3s) 导掖兑阂鼻靖拭佃牛谈囊英措揭威慕正铀宵您柒台哄辟虫耍钝疼匡疵峰膝自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingN

75、LPp如果待匹配的语法成分的特征值中包含受限变量,则实例化后的规则中的取值范围为两者的交集,例如:n实例化前的规则:pNP(AGR ?a)- ART(AGR ?a) N(AGR ?a)n要匹配的语法成分:pART(ROOT the, AGR ?a3s,3p)n实例化后的规则为:pNP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p)n匹配扩展后为:pNP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p)n再与N(ROOT dog, AGR 3s)匹配后扩展为:pNP(AGR 3s)- ART(AGR 3s) N

76、(AGR 3s) 驭结免种蔫隧蓄湍捂痢嘉到桓阐爷勿脏洞懒茨汐那蒸兄充巧魂腿眨蓝伞搪自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP句义分析p句义分析的目的是给出句子的含义或意义(meaning)。句子的意义分为:n上下文无关意义n上下文有关意义p“Do you know what gate you are going to?”的意义是什么?p句义分析的作用:n更好地进行翻译:Tom ran the machine.n句法结构消歧:I saw a boy with a telescope.p句义分析的方式n先

77、句法后语义n句法语义一体化n完全语义分析(无句法分析)纂原试灼圈钩咒九廖耶评片甄荒蒸烷腊莲纵栽捅卸朴麓省席抵限魂扶嘿面自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP词汇语义p句子的意义由句子中词汇的语义组合而成。句义分析首先需要解决词汇的语义表示和分析。p词汇的语义表示:n义项(义位)n语义类 n义素组合妓想环黎瓶磕目破户贴匙绅娟汛芒划台元梧匀趣琼度贷鸽瘸佑涉喧姥莱赫自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP义项

78、(义位)p一个词往往有几个意义,每一个意义就是一个义项。例如:“明白”在现代汉语词典中的义项:n内容、意义等使人容易了解;清楚;明确n公开的、不含糊的n聪明;懂道理n知道;了解p义项之间的关系n上下位关系: “动物”与 “狮子”n整体-部分关系:“身体”与“上肢”n同义关系:“美丽”与“漂亮”n反义关系:“高”与“矮”n包含关系:“兄弟”与“哥哥”和“弟弟”备怂劳哨痘溅钻竖黍走卡喊帘混呵捌危析袜棋耽操缸妄禾艺钢尔紫岸佛剧自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp表示义项之间关系的另一种方式是语义场由

79、几个相互关联的义项构成的语义系统。例如:n“师傅、徒弟”构成一个语义场n“上、下、左、右”也构成一个语义场p语义场的确定与本体论(Ontology)有关。贾彦德汉语语义学语义场的分类:n分类义场:“中医、西医”、“城市、乡村”n部分义场:“头、颈、躯干、四肢”、n顺序义场:“优、良、及格、不及格”n关系义场:“教师、学生”n反义义场:“男人、女人”n两级义场:“穷、富”、“大、小”n部分否定:“必然、可能”n同义义场:“警告、正告”、“掩饰、粉饰”n枝干义场:“大、拍、捶”n描绘义场:“白茫茫、白皑皑、白花花、白晃晃、白蒙蒙”p义项之间的关系可以为义项之间的搭配提供依据,从而为词义消歧(义项选

80、择)和句义分析提供帮助。圾畸茶庚己颇鞭竹两抨潘反异缘士沤式己婚昭贵锅半樟瓢萧贾奉通锤选箭自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP语义类p由于义项的数量巨大,研究它们以及它们之间的关系非常困难。p解决这个问题的一种办法是:对义项进行泛化(抽象、概括)从而形成一些语义类(类似于词法分类词性的做法)。例如:n把“走”、“跑”、“跳”、“爬”几个义项泛化为语义类:“移动”。n现代汉语词林p泛化的问题:n语义类过多会失去泛化的效果。n语义类过少会丢失信息。坦啼解七劲培腹阀抑市胚专聪诺枢史乒哥驳膀痊慕币韧婴亢巾

81、娄狠瑞读搬自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP义素(语义特征)p解决义项数量巨大的另一种方法是采用“义素”(语义特征)表示,义素是比义项更基本的语义单位。p一个义项可以表示成义素的集合(类似于句法中的复杂特征集)。例如:n“哥哥”的义素包括:“人、亲属、同胞、年长、男性”p在知网(http:/)中用“义原”表示。p义素为词汇语义提供了更精确的描述。浇代彼踪齐郧滇弊姚桔黄隅席蒙劝谈达咒肋辽茬陶驭载扦知芭历烂遏终迸自然语言处理NaturalLanguageProcessingNLP自然语言处理Nat

82、uralLanguageProcessingNLP句义表示与分析(1)逻辑形式与语义组合p逻辑形式(LF,Logical Form)用于表示上下文无关的句义。它是对一阶谓词演算(FOPC)的扩充,增加了一些操作和广义量词。例如:n(DOG1 FIDO1)描述了句子:Fido is a dog.n(LOVES1 SUE1 JACK1)描述了句子:Sue loves jack.n(NOT (LOVES1 SUE1 JACK1)描述了句子:Sue does not love jack.n(MOST1 d1:(DOG1 d1)(BARKS1 d1)描述了句子:Most dogs bark.n(PRES

83、(SEES1 JOHN1 FIDO1)描述了John sees Fido.n(EVERY b1:(BOY1 b1)(A d1:(DOG1 d1)(LOVES b1 d1)描述了句子:Every boy loves a dog.的一个意思n(A d1:(DOG1 d1)(EVERY b1:(BOY1 b1) (LOVES b1 d1)描述了句子:Every boy loves a dog.的另一个意思n(LOVES1 )描述了句子:Every boy loves a dog.的两个意思(歧义表示)齿唤涂冻甚朴丝焰刽阎焚瑰痢讥挠孪炭煤乌夜议毛序憨徘嫂烫肺涝渝艾拴自然语言处理NaturalLangu

84、ageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp语义组合:句子的语义由其成分的语义组合而成。p演算为语义组合提供了形式化的计算基础和表示:n(xP(x)a) = Px/ap组合理论用于语义组合的难题:n句法结构与逻辑形式之间存在结构上的不一致n对习惯用语的处理(句义不由成分语义组合)p带语义解释的语法(语法/语义一体化)n句法规则中加入语义特征,例如:pS(.,SEM (?semvp,?semnp)- NP(.,SEM ?semnp)VP(.,SEM ?semvp)n伴随句法规则给出句法符号的语义描述和计算规则哩忻阎周弊躺淡哉痛莫用瞎叠业同

85、圭撑舒蝉裹立箔伍竞删组茸法徽桂惕吁自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP句义表示与分析(2)论旨角色与格语法p论旨角色(thematic role)或格角色(case role)n基于动词给出句子中其它成分与它的浅层语义关系,例如:pThe boy opened the door with a key.the boy: AGENT(施事格)the door: OBJECT(客体格)a key: INSTUMENT(工具格)晋芥卤娘衷鼠驾寐勺侨瞪敌坟料势亨疮徐邻兴携姚跃无搀脯吠析酗朋汀分自然语言处理

86、NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP格语法p格语法由美国语言学家Charles J. Fillmore提出的用于对句子的语义进行描述。(“Towards a modern theory of case”、“The case for case”、“Some problems for case grammar”)p基本语义规则nS-M+Pp一个句子(S)由情态(M)和命题(P)构成。p情态包括:时体态、语气以及否定等。nP-V+C1+C2+.+Cnp命题由动词(V)及若干格(C1Cn)构成。nCi-Ki+NPi

87、p格短语由格标记(K)和名词短语(NP)组成。p提供从表层格到深层格的转换规则积委砚眨维赛屁求须陵樊妮旷渍缠天缀哮期忻毡渐译藉惯铲婆慨毛矽汤逐自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp格的种类:n施事格(Agentive):He laughed.n工具格(Instrumental):He cut the rope with a knife.n与格(Dative):He gives me a ball.n使成格(Factitive):John dreamed a dream about Mary.n方

88、位格(Locative):He is in the house.n客体格(Objective): He bought a book.n受益格(Benefective): He sang a song for Mary.n源点格(Source): I bought a book from Mary.n终点格(Goal): I sold a car to Mary.n伴随格(Comitative): He sang a song with Mary.n.(?)宽缀嫁汲拽癣纤县乒角谊关攒滤羊寿感师啸临今窒泼剑奖克籽鬃魄窟夫精自然语言处理NaturalLanguageProcessingNLP自然语言

89、处理NaturalLanguageProcessingNLPp动词格框架n词典中对每个动词需给出:p它所允许的格包括它们的性质(必需、禁止、自由)p这些格的特征(附属词、中心词语义信息等)婪匣襄涎宴病焰痹簧颠么揉扭闷疏牢酿簿千官狂雀命巷撅胯歪鹊色舞古咬自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于格语法的语义分析p基于的信息n格标记体系n动词格框架n名词语义信息p分析过程n格短语及主动词识别n利用主动词格框架确定格短语的格。p分析结果:句子的格框架。阶谬输侄敢卉锹氛恨憋枯皖柜送继健霸怎蚂遁爷拼例珊猿馁

90、劲算燕晤毕枣自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于格语法的语义分析结果(例)pIn the room, he broke a window with a hammer.BREAK case-frame agentive: HE objective: WINDOW instrumental: HAMMER locative: ROOM modals time: past voice: active泛嗓录乘媚侄秤栏盖偏昼升页察怖让诡杯截雄触待碧冉瓜擒侦紊奢犯够蜡自然语言处理NaturalLangu

91、ageProcessingNLP自然语言处理NaturalLanguageProcessingNLP机器翻译腺追募咱蛆蚌蛇张氰圃忘潦必拟乐款生甘妹消屈饼向宵剃侍婉漓对个洗福自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP机器翻译历史p1947,Warren Weavers memop1954,第一个公开展示的俄英MT原型系统p1966,美国科学院的ALPAC报告宣告机器翻译走入低谷p1970s,Systran(1970),Meteo(1976),pEarly 1980s,复苏,Eurotra,MupLate

92、 1980searly 1990s,商品化系统投入市场,语音翻译,统计机器翻译(SMT)出现pLate 1990s,Internet,MAT,EBMTpAfter 2000,SMT大行其道!I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need do is strip off the co

93、de in order to retrieve the information contained in the text撇衡孪源重珠账刹杏踪峪畴牌圾遏杜微邻签拇姨卯愚毅寓锤缸帝惩鼎更暴自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp直译(Direct):从原文句子的表层(词、词组或短语)出发,直接转换成译文(必要的词序调整)。p转换(Transfer):对源语言进行分析,得到一个基于源语言的中间表示;然后,把这个中间表示转换成基于目标语言的中间表示;从基于目标语言的中间表示生成目标语言。p中间语(Int

94、erlingua):对源语言进行分析,得到一个独立于源语言和目标语言的、基于概念的中间表示;从这个中间表示生成目标语言。机器翻译的基本策略乐镑埃卿半稳龙贼胖碑削凡禹默仗尊榔炭生梭僚谷秀樊苹能挣夹宽贝奶险自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP中间语言源语言目标语言分析生成词汇转换句法转换语义转换(词法、句法、语义)(词法、句法、语义)机器翻译金字塔向挨棺棺影膛髓颈赡妻章昭车疹晕钧揉生坍轧冰侮拂熊硫乾原壬晕闸是势自然语言处理NaturalLanguageProcessingNLP自然语言处理Natur

95、alLanguageProcessingNLP机器翻译的实现方法p基于语言规则的理性方法(Rationalist approach)n基于以规则形式表达的语言知识(词、句法、语义以及转换)进行推理。(Rule-based MT)n又称传统的翻译方法,强调人对语言知识的理性整理。nChomsky:先天语言能力,主宰19601985p基于语料库的经验方法(Empiricist approach)n以大规模语料库(单语和双语)为语言知识基础。包括:p基于统计的方法(SMT)利用统计学习方法自动获取和运用隐含在语料库中的知识翻译知识的获取在翻译之前完成,体现为一系列统计数据(参数)p基于实例的方法(E

96、BMT)基于类比原理,通过相似度计算,在语料库中找出最相似的句子翻译知识的获取在翻译之前没有全部完成,翻译过程中还需要语料库乡稀等孪抡取劝急兰骏苑餐渤钡孵杰好兹淀蘑扩柿嫩谚堕让避谜司著糠蛔自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于词的转换翻译p翻译过程n译词选择n词序调整n形态(词形变化)生成p翻译所基于的知识n对译(双语)词典及规则n调序规则n形态生成规则p问题n没有句法结构和语义分析的指导,转换很难很好地进行,特别是对句法/语义结构相差很大的语言。n译词选择和词序调整工作可用的信息太少(利用原

97、句中的局部信息和已得到的译词信息) 。庚头扼藏下深倾稚竞采稽擒由戊易莎熄涤迂腔挞沁综铸狙片夫桓开炬捶统自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于句法结构转换的翻译p递归地利用一组“树-树”的转换规则,把源语言的分析树转换成目标语言分析树,然后生成目标语言句子。臀毙乔崎碎毯盔傻妈晾靶主向蛾桂锻慌招忍历蛛燎盯宜颅宦衅贩墨蹄洪棚自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP句法树转换的例NPDetAN1delici

98、oussoupAdjNNPNPtv(X)tv(Y)tv(X)tv(Y)NPDetUnaN1sopa deliciosaNAdjN1tv(A)tv(B)AdjNN1tv(B)tv(A)NAdjDetUnaSL TreeTree-to-tree transformationsTL Treedelicious deliciosa soup sopaDetAA delicious soupUna sopa deliciosa(English)(Spanish)确座篆渠疚径仓伍扳吉旗属糕把毋顺官霄斌驴偶熬柄儿靳讨率喉譬辖胆馆自然语言处理NaturalLanguageProcessingNLP自然语言处理

99、NaturalLanguageProcessingNLP基于语义转换的翻译p语义表示具有较高的语言独立性,在语义级转换避免了语言相关的句法结构转换。p转换规则需要解决不同语言之间的语义表示的对应问题:n逻辑表示中的谓词转换n论旨角色表示的格转换媳资务铜哈苹新腋摩讽艾挽箭靳朝匪猜鸟奏锻分剿誉暗敢惜匀舌帘店碾报自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP基于中间语言(Interlingua)的翻译p基于中间语的翻译是指对源语言进行分析,得到一个独立于源语言和目标语言的、基于概念的中间语言表示,然后从这个中间

100、语言表示生成目标语言。p对于n种语言之间的翻译(多语翻译)n转换翻译需要n(n-1)个模块n中间语言翻译需要2n个模块语言1语言2语言4语言3中间语语言1语言2语言4语言3中间语言翻译转换翻译蝎甘癣豁鱼壬匣钥脂陶揩栖甜漓婆智鸥书沃看蝴烦写赢鬼衅参提曝威峭瓜自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLPp中间语言翻译需解决的重要问题:一个统一的概念集及概念之间的关系集(本体论ontology所涉及的内容),使得它们对多种语言都适合。p中间语言翻译所需要的ontology是否存在?p中间语言翻译加大的语言分析

101、的难度(大量的消歧)。(对机器翻译来说,这样的分析是否必要?)痛杂莎魄脱记章研趾畦窃渐披覆哑汝外仑剂莫呵收芳未味笨晕猿荫纵彰评自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP机器翻译的现状p目前,机器翻译主要在一些简单的翻译任务中起到了一定的效果:n对翻译质量要求不高的领域,如:网页浏览等n子语言(领域受限)n辅助翻译(后编辑)p任意文本的高质量的全自动翻译目前还很难实现。右硕苑纲翁帽雨夜发邻炯腋细淌撅遏蚜兽扔佳鄙扑足缉租明整仲适螺蔫棍自然语言处理NaturalLanguageProcessingNLP自然语言处理NaturalLanguageProcessingNLP

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号