第一讲统计自然语言处理概论2

资源描述

《第一讲统计自然语言处理概论2》由会员分享，可在线阅读，更多相关《第一讲统计自然语言处理概论2（86页珍藏版）》请在金锄头文库上搜索。

1、统计自然语言处理统计自然语言处理统计自然语言处理统计自然语言处理与信息检索与信息检索与信息检索与信息检索孙越恒孙越恒孙越恒孙越恒天津大学网络智能信息计算研究所天津大学网络智能信息计算研究所天津大学网络智能信息计算研究所天津大学网络智能信息计算研究所E-mail: 目录目录概述-NLP的概念、历史与现状NLP的研究内容NLP研究的困难NLP方法论之争统计方法示例本课的主要内容抛砖引玉1. 什么是自然语言什么是自然语言以语音为物质外壳，由词汇和语法两部分组成的符号系统。新华词典语言是人类交际的工具，是人类思维的载体是约定俗成的，有别于人工语言（程序设计语言）一、一、NLPNLP的概念的概念什么是自

2、然语言处理什么是自然语言处理 NLP, Natural Language Processing 用机器处理人类语言的理论和技术研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。NLP要研制表示语言能力和语言应用的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断完善这样的模型，并根据语言模型设计各种实用系统，以及对这些系统的评测技术。 -Bill Manaris, 从人机交互的角度看自然语言处理其它名称其它名称自然语言理解(Natural Language Understanding) 计算语言学(CL, Computational Linguistics) 人类语言技

3、术(Human Language Technology)从智能接口到知识处理从智能接口到知识处理智能接口智能接口功能：把现实世界中的语言信息送入电子世界主要成果拼音输入、手写输入、语音识别知识处理知识处理功能：对于已进入电子世界中的语言信息进行加工处理获得知识主要研究内容媒体的加工和管理、语言信息处理机器能够理解人的语言吗？机器能够理解人的语言吗？l很难，但是没有证据表明不行l什么是“理解理解” 结构主义：机器的理解机制与人相同问题在于谁也说不清自己理解语言的步骤功能主义：机器的表现与人相同图灵测试：图灵测试：如果通过自然语言的问答，一个人无法识别和他对话的是人还是

4、机器，那么就应该承认机器具有智能有用否？能用否？有用否？能用否？ NLPNLP有用吗？有用吗？据统计，日常工作中80%的信息来源于语言文本是人类知识最大的存储源，并且文本的数量在不停地增长电子邮件、新闻、网页、科技论文 NLPNLP能用吗？能用吗？并非每一样语言处理的应用都需要深层理解中间产品陆续产生成功应用的实例 word中英文自动校对搜索引擎 Google在线翻译2. NLP2. NLP的性质的性质 NLP需要的知识非常复杂语言学、计算机科学、数学、逻辑学、认知科学等理解语言的过程是动态的，不是静态的 NLP需要的知识大多是归纳的，不是演绎的存在Upper Bound（

5、上限）对歧义的限制和系统的覆盖率矛盾领域词典不充分3. NLP3. NLP的历史的历史 20世纪50年代起步机器翻译 50-60年代采用模式匹配的方法 60年代衰落 70-80年代采用面向受限域的深入理解的方法 90年代至今统计方法占主流随着互联网的发展而复苏互联网为NLP提供了市场需求和试验数据4. NLP4. NLP现状现状仍然缺乏理论基础词汇句法方面的问题尚未解决，已开始挑战语义、知识等深层课题语音识别中采用的统计语言模型推动了NLP的发展，目前的统计模型在向语言深层发展 Ontology受到普遍重视开放域处理时起时落一切才刚刚开始二、二、NLPNLP的研究内容的

6、研究内容1.1.自然语言处理的科学内容自然语言处理的科学内容语言学的任务刻画和解释语言现象人类是如何获取和理解语言的理解语言和世界的关系理解语言在通讯时的结构和内在含义人们在说些什么覆盖语言结构的各个方面人们说的事情和世界怎样联系在一起2. NLP2. NLP的不同层次的不同层次3. 3. 基础研究基础研究（1）词法分析词法分析的主要目的是找出词汇的各个词素，从中获得语言学信息。词法分析是很多中文信息处理任务的必要步骤。自动分词（中文分词中文分词）词性标注短语识别分词：分词：中文词与词之间没有明显的分隔符，使得计算机对于词的准确识别变得非常困难。因此，分词就成了中文处理中所

7、要解决的最基本的问题，分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。随着对中文处理关注程度的增加，国际计算语言联合会 (ACL) 下设的汉语特别兴趣 (SIGHAN) 研究组每年举办国际汉语分词评测大赛。（2 2）句法分析）句法分析句法分析是对句子结构进行分析，如句子的形式结构：主语、谓语、宾语等。句法分析是语言学理论和实际的自然语言应用的一个重要桥梁。一个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础。句法分析的一个例子小王和小李的妹妹结婚了。规则：S - NP VPNP - NP C NPNP - NNP - NP de NVP - V le词典：小

8、王：小李：和：妹妹：结婚：了：le的：de两种分析结果：（3 3）语义分析）语义分析语义分析的研究，如词义排歧和语义归纳、推理等，尚处于萌芽期并将逐步走向前台，成为下一阶段计算语言学研究的一个亮点。计算机本身没有智能，自然语言的语义分析和内容信息的理解，离不开相应的语义知识库的支持，它是帮助计算机“了解”人类语言的一个媒介和桥梁，也是让计算机逐渐“聪明”起来的一个物质前提。语义分析主要研究基于语义知识库的语义相似度的计算方法、语义知识库的自动构建等内容。语义：语言和世界的映射关系，符号之间的变换关系“语义”就是一个单词或者一个语言成分的含义的解释。而其解释通常不止一种。在自然语言中，一个词语的

9、新语义往往是通过流行的新的用法而产生的。一个词语或单词在句子中有多种解释，取哪一个呢？语用：语用：符号或者语言成分和它们的使用者之间的关系通俗解释：通俗解释：说话双方按照该单词或者语言成分所在的“语境”，来确定应该选择其中哪一种释义或含义。“语境”的范围可以变化很大：从一个句子，一段话，到整篇文章，乃至文章作者的身份和处境，所在的时代的文化背景。（4 4）语用分析语用分析例例1 1：有两组不同背景的人在一起开会。其中一组人正在讨论社会上流感问题，有人在说话中提到了“病毒”，他们是在医学的语境下指称“生物性病毒”。另一组人正在讨论计算机安全问题，有人在说话中提到了“病毒”，他们是在计算机安

10、全这一话题的语境下指称“计算机病毒”。评论：评论：这是同一词语在不同的“语境”中具有不同“语义”的典型例子。例例2 2：设想例1中正在讨论“计算机病毒”和“生物病毒”的这两组人正在一起开会，目的是为领导机关拟定某某年度科研项目申报提纲中的最后一个项目的名称。由于主管机关所掌握的经费的限制，允许申报的只剩下最后一项，而且必须在中午12点以前将申请书上报，过期作废。可以想象，这两组人将互相争执不下，达不成共识。但是为了避免因为上报时机延误而使双方都落空，最后决定先写出一个“表述一致，但是各持自己理解”的申请书：关于建立“病毒”检测与预防机制的研究。至于是那种病毒，留待今后进一步申述。评论：评论：

11、这是一个假想的例子，但是他显示了许多外交文件的实质。自然语言的含糊性在此显示出它伟大的功能。句法、语义和语用是语言的三个主要层面，句法、语义和语用是语言的三个主要层面，三者之间可能存在如下关系：三者之间可能存在如下关系：句法结构相同，语义不同句法结构相同，语义不同 “吃苹果”，“吃食堂” 句法：动宾结构语义分别为：动作-对象关系，动作-地点关系语义相同，句法结构不同语义相同，句法结构不同 “吃了苹果”，”苹果吃了” 语义：动作-对象句法分别为：动宾关系和主谓关系语义相同，语用有别语义相同，语用有别你真讨厌（男生对女生说）你真讨厌（女生对男生说）统计语言模型是自然语言处理的主流技

12、术之一。研究的主要内容包括各种语言模型的构建、改进以及应用N-gram模型隐马尔科夫（HMM）模型最大熵模型依存语言模型朴素贝叶斯模型条件随机场（5 5）统计语言模型）统计语言模型4. NLP4. NLP系统的主要任务系统的主要任务知识表示产生式谓词逻辑语义网络概念从属理论（CD理论）知识控制策略知识的冲突知识集成从多个知识源获取的不同层面，不同性质的知识如何融合在一起知识获取机器学习5. 5. 一个一个NLPNLP的例子：英汉机器翻译的例子：英汉机器翻译输入英文句子输入英文句子： - Miss Smith putted two books on this dining

13、 table. 形态分析形态分析(Morphological Analysis)MissSmithput (+ed)twobook+sonthisdining table.句法分析句法分析(Syntactic Analysis) 词汇转换词汇转换Miss 小姐Smith 史密斯put (+ed) 放Two 两book+s 书on 在上面this 这dining table. 餐桌短语转换短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面生成模拟人类写作的过程，生成符合逻辑的连贯的文本史密斯小姐放两书在这餐桌上面史密斯小姐（把）两（本）书放在这（张）餐桌上面最终翻译结

14、果英文：Miss Smith put two books on this dining table. 中文：史密斯小姐把两本书放在这张餐桌上面6. 6. 语言处理的步骤语言处理的步骤文本预处理句子切分形态分析(Morphological Analysis) 分词词性标注(Part-of-Speech Tagging) 句法分析词义消歧(Word Sense Disambiguation) 语义关系分析指代消解(Anaphora Resolution) 逻辑形式(Logic Form)三、三、NLPNLP研究的困难研究的困难歧义 (ambiguity)病构 (ill-formedn

15、ess)复述 (paraphrasing)1.1.歧义歧义（1 1）注音歧义）注音歧义快乐(le4)的单身汉火红的第五乐(yue4)章（2 2）分词歧义）分词歧义交集型歧义研究/ 生命/ 的/ 起源研究生/ 命/ 的/ 起源组合型歧义他/ 从/ 马/ 上/ 下来他/ 从/ 马上/ 下来和未登录词绞在一起刘挺/ 拔/ 出/ 宝剑刘/ 挺拔/ 出/ 宝剑多交集字段的歧义结合成分子时有的歧义无法在句子内部解决乒乓球拍卖完了（3 3）短语歧义）短语歧义咬死猎人的狗咬死猎人的狗（4 4）句法歧义）句法歧义 Our company is training worker

16、s.（5 5）语义歧义）语义歧义-词义歧义词义歧义打玩乒乓球打编织毛衣打通讯电话（6 6）语用歧义）语用歧义 “你真讨厌！”2. 2. 病构病构真实文本的语言现象非常复杂，不规范，不干净未登录词(Unknown Words) 已知词的新用法例子：Please xerox a copy to me. 不合乎语法的句子例子：他非常男人。（名词不能受程度副词修饰）不合乎语义约束的搭配例子：My car drinks gasoline like water. 由于作者疏忽造成的错误真实的语言是非常脏的3. 3. 复述复述举例毛泽东出生于1893年毛泽东出生在1893年毛泽

17、东诞生于1893年毛泽东同志是1893年出生的毛主席生于1893年毛泽东生于光绪6年（虚拟的）四、四、NLPNLP方法论之争方法论之争理性主义和经验主义理性主义和经验主义理性主义者(Rationalist) 1960-1985: 理性主义是主流他们的信念乔姆斯基先天语言能力对于语法的描述形成基于规则的传统语言处理技术句法规则的确抓住了语言的主要模式什么是语言中最普遍的模式呢，是否需要量化？理性主义的问题理性主义的问题基于规则的方法需要大量的人工操作，人类总结的规则不完备、不一致，规则多了相互冲突，难以对抗复杂的语言现象语言的变化是渐变的比如：“打”电话，究竟从那一

18、天开始“打”被赋予了通讯的意义呢经验主义者经验主义者信念孩子的大脑只能做一些普通的操作：联想、模式识别、一般化。孩子从丰富的信号输入中学习到了语言的结构设定一个语言模型，推导出参数值形成今天的基于统计的语言处理技术对每一种语言现象均给出统计量化指标意义：“观其伴，知其意”经验主义经验主义我们生活在一个充满不确定和不完整信息的世界里人类的认知是一个随机现象语言也是一个随机现象对没有见过的语言现象进行估计复杂的概率模型理性主义和经验主义的差别理性主义和经验主义的差别它们描述了不同的事情理性主义试图去描写人脑中的模型结构主义者经验主义试图去描写实际出现的语言功能主义者

19、外部语言是内部语言的非直接的事实进一步探讨进一步探讨从九十年代初期开始，统计方法开始成为自然语言处理的主流规范的语言和非规范的语言之间没有明确的界限统计还是非统计，界限也比较模糊追求纯净，还是实用自然语言处理尚不存在统一的数学基础概率模型、信息论和线性代数语言工程语言工程近来，人们更有兴趣解决工程实际问题人们处理真实世界中的语料，并客观地比较不同方法的优劣面向真实文本的评测，使科学研究和技术开发进一步统一起来。 90年初的汉语分词系统仍未考虑“未登录词”问题，那时已经宣称分词结果达到90%以上，其实只是解决了部分歧义问题。90年代中后期才开始面向真实文本的处理。五、统计方法

20、示例五、统计方法示例从语料库中学习从语料库中学习语料库（Corpus, Corpora）按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合，主要用于研究自然语言的规律，特别是统计语言学模型的训练以及相关系统的评价和测试。可以是原始的文本（生语料库生语料库）也可以是带标记的文本（熟语料库熟语料库）语料库是统计NLP的知识来源语料库标注或加工语料库标注或加工对电子语料（包括书面语和口语）进行不同层次的语言学分析，并添加相应的“显性”的解释性的语言学信息过程。与不同层次的自然语言分析相对应，语料库的加工主要包括词性标注、句法标注、语义标注和语用标注等，由于汉语书写的特

21、殊性，汉语的语料加工还包括分词。语料库示例语料库示例语料库资源语料库资源 Brown Corpus 带词性标记，一百万词布朗大学平衡语料库美国英语 1960s-1970s Lancaster-Oslo-Bergen (LOB) British English of the Brown corpus Susanne corpus Brown语料库的子集，13万词Lexical Resources Penn Treebank（宾州树库）美国宾西法尼亚大学开发取材华尔街日报以开发中文树库，但规模有限 Canadian Hansards 加拿大议会双语文本 WordNet 语义词典，免费使

22、用 HowNet 中文语义词典. 北京大学语法词典北大-富士通人民日报语料库半年的人民日报带词性标注举例举例一篇短篇小说作者：Mark Twain 小说名：Tom Sawyer 词数(Word tokens) 71,370 词形数(Word types) different things present 8,018 平均每个词形出现: 8.9次最高频率的词汇最高频率的词汇 English the 3332 and 2972 a 1775 to1725 of 1440 Chinese 的5%一些结果一些结果词频：具有该词频的词的数目词频：具有该词频的词的数目1 39932 12923

23、 6644 4105 2436 1997 1728 1319 8210 9111-50 54051-100 99100102 一些结果一些结果最高频的100个词覆盖了全部词汇出现次数的一半一半的词汇在语料库中只出现一次 90%的词形出现10次或更少很难预测那些很少出现或者干脆在语料库中从未出现的词的行为齐普夫定律齐普夫定律讲者和听者试图使用最小的力气讲者希望：使用最少的词汇，没有标点空格听者希望：使用较多的词汇，丰富的标记什么是齐普夫定律？在一个大的语料库中统计词频，然后将词按照词频从高到低的顺序排列成一张表一个词的词频 f 和它在表中的序号 r 之间存在如下关系：f 1/r

24、 or fr=k, k是一个常数数据数据词频的分布词频的分布齐普夫定律是对人类语言词频分布的一个粗糙而有用的描述: 非常常用的词很少中频词的数量中等大量低频词从语料库中，我们能够观察到少数高频词的丰富的信息，而对大量低频词却观察不到足够数量的信息词义和词频的关系词义和词频的关系一个词的词义的数量和该词词频排序的平方根成反比关系词频和词长词频和词长词频和词长是反比例关系短词经常被使用 “in”, “of”, . “的”，“了” 这符合通讯编码理论搭配搭配搭配(Collocations) 复合词(disk drive) 短语动词(make up) 其它固定短语(bacon and e

25、ggs).二元搭配二元搭配例子： 80871 of the 58841 in the 26430 to the 21842 on the 21839 for the 18568 and the对搭配进行过滤对搭配进行过滤根据词性过滤掉一些搭配，例如虚词，从而获得真正有意义的搭配最高频的搭配模式是：动词+名词形容词+名词名词+名词有意义的搭配有意义的搭配例子： 11487 New York A N 7261 United States A N 5412Los Angeles N N 3301 last year A N 3191 Saudi Arabia N N 2699 last

26、 week A N 2514 vice president A N搭配知识搭配知识在一个窗口中抽取的搭配知识可以影射深层的句法关系例子：维护国家的利益 VP(V+N)+de+N or V+NP(N+de+N) 在语料库中有: 维护我们的利益, 维护中国的利益, . 国家利益不容侵犯, 损害国家的利益, 红楼梦前80回与后40回的统计分析预备知识导论数学基础语言学基础语料库词汇搭配统计推理词义消歧词汇知识获取六、本课的主要内容六、本课的主要内容语法马尔科夫模型词性标注概率上下文无关文法概率句法分析器应用机器翻译聚类和分类信息检索参考书参考书 Chris

27、topher D. Manning, Hinrich Schutze Foundations of Statistical Natural Language Processing, MIT Press, 1999 Daniel Jurafsky, James H. Martin Speech and Language Processing, Prentice Hall, 2000 宗成庆统计自然语言处理，清华大学出版社，2008NLPNLP领域的学术会议领域的学术会议主要国际会议 ACL Association of Computational Linguistics Coling IJC

28、NLP EACL(European Chapter of ACL) ANLP(Applied NLP) SIGIR(SIG Information Retrieval) TREC(Text REtrieval Conference) 主要国内会议 JSCL(全国计算语言学联合学术会议)NLPNLP领域主要学术机构领域主要学术机构国外美国 CMU-LTI(Language Technology Institute) 南加州大学ISI(Information Science Institute) 宾西法尼亚大学日本 ATR 加拿大阿尔博塔：林德康国内外企和港台微软研究院：周明、李沐、高剑

29、峰香港城市大学：黄锦辉台湾：苏克毅、陈克俭、简立峰国内研究机构国内研究机构北京清华：孙茂松、周强北大：俞士汶、孙斌中科院自动化所：徐波、赵军声学所：黄曾阳北京语言大学：宋柔、荀恩东京外复旦：吴立德、黄萱菁交大：王永成东北大学：姚天顺、朱靖波厦门大学：史晓东哈工大：。七、抛砖引玉1. 基于搜索引擎的自动术语翻译目标：不借助于任何辞典工具而从Web中自动挖掘出术语的翻译方法：模拟用户借助搜索引擎查找术语翻译的行为，并将其自动化原理：Web上存在大量的部分平行语料如：该课程是机器学习(Machine Learning)的导论课程。这门课提供了机器学习中许多技术及算法的概观。系统实现：系统的初始查询界面本地词典结果显示界面基于搜索引擎的术语翻译界面基于搜索引擎的术语查询结果在“翻译包含”中输入过滤词语输入过滤词语后新的显示界面 2. 哼歌系统背景：在搜索某首歌时，不知道是谁唱的，也不知道歌曲名称和歌词，只知道歌曲的调儿，怎么查找这样的歌曲呢？语音识别的一个典型应用。语音识别最典型的模型：隐马尔可夫模型课后思考如果做一个信息过滤项目（比如垃圾广告过滤），那么应如何进行？谢谢！谢谢！

展开阅读全文

第一讲统计自然语言处理概论2

最新文档