作为人工智能分支的自然语言处理停滞的技术

资源描述

《作为人工智能分支的自然语言处理停滞的技术》由会员分享，可在线阅读，更多相关《作为人工智能分支的自然语言处理停滞的技术（38页珍藏版）》请在金锄头文库上搜索。

1、作为人工智能分支的自然语言处理：停滞的技术赵海上海交通大学计算机科学与工程系沈阳 2010.09.181起源以人工智能的知识工程的角度来看待分析当前的自然语言处理技术。当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透。可将其归结为一种知识获得和学习分离的智能系统处理方法。忽略了基本的机器学习原则而导致低效的知识处理两个关联但是有区别的困境单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难。以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广性能增长。我们的建议。2内容自然语言处理中的机器学习技术的兴起被忽略

2、的准则没有免费的午餐丑小鸭 Zipf律困境的实例学习性能增长根本来源是语料增长指数增长的语料带来线形的性能提升结语3机器学习的兴起现代方法最大熵用于词性标注 Adwait Ratnaparkhi, Jeffrey C. Reynar, Salim Roukos. A Maximum Entropy Model for Prepositional Phrase Attachment. HLT 1994 机器翻译 Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for

3、Statistical Machine Translation. In ACL 2002: Proc. of the 40th Annual Meeting of the Association for Computational Linguistics (best paper award), pp. 295-302, Philadelphia, PA, July 2002. CoNLL The Conference on Computational Language Learning (CoNLL-97) was held on July 11, 1997 in Madrid, Spain.

4、 Named entity recognition, chunking, semantic role labeling, dependency parsing, joint learning of syntactic and semantic dependencies, etc4机器学习方法的兴起中文处理 Bakeoff-1: 2003 分词 Bakeoff-2: 2005 分词，统一的机器学习方法 Bakeoff-3: 2006 分词，命名实体识别 Bakeoff-4: 2007,2008 分词，命名实体识别，词性标注5为什么要机器学习样本比规则好定义规则会忽略低频情形语言的解释涉及

5、的因素过多 Fernando Pereira Machine Learning in Natural Language Processing University of Pennsylvania NASSLLI, June 20026为什么要机器学习机器学习降低了知识表示的难度！7机器学习方法的特征标注数据：语料知识表示学习方法知识获取8机器学习方法的特征机器学习针对于传统的人工智能。知识表示和获取的分离语料构建：专注于知识表示机器学习：专注于知识获取对比：专家系统规则的获取和表示是同步的。规则的管理是低效率的，困难的。9机器学习和知识源从知识工程看待机器学习规则1

6、学习模型本身/特征体系规则2-n 标注语料10学习模型学习模型的三要素目标函数：知识源特征体系：部分的知识源参数估计算法：与知识源基本无关11机器学习：数据假定已有数据合理近似现实世界？拥有数据训练数据集（training set data）：训练测试数据（testing data）：评估验证集validation set：避免过拟合overfitting 。真实数据（real data）：最终的检验12学习模型并不重要定理：没有免费的午餐结论描述 by David Wolpert and William G. Macready 由于对所有可能函数的相互补偿，最优化算

7、法的性能是等价的。没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间，对无限搜索空间结论是否成立尚不清楚。参考文献Wolpert, D.H., Macready, W.G. (1995), No Free Lunch Theorems for Search, Technical Report SFI-TR-95-02-010 (Santa Fe Institute). Wolpert, David (1996), “The Lack of A Priori Distinctions between Learning Algorithms,“ N

8、eural Computation, pp. 1341-1390. Wolpert, D.H., Macready, W.G. (1997), “No Free Lunch Theorems for Optimization,“ IEEE Transactions on Evolutionary Computation 1, 67.13算法的人工倾向任何学习算法都需要一些“倾向性”，用来区分可能的结果。回到知识源的观点学习模型的三要素目标函数：知识源特征体系：部分的知识源参数估计算法：与知识源基本无关14不拒绝个别优化机器学习的最优是依赖于案例特性的！算法可能特别适应于某个特

9、定任务存在一般的优越算法吗？不存在15学习模型 vs. 特征工程我们给出的一个没有免费午餐定理的直观的强化描述给定任何一个学习模型，如果进行充分的特征工程，则在此意义下，没有一个学习模型能够给出更优的性能。举例：我们在依存句法分析上的实践 Nivre验证SVM提供了最强的性能我们用最大熵在同样的学习框架下给出了更强的结果。而通常认为SVM这样的边界最大化分类器优于最大熵。我们在语义依存分析上的实践我们同行用联合学习模型,我们使用纯粹的特征工程。 CoNLL-2009评测结果：我们在SRL项目总分第一。16丑小鸭原理20世纪60年代美籍日裔模式识别专家渡边慧证明了“丑小鸭定

10、理”。该定理认为“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”。世界上不存在分类的客观标准，一切分类标准都是主观的。渡边慧举了鲸鱼的例子说明该定理：按照生物学分类方法，鲸鱼属于哺乳类偶蹄目，和牛是一类；但在产业界，捕鲸与捕鱼都要行船出海，鲸和鱼同属水产业，而不属于包括牛的畜牧业。分类结果取决于选择什么特征作为分类标准，而特征的选择又依存于人的目的或价值观。丑小鸭是白天鹅的幼雏，在画家眼里，丑小鸭和白天鹅的区别大于两只白天鹅的区别；但在遗传学家眼里，丑小鸭与其父亲或母亲的差别小于父母之间的差别。参考文献 Watanabe, Satosi (1969).

11、Knowing and Guessing: A Quantitative Study of Inference and Information. New York: Wiley. pp. 376377. 17Zipfs Law 数据稀疏的严重性18严重的问题统计方法如何克服严重的稀疏性？不断增大标注数据19研究者的通常做法忙于把各种最新的机器学习方法移植到所有的自然语言处理任务上，并企图证明某个最新机器学习模型的移植是最有效的。忘了没有免费的午餐？少有人考虑特征工程/语料构建20不能脱离人的主观性的机器学习小结：从语料中自动获得表达知识的规则依赖于人的主观定义下的启发式规则

12、确定特征和目标函数知识的流动：从语料到学习获得的模型大量的标注数据的获得并不容易，但是必须21一个简单的机器学习任务：中文分词 Bakeoff切分语料 CRF学习模型字标注框架22分词信息的知识源切分语料辅助切分器作为特征词典最大匹配结果作为特征参考文献 Hai Zhao, Chang-Ning Huang, Mu Li (2006). An Improved Chinese Word Segmentation System with Conditional Random Field, SIGHAN-2006 Low, Jin Kiat, & Ng, Hwee Tou, &

13、 Guo, Wenyuan (2005). A Maximum Entropy Approach to Chinese Word Segmentation, SIGHAN-200523数据Bakeoff-2006ASCityUCTBMSRATraining(M)8.442.710.832.17Test(K)146.3364.5256.5172.6方法字标注学习方法 CRFs 前向最大匹配算法参考文献 Hai Zhao, Yan Song and Chunyu Kit, How Large a Corpus do We Need: Statistical Method vs. Rule-bas

14、ed Method, LREC-201024实验1: 统计方法给出的结果等效于有效知识源的扩大辅助分类器ABCDEFASMSRSegMSRSegNEMSRA2005PKU2003PKU2005CTB2006 GHIJKLASAS2003AS2005CityU2003CityU2005CityU2006AS200625实验1: 结果 CTB2006 MSRA2006baseline+Ext.Dict+C+D+E+G+H+I+J+K+A+B(Final)0.9270.94230.9468 0.94750.95150.95180.95220.9531Baseline+Ext.Dict.+E+G+

15、H+K+A+B(Final)+C 0.9610.96940.97040.98230.98260.970226实验1: 为什么附加语料提升性能作为机器学习的解释学习模型记住了引入的新的字搭配模式，改进了Foov 我们需要多少附加语料？有效知识源扩大：只要知识源规模不断扩大，性能就能提升？学习模型的贡献在哪里？27实验1: 谨慎的结论开放测试问题是否可以转换为一个单一的可供集成的语言资源的扩大。我们部分做到了这一点！机器学习模型的贡献有限。28实验2: 评估语料规模对性能的影响如果语料规模是唯一影响性能的因素, 那么对于一个特定的性能度量要多大规模的语料来学习?29实验2: 数据划分是用平均化策略克服过小数据集的数据稀疏性30实验2: 学习曲线: CRFs vs. FMM31实验2: CRFs 性能vs语料规模指数增长的语料带来线形性能提升32实验2: FMM 性能 vs. 语料规模33实验2: FMM 词典大小 vs. 性能34实验2: 小结坏消息：统计方法下面，线性的性能增长要指数规模扩大的语料以便克服 Zipf 率带来的稀疏性。扩大语料并非易事。好消息：规则方法要求线性的资源扩大。统计方法 vs 规则方法

展开阅读全文

作为人工智能分支的自然语言处理停滞的技术

最新文档