作为人工智能分支的自然语言处理停滞的技术

上传人:ldj****22 文档编号:48477331 上传时间:2018-07-15 格式:PPT 页数:38 大小:496KB
返回 下载 相关 举报
作为人工智能分支的自然语言处理停滞的技术_第1页
第1页 / 共38页
作为人工智能分支的自然语言处理停滞的技术_第2页
第2页 / 共38页
作为人工智能分支的自然语言处理停滞的技术_第3页
第3页 / 共38页
作为人工智能分支的自然语言处理停滞的技术_第4页
第4页 / 共38页
作为人工智能分支的自然语言处理停滞的技术_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《作为人工智能分支的自然语言处理停滞的技术》由会员分享,可在线阅读,更多相关《作为人工智能分支的自然语言处理停滞的技术(38页珍藏版)》请在金锄头文库上搜索。

1、作为人工智能分支的自然语言处理: 停滞的技术 赵 海 上海交通大学 计算机科学与工程系 沈阳 2010.09.181起源以人工智能的知识工程的角度来看待分析当前的自然语言处理技术。 当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重 渗透。 可将其归结为一种知识获得和学习分离的智能系统处理方法。忽略了基本的机器学习原则而导致低效的知识处理 两个关联但是有区别的困境 单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识 获取的人工智能困难。 以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广 性能增长。我们的建议。2内容 自然语言处理中的机器学习技术的兴起 被忽略

2、的准则 没有免费的午餐 丑小鸭 Zipf律 困境的实例 学习性能增长根本来源是语料增长 指数增长的语料带来线形的性能提升 结语3机器学习的兴起 现代方法 最大熵用于词性标注 Adwait Ratnaparkhi, Jeffrey C. Reynar, Salim Roukos. A Maximum Entropy Model for Prepositional Phrase Attachment. HLT 1994 机器翻译 Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for

3、Statistical Machine Translation. In ACL 2002: Proc. of the 40th Annual Meeting of the Association for Computational Linguistics (best paper award), pp. 295-302, Philadelphia, PA, July 2002. CoNLL The Conference on Computational Language Learning (CoNLL-97) was held on July 11, 1997 in Madrid, Spain.

4、 Named entity recognition, chunking, semantic role labeling, dependency parsing, joint learning of syntactic and semantic dependencies, etc4机器学习方法的兴起 中文处理 Bakeoff-1: 2003 分词 Bakeoff-2: 2005 分词,统一的机器学习方法 Bakeoff-3: 2006 分词,命名实体识别 Bakeoff-4: 2007,2008 分词,命名实体识别,词性标注5为什么要机器学习 样本比规则好定义 规则会忽略低频情形 语言的解释涉及

5、的因素过多 Fernando Pereira Machine Learning in Natural Language Processing University of Pennsylvania NASSLLI, June 20026为什么要机器学习 机器学习降低了知识表示的难度!7机器学习方法的特征 标注数据:语料 知识表示 学习方法 知识获取8机器学习方法的特征 机器学习针对于传统的人工智能。 知识表示和获取的分离 语料构建:专注于知识表示 机器学习:专注于知识获取 对比:专家系统 规则的获取和表示是同步的。 规则的管理是低效率的,困难的。9机器学习和知识源 从知识工程看待机器学习 规则1

6、 学习模型本身/特征体系 规则2-n 标注语料10学习模型 学习模型的三要素 目标函数:知识源 特征体系:部分的知识源 参数估计算法:与知识源基本无关11机器学习:数据 假定已有数据合理近似现实世界? 拥有数据 训练数据集(training set data):训练 测试数据(testing data):评估 验证集validation set:避免过拟合overfitting 。 真实数据(real data):最终的检验12学习模型并不重要 定理:没有免费的午餐结论描述 by David Wolpert and William G. Macready 由于对所有可能函数的相互补偿,最优化算

7、法的性能是等价的。 没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。 该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。 参考文献Wolpert, D.H., Macready, W.G. (1995), No Free Lunch Theorems for Search, Technical Report SFI-TR-95-02-010 (Santa Fe Institute). Wolpert, David (1996), “The Lack of A Priori Distinctions between Learning Algorithms,“ N

8、eural Computation, pp. 1341-1390. Wolpert, D.H., Macready, W.G. (1997), “No Free Lunch Theorems for Optimization,“ IEEE Transactions on Evolutionary Computation 1, 67.13算法的人工倾向 任何学习算法都需要一些“倾向性”,用来区 分可能的结果。 回到知识源的观点 学习模型的三要素 目标函数:知识源 特征体系:部分的知识源 参数估计算法:与知识源基本无关14不拒绝个别优化 机器学习的最优是依赖于案例特性的! 算法可能特别适应于某个特

9、定任务 存在一般的优越算法吗? 不存在15学习模型 vs. 特征工程 我们给出的一个没有免费午餐定理的直观的强化描述 给定任何一个学习模型,如果进行充分的特征工程,则 在此意义下,没有一个学习模型能够给出更优的性能。 举例: 我们在依存句法分析上的实践 Nivre验证SVM提供了最强的性能 我们用最大熵在同样的学习框架下给出了更强的结果。 而通常认为SVM这样的边界最大化分类器优于最大熵。 我们在语义依存分析上的实践 我们同行用联合学习模型,我们使用纯粹的特征工程。 CoNLL-2009评测结果:我们在SRL项目总分第一。16丑小鸭原理20世纪60年代美籍日裔模式识别专家渡边慧证明了“丑小鸭定

10、理”。该 定理认为“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样 大”。 世 界上不存在分类的客观标准,一切分类标准都是主观的。 渡边慧举了鲸鱼的例子说明该定理:按照生物学分类方法,鲸鱼属于 哺乳类偶蹄目,和牛是一 类;但在产业界,捕鲸与捕鱼都要行船出海 ,鲸和鱼同属水产业,而不属于包括牛的畜牧业。 分类结果取决于选择什么特征作为分类标准,而特征的选择又依存于 人 的目的或价值观。 丑小鸭是白天鹅的幼雏,在画家眼里,丑小鸭和白天鹅的区别大于两 只白天鹅的区别;但在遗传学家眼里,丑小鸭与其父亲或母亲的差别 小于父母 之间的差别。 参考文献 Watanabe, Satosi (1969).

11、Knowing and Guessing: A Quantitative Study of Inference and Information. New York: Wiley. pp. 376377. 17Zipfs Law 数据稀疏的严重性18严重的问题 统计方法如何克服严重的稀疏性? 不断增大标注数据19研究者的通常做法 忙于把各种最新的机器学习方法移植到所 有的自然语言处理任务上,并企图证明某 个最新机器学习模型的移植是最有效的。 忘了没有免费的午餐? 少有人考虑特征工程/语料构建20不能脱离人的主观性的机器学习 小结: 从语料中自动获得表达知识的规则 依赖于人的主观定义下的启发式规则

12、确定特征 和目标函数 知识的流动:从语料到学习获得的模型 大量的标注数据的获得并不容易,但是必须21一个简单的机器学习任务: 中文分词 Bakeoff切分语料 CRF学习模型 字标注框架22分词信息的知识源 切分语料 辅助切分器作为特征 词典 最大匹配结果作为特征 参考文献 Hai Zhao, Chang-Ning Huang, Mu Li (2006). An Improved Chinese Word Segmentation System with Conditional Random Field, SIGHAN-2006 Low, Jin Kiat, & Ng, Hwee Tou, &

13、 Guo, Wenyuan (2005). A Maximum Entropy Approach to Chinese Word Segmentation, SIGHAN-200523数据Bakeoff-2006ASCityUCTBMSRATraining(M)8.442.710.832.17Test(K)146.3364.5256.5172.6方法 字标注学习方法 CRFs 前向最大匹配算法参考文献 Hai Zhao, Yan Song and Chunyu Kit, How Large a Corpus do We Need: Statistical Method vs. Rule-bas

14、ed Method, LREC-201024实验1: 统计方法给出的结果 等效于有效知识源的扩大 辅助分类器ABCDEFASMSRSegMSRSegNEMSRA2005PKU2003PKU2005CTB2006 GHIJKLASAS2003AS2005CityU2003CityU2005CityU2006AS200625实验1: 结果 CTB2006 MSRA2006baseline+Ext.Dict+C+D+E+G+H+I+J+K+A+B(Final)0.9270.94230.9468 0.94750.95150.95180.95220.9531Baseline+Ext.Dict.+E+G+

15、H+K+A+B(Final)+C 0.9610.96940.97040.98230.98260.970226实验1: 为什么附加语料提升性能 作为机器学习的解释 学习模型记住了引入的新的字搭配模式,改进 了Foov 我们需要多少附加语料? 有效知识源扩大:只要知识源规模不断扩 大,性能就能提升? 学习模型的贡献在哪里?27实验1: 谨慎的结论 开放测试问题是否可以转换为一个单一的 可供集成的语言资源的扩大。 我们部分做到了这一点! 机器学习模型的贡献有限。28实验2: 评估语料规模对性能的影响 如果 语料规模是唯一影响性能的因素, 那么 对于一个特定的性能度量要多大规模的语料来 学习?29实验2: 数据划分 是用平均化策略克服过小数据集的数据稀疏性30实验2: 学习曲线: CRFs vs. FMM31实验2: CRFs 性能vs语料规模 指数增长的语料带来线形性能提升32实验2: FMM 性能 vs. 语料规模33实验2: FMM 词典大小 vs. 性能34实验2: 小结 坏消息: 统计方法下面,线性的性能增长要指数规模扩 大的语料以便克服 Zipf 率带来的稀疏性。 扩大语料并非易事。 好消息:规则方法要求线性的资源扩大 。 统计方法 vs 规则方法

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号