周志华机器学习ppt Chap01绪论课件

资源描述

《周志华机器学习ppt Chap01绪论课件》由会员分享，可在线阅读，更多相关《周志华机器学习ppt Chap01绪论课件（39页珍藏版）》请在金锄头文库上搜索。

1、机器学习导论,(2016 春季学期),一、绪论,机器学习,机器学习是从人工智能中产生的一个重要学科分支，是实现智能化的关键,机器学习,机器学习,（Machine Learning）,究竟是什么东东？,看个例子,“文献筛选”的故事,C. Brodley et al., AI Magazine 2012,在“循证医学”（evidence-based medicine）中，针对特定的临床问题，先要对相关研究报告进行详尽评估,查询 PubMed 以获取,候选摘要,人工找出值得全文审读的文章,“文献筛选”的故事在一项关于婴儿和儿童残疾的研究中，美国Tufts医学中心筛选了约 33,000 篇

2、摘要尽管 Tufts医学中心的专家效率很高，对每篇摘要只需 30 秒钟，,但该工作仍花费了 250 小时,每项新的研究都要重复,这个麻烦的过程！需筛选的文章数在不断显著增长！,“文献筛选”的故事,为了降低昂贵的成本, Tufts医学中心引入了机器学习技术,邀请专家阅读少量摘要，,标记为“有关”或 “无关”,分类模型,对是否“有关”,进行预测,人类专家只需阅读 50 篇摘要，系统的自动筛选精度就达到 93% 人类专家阅读 1,000 篇摘要，则系统的自动筛选敏感度达到 95% (人类专家以前需阅读 33,000 篇摘要才能获得此效果),决策树，神经网络，支持向量机， Bo

3、osting，贝叶斯网，,模型,训练数据,（label）,训练,新数据样本 (浅白, 蜷缩, 浊响, ?),?= 是类别标记未知,典型的机器学习过程使用学习算法（learning algorithm）类别标记,机器学习与数据挖掘,机器学习能做什么？,我们可能每天都,在用机器学习,权,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,20,保,留,机器学习模型搜索引擎机器学习技术正在支撑着各种搜索引擎,搜索：南京大学,例如：互联网搜索 ,有,器,学,习,导,论,课,程,专,保,留,权,用,所,20,16,南,京,大,学,机,例如：自动汽车驾驶,（即将改变人类

4、生活）,机器学,习,模型,方向盘旋转幅度油门幅度,刹车幅度,车载摄像头,车载雷达控制汽车美国在20世纪 80年代就开始研究基于机器学习的汽车自动驾驶技术 DARPA Grand Challenge 2004,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,机器学习能做什么？,小数据上就已经,很有用,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如：画作鉴别,（艺术）,画作鉴别(painting authentication)：确定作品的真伪勃鲁盖尔（1525-1569）的作品？出自 J.

5、 Hughes et al., PNAS 2009 梵高（1853-1890）的作品？出自 C. Johnson et al., IEEE-SP, 2008,机,器,学,习,导,论,20,16,南,京,大,学,课,程,专,用,所,有,权,保,留,例如：画作鉴别,（艺术）,除专用技术手段外，笔触分析 (brushstroke analysis) 是画作鉴定的重要工具；它旨在从视觉上判断画作中是否具有艺术家的特有“笔迹”。,该工作对专业知识要求极高 - 具有较高的绘画艺术修养 - 掌握画家的特定绘画习惯,只有少数专家花费很大精力才能完成分析工作！,很难同时掌握不同时期、不同流派

6、多位画家的绘画风格！ C. Johnson et al., IEEE-SP, 2008,论,课,程,专,用,所,有,权,16,南,京,大,学,20,机,器,学,习,导,保,留,例如：画作鉴别,（艺术）,真迹 + 赝品,特有“笔迹”,待鉴定画作,为了降低分析成本, 机器学习技术被引入自动鉴定分类模型,Krller Mller美术馆与Cornell等大学的学者对82幅梵高真迹和6幅赝品进,行分析，自动鉴别精度达 95%,C. Johnson et al., IEEE-SP, 2008,Dartmouth学院、巴黎高师的学者对8幅勃鲁盖尔真迹和5幅赝品进行分析，,自动鉴别精度达 100%,J.

7、Hughes et al., PNAS 2009J. Mairal et al., PAMI12,(对用户要求低、准确高效、适用范围广),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如：古文献修复,（文化）,古文献是进行历史研究的重要素材，但是其中很多损毁严重 Dead Sea Scrolls (死海古卷) - 1947年出土 - 超过30,000个羊皮纸片段 Cairo Genizah - 19世纪末被发现 - 超过300,000个片段 - 散布于全球多家博物馆高水平专家的大量精力被用于古文献修复 L. Wolf et al., IJCV 2

8、011,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如：古文献修复,（文化）,一个重要问题：原书籍已经变成分散且混杂的多个书页，如何拼接相邻的书页？人工完成书页拼接十分困难 - 书页数量大，且分布在多处 - 部分损毁较严重，字迹模糊 - 需要大量掌握古文字的专业人才近年来，古文献的数字化浪潮给自动文学修复提供了机会,所,有,权,保,留,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,例如：古文献修复,（文化）,以色列特拉维夫大学的学者将机器学习用于自动的书页拼接,已确定相邻,已确定不相邻,分类模型,判断是否相邻,专家

9、确认,相邻,在Cairo Genizah测试数据上，系统的自动判断精度超过 93% 新完成约 1,000 篇Cairo Genizah文章的拼接 (对比：过去整个世纪，数百人类专家只完成了几千篇文章拼接),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,机器学习能做什么？,大数据上更惊人,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如：帮助奥巴马胜选,（政治）,时代周刊,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如：帮助奥巴马胜选,（政治）,通过机器学习模型：

10、在总统候选人第一次辩论后，分析出哪些选民将倒戈，为每位选民找出一个最能说服他的理由精准定位不同选民群体，建议购买冷门广告时段，广告资金效率比2008年提高14% 向奥巴马推荐，竞选后期应当在什么地方展开活动那里有很多争取对象借助模型帮助奥巴马筹集到创纪录的10亿美元例如：利用模型分析出，明星乔治克鲁尼（George Clooney）对于年龄在40- 49岁的美西地区女性颇具吸引力，而她们恰是最愿意为和克鲁尼/奥巴马共进晚餐而掏钱的人乔治克鲁尼为奥巴马举办的竞选筹资晚宴成功募集到1500万美元 ,导,论,课,程,专,用,学,习,20,16,南,京,大,学,机,器,所,有,权,

11、保,留,例如：帮助奥巴马胜选,（政治）,队长：Rayid Ghani 卡内基梅隆大学机器学习系首任系主任Tom Mitchell 教授的博士生这个团队行动保密，定期向奥巴马报送结果；被奥巴马公开称为总统竞选的 “核武器按钮”(“They are our nuclear codes”),权,专,用,所,有,20,16,南,京,大,学,机,器,学,习,导,论,课,程,保,留,约翰麦卡锡 (1927-2011) “人工智能之父”,1971年图灵奖,1956年夏,美国达特茅斯学院,J. McCarthy, M. Minsky, N. Lochester, C. E. Shannon, H.A.

12、 Simon, A. Newell, A. L. Samuel 等10余人,达特茅斯会议标志着人工智能这一学科的诞生,John McCarthy (1927 - 2011): 1971年获图灵奖, 1985年获IJCAI终身成就奖。人工智能之父。他提出了“人工智能” 的概念，设计出函数型程序设计语言Lisp，发展了递归的概念，提出常识推理和情境演算。出生于共产党家庭，从小阅读10万个为什么，中学时自修CalTech的数学课程，17岁进入CalTech时免修两年数学，22岁在Princeton获博士学位，37岁担任 Stanford大学AI实验室主任。,机器学习源自“人工智能” Artifi

13、cial Intelligence (AI), 1956 -,权,程,专,用,所,有,保,16,南,京,大,20,学,机,器,学,习,导,论,课,留,赫伯特西蒙,(1916-2001) 1975年图灵奖,第一阶段：推理期 1956-1960s: Logic Reasoning, 出发点:,“数学家真聪明！”, 主要成就: 自动定理证明系统 (例如，西蒙与纽厄尔的“Logic Theorist”,系统) 渐渐地，研究者们意识到，仅有逻辑推理能力是不够的阿伦纽厄尔 (1927-1992) 1975年图灵奖,用,所,有,权,保,留,20,16,南,京,大,学,机,器,学,习,导,论,课,程

14、,专, 出发点:,“知识就是力量！”,爱德华费根鲍姆 (1936- ),1994年图灵奖主要成就: 专家系统 (例如，费根鲍姆等人的“DENDRAL”系统) 渐渐地，研究者们发现，要总结出知识再“教”给系统，实在太难了 ,第二阶段：知识期 1970s -1980s: Knowledge Engineering,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留, 出发点:,“让系统自己学！”,第三阶段：学习期 1990s -now: Machine Learning, 主要成就: 机器学习是作为“突破知识工程瓶颈” 之利器而出现的恰好在20世纪90

15、年代中后期，人类发现自己淹没在数据的汪洋中，对自动数据分析技术机器学习的需求日益迫切,权,专,用,所,有,16,南,京,大,学,机,器,学,保,习,导,论,留,课,程,20,汽车自动驾驶 (DARPA Grand Challenge),机器学习已经“无处不在” 入侵检测 Web搜索生物信息学决策助手(DARPA),火星机器人 (JPL),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,今天的“机器学,习”已经是一个广袤的学科领域,经常被谈到的“深度学习” (Deep Learning)仅是,机器学习中的一个小分支例如，这是第32届国际机器学习

16、大会的“主题领域” 2006年，美国CMU (卡内基梅隆大学) 成立“机器学习系”,导,论,课,程,专,用,所,20,16,南,京,大,学,机,器,学,习,有,权,保,留,大数据时代的关键技术,奥巴马提出“大数据计划”后，美国NSF进一步加强资助UC Berkeley研究如何整合将”数据”转变为”信息”的三大关键技术机器学习、云计算、众包(crowd sourcing),整合三大关键技术,权,保,20,16,南,京,留,大,学,机,器,学,习,导,论,课,程,专,用,所,有,大数据时代，机器学习必不可少,收集、传输、存储大数据的目的，,是为了“利用”大数据,没有机器学习技术分析大数据，,“利用”无从谈起,权,有,所,习,导,论,课,程,专,用,保,20,16,南,京,大,学,机,器,学,留,基本术语, ,数据集; 训练, 测试示例(instance), 样例(example) 样本(sample) 属性(attribute), 特征(feature); 属性值属性空间, 样本空间,

展开阅读全文

周志华 机器学习ppt Chap01绪论课件

最新文档

周志华机器学习ppt Chap01绪论课件