《统计学习基础》由会员分享,可在线阅读,更多相关《统计学习基础(17页珍藏版)》请在金锄头文库上搜索。
1、统计学习基础1概率 vs. 统计n n概率:研究随机事件出现的可能性的数学分支,描述非确概率:研究随机事件出现的可能性的数学分支,描述非确定性(定性(UncertaintyUncertainty)的正式语言,是统计)的正式语言,是统计推断推断的基础的基础n n概率:概率: 一个事件或事件集合出现的可能性一个事件或事件集合出现的可能性n n基本问题:给定以一个数据产生过程,则输出的性质是什么基本问题:给定以一个数据产生过程,则输出的性质是什么n n统计统计推断推断:处理数据分析和概率理论的数学分支,与数据:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲挖掘和机器学习是近亲n n统计
2、量:一个用以描述样本或总体性质的数值,如均值或方差统计量:一个用以描述样本或总体性质的数值,如均值或方差n n基本问题:给定输出数据,我们可以得到该数据的产生过程的哪些基本问题:给定输出数据,我们可以得到该数据的产生过程的哪些信息信息2概率 vs. 统计数据产生过程观测到的数据概率统计推断3统计学习n n统计学统计学 根据数据进行推理的学科根据数据进行推理的学科n n统计学习统计学习 多元统计分析多元统计分析 + + 计算统计学计算统计学n n多元统计分析多元统计分析 基于一个多元变量数据集,预测函基于一个多元变量数据集,预测函数值数值n n计算统计学计算统计学 统计问题的计算方法统计问题的计
3、算方法 (a.k.a. (a.k.a. 统计计统计计算算) + ) + 计算繁重的统计方法计算繁重的统计方法n n数据挖掘数据挖掘 研究数据分析,尤其是大数据量研究数据分析,尤其是大数据量/ /复杂复杂的数据集的数据集4例:人脸形状(随机事件、概率与统计学习)ICCV2001: Learning inhomogeneous Gibbs models of faces by minimax entropy5统计学习的基本问题n n有监督有监督/ /无监督学习无监督学习n n有监督学习:有监督学习:回归回归、分类、分类n n无监督学习:无监督学习:概率密度估计概率密度估计、聚类、降维、聚类、降维n
4、 n增强学习增强学习n n模型选择模型选择n n模型评价:损失函数模型评价:损失函数n n模型选择模型选择n n复杂性复杂性 vs. vs. 推广性推广性6课程目的n n为计算机专业的学生快速提供广泛的概率和统计为计算机专业的学生快速提供广泛的概率和统计背景背景n n概率概率n n统计统计n n统计学习统计学习n n为学习其他课程打好统计学基础为学习其他课程打好统计学基础n n机器学习机器学习n n数据挖掘数据挖掘n n模式识别模式识别n n人工智能人工智能n n7数学基础的重要性n n研究数据分析必须打好概率和统计基础研究数据分析必须打好概率和统计基础n nUsing fancy tools
5、 like neural nets, Using fancy tools like neural nets, boosting and support vector machines boosting and support vector machines without understanding basic statistics without understanding basic statistics like like doing brain surgery before knowing doing brain surgery before knowing how to use a
6、band-aidhow to use a band-aid. .8教材/参考书n nWasserman Larry Wasserman, Wasserman Larry Wasserman, All of Statistics: A All of Statistics: A Concise Course in Statistical InferenceConcise Course in Statistical Inference, Springer , Springer Press, 2004Press, 2004n n主要教材:内容很全,但有些部分篇幅略少,更偏向于从统计的角度主要教材:内容
7、很全,但有些部分篇幅略少,更偏向于从统计的角度讲述讲述n nChp1-13, Chp20Chp1-13, Chp20,Chp23-24Chp23-24n nHTF Trevor Hastie, Robert HTF Trevor Hastie, Robert TibshiraniTibshirani, Jerome , Jerome FriedmanFriedman著,范明,柴玉梅,昝红英译,著,范明,柴玉梅,昝红英译,统计学习基础统计学习基础数据数据挖掘、推理与预测挖掘、推理与预测, 电子工业出版社,电子工业出版社,20042004n n统计学习部分的主要教材:主要从机器学习的角度讲述统计学
8、习部分的主要教材:主要从机器学习的角度讲述n nChp1-7Chp1-7n nCB George Casella and Roger L. BergerCB George Casella and Roger L. Berger,Statistical Statistical InferenceInference,机械工业出版社,机械工业出版社,20022002n n详尽的统计推断教材:可以作为详尽的统计推断教材:可以作为WassermanWasserman一书的补充一书的补充n nChp1-10Chp1-109预修课程n n高等数学高等数学n n线性代数线性代数n n概率:有一定概率基础概率:
9、有一定概率基础n n可复习任一本科概率论教材可复习任一本科概率论教材n n盛骤盛骤 谢式千谢式千 潘承毅,潘承毅,概率论概率论, (浙江大学)编,(浙江大学)编, 高等高等教育出版社教育出版社10课程内容(1)n n第一部分:概率基础知识第一部分:概率基础知识n n概率理论概率理论n n随机变量及其概率分布随机变量及其概率分布n n常用的概率分布常用的概率分布n n多元随机变量多元随机变量n n概率不等式和收敛性概率不等式和收敛性n n第二部分:统计基础知识第二部分:统计基础知识n n统计基本知识统计基本知识n n非参数估计、非参数估计、BootstrapBootstrap、Jackknife
10、Jackknifen n参数估计参数估计n n假设检验假设检验11课程内容(2)n n第三部分:统计学习基本模型及理论第三部分:统计学习基本模型及理论n n统计学习概述统计学习概述n n线性回归线性回归n n概率密度估计概率密度估计n n核方法核方法n n统计判决理论统计判决理论n n模型选择和模型评估模型选择和模型评估n n第四部分:随机计算第四部分:随机计算n n采样、采样、MCMC (Monte Carlo Markov Chain)MCMC (Monte Carlo Markov Chain)12相关会议、刊物n n会议会议n nInternet Conference on Inter
11、net Conference on Machine LearningMachine Learningn nKDD (Internet KDD (Internet Conference on Conference on Knowledge Discovery Knowledge Discovery and Data Mining)and Data Mining)n nNIPS (Neural NIPS (Neural Information Processing Information Processing Systems Conference)Systems Conference)n nIJC
12、NN ( Internet Joint IJCNN ( Internet Joint Conference on Neural Conference on Neural Networks)Networks)n nArtificial Intelligence Artificial Intelligence and Machine Learning and Machine Learning ConferenceConferencen nComputational Learning Computational Learning Theory (COLT)Theory (COLT)n nn n刊物刊
13、物n nMachine Learning (ML)Machine Learning (ML)n nJournal of Machine Journal of Machine Learning Research Learning Research n nAnnals of StatisticsAnnals of Statisticsn nData Mining and Data Mining and Knowledge DiscoveryKnowledge Discoveryn nIEEE-KDE IEEE-KDE n nIEEE-PAMI IEEE-PAMI n nArtificial Int
14、elligenceArtificial Intelligencen nJournal of Artificial Journal of Artificial Intelligence ResearchIntelligence Researchn nComputational Computational IntelligenceIntelligencen nNeural ComputationNeural Computationn nIEEE-NN IEEE-NN n nResearch, Information Research, Information and Computationand
15、Computationn n13其他信息n n助教:助教:杨涛杨涛n n n课件网址课件网址n nhttp:/http:/ n作业:作业:40%40%n n非编程作业非编程作业20%20%、编程作业(包括上机实验作业)、编程作业(包括上机实验作业)20%20%n n每次作业留每次作业留1-21-2周时间周时间n n请按时交作业,鼓励讨论,但请按时交作业,鼓励讨论,但NO COPYNO COPYn n考试:闭卷考试:闭卷n n期末考试:期末考试:60%60%15其他n n课前预习课前预习n n课堂上预告下节课内容课堂上预告下节课内容n n预习教材相应章节或相应的补充材料预习教材相应章节或相应的补
16、充材料n n课后复习课后复习n n复习教材和课件,适当阅读课外材料复习教材和课件,适当阅读课外材料n n下节课开始前,对上节课的内容都已经掌握下节课开始前,对上节课的内容都已经掌握n n讨论讨论n n鼓励讨论:学得更快鼓励讨论:学得更快/ /更多、学习兴趣更高更多、学习兴趣更高n n先独立解决问题,然后比较和讨论,最后提交的答案是自己的理解先独立解决问题,然后比较和讨论,最后提交的答案是自己的理解n n编写程序时,可以利用别人的代码,但需注明出处及自己的工作编写程序时,可以利用别人的代码,但需注明出处及自己的工作16作业n n从日常生活、学习或工作中找出从日常生活、学习或工作中找出1 12 2个与统计相个与统计相关的有趣问题关的有趣问题17