简二毛-统计学习基础(数据挖掘、推理与预测)

上传人:飞****9 文档编号:131939059 上传时间:2020-05-11 格式:PDF 页数:72 大小:913.20KB
返回 下载 相关 举报
简二毛-统计学习基础(数据挖掘、推理与预测)_第1页
第1页 / 共72页
简二毛-统计学习基础(数据挖掘、推理与预测)_第2页
第2页 / 共72页
简二毛-统计学习基础(数据挖掘、推理与预测)_第3页
第3页 / 共72页
简二毛-统计学习基础(数据挖掘、推理与预测)_第4页
第4页 / 共72页
简二毛-统计学习基础(数据挖掘、推理与预测)_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《简二毛-统计学习基础(数据挖掘、推理与预测)》由会员分享,可在线阅读,更多相关《简二毛-统计学习基础(数据挖掘、推理与预测)(72页珍藏版)》请在金锄头文库上搜索。

1、 统计学习基础 数据挖掘 推理与预测 The Elements of Statistics Learning Data Mining Inference and Predication 美 Trevor Hastie Robert Tibshirani Jerome Friedman 著 范明 柴玉梅 等译 目录目录 第一章 绪论 1 第二章 有指导学习概述 2 2 1 引言 2 2 2 变量类型与术语 2 2 3 两种简单预测方法 最小二乘方和最近邻 2 2 3 1 线性模型与最小二乘方 2 2 3 2 最近邻 3 2 3 3 从最小二乘方到最近邻 3 2 4 统计判决理论 类比 信号检测与

2、估计 之随机参量的贝叶斯估计 3 2 5 高维空间的局部方法 4 2 6 统计模型 有指导学习和函数逼近 5 2 6 1 联合分布Pr X Y 的统计模型 5 2 6 2 有指导学习 5 2 6 3 函数逼近 5 2 7 结构化模型 5 2 8 受限的估计方法类 6 2 8 1 粗糙度罚和贝叶斯方法 6 2 8 2 核方法和局部回归 6 2 8 3 基函数和字典方法 7 2 9 模型选择和偏倚 方差权衡 7 第三章 回归的线性方法 8 3 1 引言 8 3 2 线性回归和最小二乘方 重复 2 3 节内容 8 3 2 1 高斯 马尔可夫定理 8 3 3 从简单的一元回归到多元回归 9 3 3 1

3、 多元输出 9 3 4 子集选择和系数收缩 9 3 4 1 子集选择 9 3 4 2 收缩方法 10 3 4 3 使用导出输入方向的方法 11 3 4 4 讨论 选择和收缩方法比较 11 3 4 5 多元输出收缩和选择 名字记着先 12 第四章 分类的线性方法 13 4 1 引言 13 4 2 指示矩阵的线性回归 13 4 3 线性判别分析 LDA QDA 14 4 3 1 正则化的判别分析 15 4 3 2 LDA的计算 15 4 3 3 降秩线性判别分析 15 4 4 逻辑斯缔回归 16 4 4 1 拟合逻辑斯缔回归模型 16 4 4 2 逻辑斯缔回归还是LDA 17 4 5 分离超平面

4、17 4 5 1 Rosenblatt的感知器算法 18 4 5 2 最佳分离超平面 18 第五章 基展开与正则化 20 5 1 引言 20 5 2 分段多项式和样条 可参考 数值分析 之插值法 20 5 3 过滤和特征提取 21 5 4 光滑样条 21 5 4 1 自由度和光滑矩阵 21 5 5 光滑参数的自动选取 22 5 6 无参逻辑斯缔回归 22 5 7 多维样条函数 22 5 8 正则化和再生核希尔伯特空间 23 5 8 1 用核拓广函数空间 23 5 8 2 RKHS例子 24 5 9 小波光滑 24 第六章 核方法 25 6 1 一维核光滑方法 25 6 1 1 局部线性回归 2

5、6 6 1 2 局部多项式回归 26 6 2 选择核的宽度 26 6 3 IRp上的局部回归 27 6 4 IRp上结构化局部回归模型 27 6 4 1 结构化核 27 6 4 2 结构化回归函数 27 6 5 局部似然和其他模型 略 28 6 6 核密度估计和分类 28 6 6 1 核密度估计 28 6 6 2 核密度分类 28 6 6 3 朴素贝叶斯分类法 28 6 7 径向基函数与核 29 6 8 密度估计和分类的混合模型 29 第七章 模型评估与选择 31 7 1 引言 31 7 2 偏倚 方差和模型复杂性 31 7 3 偏倚 方差分解 32 7 4 训练误差率的乐观性 33 7 5

6、样本内预测误差的估计 AIC信息准则 34 7 6 有效的参数个数 34 7 7 贝叶斯方法和BIC 35 7 8 最小描述长度 MDL 35 7 9 Vapnik Chernovenkis维 VC维 SRM 35 7 10 交叉验证 CV曲线 K折交叉检验 36 7 11 自助法 bootstrap 36 第八章 模型推理和平均 38 8 1 引言 38 8 2 自助法和极大似然 38 8 3 贝叶斯方法 略 38 8 4 自助法和贝叶斯推理之间的联系 38 8 5 EM算法 略 38 8 6 从后验中抽样的MCMC 略 38 8 7 装袋 bagging 以下属于模型平均 之上属于模型推理

7、 38 8 8 模型平均和堆栈 还有委员会方法 38 8 9 随机搜索 冲击 略 39 第九章 加法模型 树和相关方法 40 9 1 广义加法模型 GLM General Linear Model 40 9 1 1 拟合加法模型 41 9 1 2 小结 41 9 2 基于树的方法 CART Classification And Rgression Tree 41 9 2 1 背景 41 9 2 2 回归树 42 9 2 3 分类树 43 9 2 4 小结 43 9 3 PRIM 凸点搜索 Patient Rule Induction Method 43 9 4 MARS 多元自适应回归样条 4

8、4 9 4 1 MARS前向模型建立过程 44 9 4 2 MARS与CART的联系 44 9 5 分层专家混合 HME Hierarchical Mixture of Expert 45 9 6 遗漏数据 45 第十章 提升和加法树 46 10 1 提升方法 Adaboost M1 46 10 2 提升拟合加法模型 46 10 3 前向分步加法建模 47 10 4 指数损失函数和AdaBoost 47 10 6 为什么使用指数损失 48 10 7 损失函数和健壮性 49 10 7 1 分类的健壮损失函数 49 10 7 2 回归的健壮损失函数 49 10 7 数据挖掘的 现货 过程 49 1

9、0 8 提升树 类比 50 10 9 数值优化 略 50 10 10 提升适当大小的树 50 10 11 正则化 提升数M的选择 收缩 罚回归 50 10 12 可解释性 50 10 12 1 预测自变量的相对重要性 50 10 12 2 偏依赖图 50 第十一章 神经网络 52 11 1 引言 52 11 2 投影寻踪回归 PPR Projection Pursuit Regression 52 11 3 神经网络 52 11 4 拟合神经网络 52 11 5 训练神经网络的一些问题 53 11 5 1 初始值 53 11 5 2 过分拟合 53 11 5 3 输入的定标 53 11 5 4

10、 隐藏单元和层的数目 53 11 5 5 多极小值 53 11 6 小结 53 第十二章 支持向量机和柔性判别 54 12 1 引言 54 12 2 支持向量分类器 54 12 2 1 计算支持向量分类器 55 12 3 支持向量机 55 12 3 1 计算分类的SVM 56 12 3 2 作为罚方法的SVM 56 12 3 3 函数估计与核 见 5 8 节 基本一致 56 12 3 4 SVM与维灾难 此处讲的也不好 所以略 56 12 3 5 回归的支持向量机 56 12 3 6 回归和核 57 12 4 线性判别分析的推广 FDA PDA MDA基本思想 57 第十三章 原型方法和最近邻

11、 59 13 1 引言 59 13 2 原型方法 59 13 2 1 K 均值聚类 K mean 59 13 2 3 学习向量量化 LVQ Learning Vector Quantization 59 13 3 K 最近邻分类器 60 第十四章 无指导学习 61 14 1 引言 61 14 2 关联准则 61 14 2 1 购物篮分析 61 14 2 2 Apriori算法 有点迷糊 62 14 3 聚类分析 62 14 3 1 邻近矩阵 62 14 3 2 基于属性的相异度 63 14 3 3 对象相异度 63 14 3 4 聚类算法 略 组合算法 混合建模和众数搜索 64 14 3 5

12、k 均值聚类 仅列出算法 64 14 3 6 k 中心点聚类 64 14 3 7 分层聚类 65 14 4 自组织映射 略 SOM图 65 14 5 主成分分析 略 或详见 多元统计学基础 65 14 6 独立成分分析 还未涉及 65 14 7 主成份分析 因子分析 独立成分分析差异在哪里 65 1 第一章 绪论 统计学习在科学 财经和工业等许多领域都起着至关重要的作用 学习科学在统计学 数据挖掘和人工智能起着关键的作用 同时也与工程学和其他学科有交叉 本书介绍从数据中学习 典型的 有结果度量 通常是量化的或分类的 我们希望根 据一组特征 feature 对其进行预测 假设有训练数据集 tra

13、ining set of data 借此观察 对象集的结果和特征度量 使用这些数据建立预测模型或学习器 learner 是我们可以预 测新的未知对象的结果 一个好的学习器可以精确的预测这种结果 对于有结果变量指导学习过程的问题称为有指导学习 supervised learning 只能观察 特征 而没有结果度量的称为无指导学习过程 unsupervised learning 2 第二章 有指导学习概述 2 1 引言 统计文献中 通常称输入为预测子 predictor 该术语将与输入替换使用 经典的 称输入为独立变量 independent variable 称输出为响应 response 或更

14、经典的称输出 为依赖变量 dependent variable 2 2 变量类型与术语 输出变量类型的差异引发对预测任务的命名约定 预测定量输出称为回归 regression 而预测定性输出称为分类 classification 我们将看到 这两类任务具有许多共同点 特 殊地 他们都可以看做函数逼近任务 输入也可以有不同类型的度量类型 每个都可以有定量的 qualitative 和定性的 categorical 输入变量 这些也造成所用预测方法类型上的差别 有些方法明显最适合定 量输入 有些最适合定性输入 而有些同时适用于两者 第三种变量类型是有序分类 ordered categorical

15、如 small medium 和 large 这里值之间是有序的 但不希望有度 量 典型的 定性变量用数值编码刻画 最简单的情况是只有两个类 如 成功 或 失 败 存活 与 死亡 这些常常用单个二进位数字 0 和 1 或者 1 和 1 表示 这种 数字编码有时候称为目标 target 当类多于两个时 可有多种选择 最有用和最常用的 编码是通过哑变量 dummy variable 这 里 K 级定性变量用 K 个二元变量或者二进位向量 表示 该向量一次只有一位被 置位 尽管有更多的压缩编码模式 但是哑变量在因素级 是对称的 2 3 两种简单预测方法 最小二乘方和最近邻 本节详细讨论了两种简单但有

16、效的预测方法 使用最小二乘方的线性模型拟合和 k 最 近预测规则 线性模型对结构做了大量假定 并产生稳定但可能不精确的预测 k 最近邻 对结构做了适度的假定 其预测常常是精确的 但可能不稳定 2 3 1 线性模型与最小二乘方 给定一个输入向量X X1 X2 Xp 通过以下模型来预测输出 Y Y 0 Xj p j 1 j 2 1 向量形式的线性模型可以写成内积 Y X 2 2 对单个输出建模 Y 是标量 一般来说 Y 可以是 K 向量 这种情况下 是 p K 的系 数矩阵 如何用线性模型拟合训练数据集呢 有许多不同的方法 但迄今为止最流行的是最小 二乘方 least square 这种方法下 我们选择系数 使得残差的平方和最小 RSS yi xi T 2N i 1 2 3 RSS 是参数的二次函数 因此极小值总是存在 但可能不惟一 解用矩阵形式容易 刻画 上式可写为 RSS y X T y X 2 4 如果XTX是非奇异的 则唯一解由下式给出 XTX 1XTY 2 6 3 2 3 2 最近邻 最近邻法使用训练集 在输入空间中最近邻 x 的观测值形成Y 特殊的 拟合Y 的 k 最近 邻定义

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号