中国科学院大学2012年《机器学习》试卷及其答案.pdf

上传人:飞****9 文档编号:136031840 上传时间:2020-06-22 格式:PDF 页数:4 大小:233.10KB
返回 下载 相关 举报
中国科学院大学2012年《机器学习》试卷及其答案.pdf_第1页
第1页 / 共4页
中国科学院大学2012年《机器学习》试卷及其答案.pdf_第2页
第2页 / 共4页
中国科学院大学2012年《机器学习》试卷及其答案.pdf_第3页
第3页 / 共4页
中国科学院大学2012年《机器学习》试卷及其答案.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《中国科学院大学2012年《机器学习》试卷及其答案.pdf》由会员分享,可在线阅读,更多相关《中国科学院大学2012年《机器学习》试卷及其答案.pdf(4页珍藏版)》请在金锄头文库上搜索。

1、中国科学院大学 20139310 班 第 1 页 共 4 页 中中国国科学院大学科学院大学 2012 年年机器学习机器学习试卷试卷及其及其答案答案 任课教师任课教师:卿来云卿来云 一一、基础题基础题(共共 36 分分) 1、 请描述极大似然估计 MLE 和最大后验估计 MAP之间的区别。 请解释为什么 MLE 比 MAP 更容易过拟合。(10 分) MLE:取似然函数最大时的参数值为该参数的估计值,ymle=argmaxp(x|y);MAP:取后验 函数(似然与先验之积)最大时的参数值为该参数的估计值,ymap=argmaxp(x|y)p(y)。因为 MLE 只考虑训练数据拟合程度没有考虑先验

2、知识,把错误点也加入模型中,导致过拟合。 2、 在年度百花奖评奖揭晓之前, 一位教授问 80 个电影系的学生, 谁将分别获得 8 个奖项 (如 最佳导演、最佳男女主角等)。评奖结果揭晓后,该教授计算每个学生的猜中率,同时也计 算了所有 80 个学生投票的结果。他发现所有人投票结果几乎比任何一个学生的结果正确率 都高。这种提高是偶然的吗?请解释原因。(10 分) 设 x 为第 i 个学生的猜中率(要么 0 要么 1)xBer(),E(x)=,V(x)=(1-) mean(x)N(,(1-)/N),E(mean(x)=,V(mean(x)=(1-)/NV(x) 3、假设给定如右数据集,其中 A、B

3、、C 为二值随机变量,y 为待预测的二值变量。 (a) 对一个新的输入 A=0, B=0, C=1,朴素贝叶斯分类器将会怎样预测 y?(10 分) yBer() p(y=0)=3/7,p(y=1)=4/7 p(y=0|A=0B=0C=1)p(y=0)*p(A=0|y=0)*p(B=0|y=0)*p(C=1|y=0)=3/7*2/3*1/3*1/3=2/63 p(y=1|A=0B=0C=1)p(y=1)*p(A=0|y=1)*p(B=0|y=1)*p(C=1|y=1)=4/7*1/4*2/4*2/4=1/28, 因此 属于 y=1 类 (b) 假设你知道在给定类别的情况下 A、 B、 C 是独立

4、的随机变量, 那么其他分类器 (如 Logstic 回归、SVM 分类器等)会比朴素贝叶斯分类器表现更好吗?为什么?(注意:与上面给的 数据集没有关系。)(6 分) 不会。 因为已知独立同分布的前提下 NBC 只用 3 个参数, 不用 NBC 则需要 23-1=7 个参数。 若不独立,则其他基于数据本身的判别式分类器效果较好。 二二、回归问题回归问题。(。(共共 24 分分) 现有 N 个训练样本的数据集 D=(xi,yi),其中 xi,yi 为实数。 中国科学院大学 20139310 班 第 2 页 共 4 页 1 我们首先用线性回归拟合数据。为了测试我们的线性回归模型,我们随机选择一些样本

5、 作为训练样本,剩余样本作为测试样本。现在我们慢慢增加训练样本的数目,那么随着训练 样本数目的增加,平均训练误差和平均测试误差将会如何变化?为什么?(6 分) 平均训练误差:A、增加 B、减小 平均测试误差:A、增加 B、减小 因为当训练样本增多时, 模型参数发生改变以拟合新增的样本, 因而使得模型原先的拟合程 度下降,平均训练误差增加;而训练样本增多,模型越接近真实的分布,因而使得平均测试 误差减小。 2 给定如下图(a)所示数据。粗略看来这些数据不适合用线性回归模型表示。因此我们采 用如下模型其中。假设我们采用极大似然估计 w,请给出 log 似然函数并给出 w 的估计。(8 分) p(y

6、i|w,xi)N(exp(wxi),1) L(w)=logp(y|w,x)=-0.5*(yi-exp(wxi)2+C 令 g(w)=(yi-exp(wxi)*exp(wxi)*xi=0 求得 w 3 给定如下图(b)所示的数据。从图中我们可以看出该数据集有一些噪声,请设计一个对 噪声鲁棒的线性回归模型,并简要分析该模型为什么能对噪声鲁棒。(10 分) 如图离群点较多(heavy tail),使用鲁棒线性回归模型:y=wTx+Laplace(wTx,b) 因为当 y 服从拉式分布时 L()=logp(D|X,w,b)=logLap(yi|wTxi,b)=-N*log(2b)-|yi-wTxi|/

7、b, 其 损失为残差绝对值和,对离群点不敏感; 而当 y 服从正态分布时, L()=logp(D|X,w,b)=logN(yi|wTxi,2)=-(N/2)*log(22)-(yi-wTxi)2/22, 其损失为残差平方和, 放大了误差,对离群点敏感。因此使用 Laplace(或 Student)线性回归模型能对噪声鲁棒。 三三、SVM 分类分类。(。(第第 15 题各题各 4 分分,第第 6 题题 5 分分,共共 25 分分) 下图为采用不同核函数或不同的松弛因子得到的 SVM 决策边界。但粗心的实验者忘记记录 每个图形对应的模型和参数了。请你帮忙给下面每个模型标出正确的图形。 中国科学院大

8、学 20139310 班 第 3 页 共 4 页 答:1.c 2.b 3.d 4.a 5.e 6、考虑带松弛因子的线性 SVM 分类器: 下面有一些关于某些变量随参数 C 的增大而变化的表述。如果表述总是成立,标示“是”; 如果表述总是不成立,标示“否”;如果表述的正确性取决于 C 增大的具体情况,标示“不一 定”。 (1) w0 不会增大 (不一定) (2) |w|增大 (不一定) (3) |w|不会减小 (是) (4) 会有更多的训练样本被分错 (否) (5) 间隔(Margin)不会增大 (是) 四、一个初学机器学习的朋友对房价进行预测。他在一个 N=1000 个房价数据的数据集上匹 配

9、了一个有 533 个参数的模型,该模型能解释数据集上 99%的变化。 中国科学院大学 20139310 班 第 4 页 共 4 页 1、请问该模型能很好地预测来年的房价吗?简单解释原因。(5 分) 2、 如果上述模型不能很好预测新的房价, 请你设计一个合适的模型, 给出模型的参数估计, 并解释你的模型为什么是合理的。(10 分) 答:1.不能。因为模型参数过多太复杂,训练集上拟合太好,把错误点也考虑进来,因此发 生了过拟合,预测误差较大。 2.对之进行 L1 正则,即 Lasso 回归。yN(wTx,2) wLap(0,t) L()=C-(yi-wTxi)2/22 -|wi|/b,NLL=RSS+|w| 通过调节 L1 正则系数 大小避免模型过拟合,而且估计 w 参数的同时进行了特征选择,使 得系数 w 尽可能多的为 0,简化了模型。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号