机器学习练习题与答案

上传人:壹****1 文档编号:392310790 上传时间:2023-01-20 格式:DOCX 页数:10 大小:668.87KB
返回 下载 相关 举报
机器学习练习题与答案_第1页
第1页 / 共10页
机器学习练习题与答案_第2页
第2页 / 共10页
机器学习练习题与答案_第3页
第3页 / 共10页
机器学习练习题与答案_第4页
第4页 / 共10页
机器学习练习题与答案_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《机器学习练习题与答案》由会员分享,可在线阅读,更多相关《机器学习练习题与答案(10页珍藏版)》请在金锄头文库上搜索。

1、机器学习练习题与解答1.小刚去应聘某互联网公司的算法工程师,面试官问她“回归和分类有什么相似点和不同点”,她说了如下言论,请逐条判断与否精确。1)回归和分类都是有监督学习问题单选题 必答题对错参照答案:对。解析:这道题只有一种同窗做错。本题考察有监督学习的概念。有监督学习是从标签化训练数据集中推断出函数的机器学习任务。有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是持续值;在分类问题中,标签是离散值。具体差别请看周志华机器学习书中的例子,一看便懂:2.背景同上题。请判断2)回归问题和分类问题均有也许发生过拟合 单选题 必答题对错答案:对解析:这题有两个同窗做错。过拟

2、合的英文名称是 Over-fitting(过拟合)。为了说清晰“过”拟合,一方面说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的某些点,找到一种已知形式未知参数的持续曲线或曲面来最大限度地逼近这些点。一种直观的例子,是下面的电阻和温度的例子。我们懂得 在物理学中,电阻和温度是线性的关系,也就是R=at+b。目前我们有一系列有关“温度”和“电阻”的测量值。一种最简朴的思路,取两组测量值,解一种线性方程组,就可以求出系数a、b了!但是抱负是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组

3、的值,这样就相称于得到二维平面上的多种点,我们的目的是寻找一条直线,让这条直线尽量地接近各个测量得到的点。拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值f1,f2,fn(未必都是精确值,有个别也许是近似甚至错误值),通过调节该函数中若干待定系数f(1, 2,n),使得该函数与已知点集的差别(最小二乘意义)最小。【说说过拟合】古人云“过犹不及”。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟合的很不错,但是有点过头了,什么意思?她可以在学过的数据上判断的很准,但是如果再扔给它一系列新的没学习过的数据,它判断的非常差!例如古时候有个教书先生教小明写

4、数字,“一”字是一横,“二”字是两横,“三”字是三横。然后,小明说,教师你不用教我写数字了,我都会写。教师很惊讶,那你说“万”字怎么写,成果小明在纸上写下了无数个“横”。用台湾大学林轩田教师的话说,过拟合是“书呆子”,“钻牛角尖”。如果用过于复杂的模型来刻画简朴的问题,就有也许得到“聪颖过头”的成果。例如下面预测房子的价格(price)和size之间关系的问题(来源于andrew ng的ppt) 通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和size之间是二次函数的关系,也就是中间这幅图所拟合的状况。而右边这幅图中,自作聪颖地用了一种四次函数来拟和这五组数据,虽然在已知的五个数据

5、上都是100%精确,却得出了“当房子的size不小于某个值时 房子的价格会随着房屋面积增大而越来越低”这样的荒唐结论!这样的是过拟合。左边这个用一条直线来拟合 但是拟合的误差很大 也不置信,这叫“欠拟合”。 在周志华教师的书中,举的例子是这样的: 发现了没有?周志华教师用的是“是不是树叶”这样的分类问题举例,andrew ng用的是“房价和房屋面积的关系”这样的回归问题举例。这阐明,分类和回归均有也许过拟合。3.背景同上题。请判断3) 一般来说,回归不用在分类问题上,但是也有特殊状况,例如logistic 回归可以用来解决0/1分类问题 单选题 必答题对错答案:对解析:Logistic回归是一

6、种非常高效的分类器。它不仅可以预测样本的类别,还可以计算出分类的概率信息,在一线互联网公司中广泛的使用,例如应用于CTR预估这样的问题中。这里我们不具体阐明其原理,后续课程会讲到。诸多人对它的名字会产生疑问,挂着“回归”的头,卖的是“分类”的肉,别扭的慌。 其实我们不用纠结它究竟是“回归”,还是“分类”,非得二选一。可以参照一下百度百科 有关“logistic回归”的词条其中举了一种富士康员工“自杀的日期”与“合计自杀人数”之间关系的例子,并通过logistic回归分析来拟合出一条曲线。这阐明logistic回归自身也有一定的解决“回归”问题的能力,只是工业界都用它来解决分类问题。4.背景同上

7、题。请判断4)对回归问题和分类问题的评价 最常用的指标都是 精确率和召回率 单选题 必答题对错答案:错解析:本题有四个同窗选错。这道题的用意 是提示人们注意,对回归问题的评价指标一般并不是精确率和召回率,从“房价与房屋面积之间关系预测”这个例子来说,一种已知数据点离预测的曲线之间的距离是多少时可以鉴定为“精确”,距离为多少时鉴定为“不精确”?没措施区别。精确率对于度量回归问题的效果其实并不合用。回归问题的误差一般通过“误差”来评估,例如RMSE等。在滴滴大数据竞赛中 用的是这样的一种指标很显然不是用的“精确率”来评估。5.背景同上题。请判断5)输出变量为有限个离散变量的预测问题是回归问题;输出

8、变量为持续变量的预测问题是分类问题; 单选题 必答题对错答案:错解析:说反了6.向量x=1,2,3,4,-9,0的L1范数是多少 单选题 必答题1196sqrt(111)答案:19解析:这题错了三个同窗,其实很简朴。请记住:L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。L2范数是指向量各元素的平方和然后求平方根。7.小明参与某公司的大数据竞赛,她的成绩在大赛排行榜上原本居于前二十,后来她保持特性不变,对本来的模型做了1天的调参,将自己的模型在自己本地测试集上的精确率提高了5%,然后她信心满满地

9、将新模型的预测成果更新到了大赛官网上,成果懊恼地发现自己的新模型在大赛官方的测试集上精确率反而下降了。对此,她的朋友们展开了讨论,请将说法对的的选项打勾(不定项选择题) 多选题 必答题小芳:从机器学习理论的角度,这样的状况不应当发生,快去找大赛组委会反映小刚:你这个有也许是由于过拟合导致的小月:早就和你说过了,乖乖使用默认的参数就好了,调参是不也许有收益的小平:你可以考虑一下,使用交叉验证来验证一下与否发生了过拟合答案:选择第二项、第四项解析:人们都批准第二项,是过拟合导致的。设立第四项的目的,是提示人们,交叉验证可以用于避免模型过于复杂而引起的过拟合。具体什么是交叉验证,请期待后续课程。8.

10、有关L1正则和L2正则 下面的说法对的的是 多选题 必答题L2范数可以避免过拟合,提高模型的泛化能力。但L1正则做不到这一点L2正则化标记各个参数的平方的和的开方值。L2正则化有个名称叫“Lasso regularization”L1范数会使权值稀疏答案:第二项、第四项解析:同第6题 9.判断这个说法对不对:给定 n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着 n的增长而减小 单选题 必答题对错答案:对解析:训练数据越多,拟合度越好,训练误差和测试误差距离自然越小八卦:亲们,这道题曾经出目前百度研发工程师笔试题。我们有四个同窗做错。10.Conside

11、r a problem of building an online image advertisement systemthat shows the users the most relevant images. What features can youchoose to use? 单选题 必答题concrete, abstractconcrete, raw, abstractconcrete, rawconcrete答案:B解析:本题源于林轩田机器学习基石课件,给在线图片广告系统挑选特性。concrete user features, raw image features,and maybe abstract user/image IDs大体理解一下 特性的几种类型,请做错的同窗去看一下林轩田教师的视频11.【附加题】考虑回归一种正则化回归问题。在下图中给出了惩罚函数为二次正则函数,当正则化参数C取不同值时,在训练集和测试集上的log似然(mean log-probability)。请判断这个说法与否对的:随着C的增长,图中训练集上的log似然永远不会增长 单选题 必答题对错答案:对

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号