《机器学习小测及答案》由会员分享,可在线阅读,更多相关《机器学习小测及答案(4页珍藏版)》请在金锄头文库上搜索。
1、1、 监督学习与无监督学习的主要区别是什么?分别列举应用两者的例子(或算法名称)。2、 在梯度下降算法中有时会出现梯度下降来回振荡,所需时间较长。可以通过什么方法使其收敛更快?例如:原参数为:X1=size取值范围: 0200;X2=number取值范围: 15 3、 假设房价预测模型为:h(x)=?0+ ?1X1+ ?2X2,其中 X1、X2分别为房间的开间、进深长度。现在选择新的特征-房间面积X,得到新的学习算法。已知训练集中面积与房价的关系如图所示:请构造 合适 的多项式作为新的学习算法。4、 简述自己对欠拟合和过拟合的理解,必要时可画图辅助说明。5、 有如图曲线f(? ) 。欲求 f(
2、 ?)=0 时的 ? 值,请用牛顿迭代法在图中画出两次迭代的示意图。 ? 初始值取4.5。6、 请写出指数分布族的一般表达形式。7、用极大似然估计求算? 使得最大。简要写出推导步8、简述对laplace 平滑理解,可以举例说明;9、 按自己的理解简述参数学习算法和非参数学习算法的区别;10、按自己的理解简述判别学习算法和生成算法的区别。参考答案:并非标准答案,只要理解正确即可。1、主要区别是监督学习中有属性的标签,而无监督学习则没有;例子:监督学习根据房价与房间面积对房价进行预测;无监督学习网页搜索将相关新闻聚在一起算法:监督学习支持向量机、线性回归决策树神经网络;无监督学习k-聚类等各种聚类
3、方法、主成分分析2、可利用特征缩放方法例如:原参数为X1=size取值范围: 0200 X2=number取值范围: 15 利用特征缩放方法后变为X1=size/200 X2=number/5 3、h(x)=?0+ ?1 X+ ?2 X2+ ?3X3 4、首先欠拟合、过拟合没有明确的定义分界明显的未充分利用数据,拟合结果不符合预期,甚至不能有效拟合训练集,我们可以认为欠拟合;考虑过多,超出自变量的一般含义维度,过多考虑噪声,会造成过拟合。可以认为预测准确率、召回率都比理论上最佳拟合函数低很多,则为欠拟; 训练集预测效果好,测试集预测效果差,则为过拟合。或者简单的讲:对于特征集过小的情况,称之为
4、欠拟合( under fitting ) ;对于特征集过大的情况,称之为过拟合( overfitting )例如:给定一个数据集,根据x 预测 y. 最左边的函数为,并不能很好的拟合数据;中间的加了一个额外的特性,函数为,稍微更好地拟合了数据;似乎我们增加越多的特性,拟合程度越好; 但是增加太多的特性是很危险的,最右边的图是一个五阶的多项式,虽然很好的拟合了给定的数据集,但是这个并不是一个很好的预测函数。欠拟合( underfitting ):很明显有一些没有被模型捕获的结构,比如说最左边的图. 过拟合 (overfitting) :最右边的就是一个过拟合的例子. 因此说,特性的选择对于学习算
5、法 的性能来说是很重要的!5、两次迭代还得再往下画一步6、若一类概率分布可以写成如下形式,那么它就属于指数分布族: - 自然参数,通常是一个实数T(y) 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)对于给定的a,b,T三个函数,上式定义了一个以为参数的概率分布集合,即改变可以得到不同的概率分布7、令对 求导的值为零,求得即可。8、在统计上来说,在你有限的训练集中没有见过就认为概率是0 是不科学的为了上述问题,我们用laplace 平滑来优化这个问题. 分子加 1,分母加k(j 的取值范围的大小)。可以举适当的例子说明。9、参数学习算法( parametric
6、learning algorithm ):是一类有固定数目参数,以用来进行数据拟合的算法。设该固定的参数集合为。线性回归即使参数学习算法的一个例子非参数学习算法(Non-parametric learning algorithm):参数数量会随 m (训练集大小)增长 的算法。通常定义为参数数量虽m 线性增长。换句话说,就是算法所需要的东西会随着训练集合线性增长,算法的维持是基于整个训练集合的,即使是在学习以后。10、判别学习算法 (discriminative learning algorithm ) :直接学习p(y|x)(比如说 logistic 回归)或者说是从输入直接映射到0,1. 生成学习算法(generative learning algorithm ):对 p(x|y)(和 p(y))进行建模 . 简单的来说, 判别学习算法的模型是通过一条分隔线把两种类别区分开,而生成学习算法是对两种可能的结果分别进行建模,然后分别和输入进行比对,计算出相应的概率。