2024年春江苏开放大学机器学习形考作业二答案

资源描述

《2024年春江苏开放大学机器学习形考作业二答案》由会员分享，可在线阅读，更多相关《2024年春江苏开放大学机器学习形考作业二答案（6页珍藏版）》请在金锄头文库上搜索。

1、2024年春江苏开放大学机器学习形考作业二答案注意：学习平台题目可能是随机，题目顺序与本答案未必一致，同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目，一定注意答案对应的选项，如果答案有疑问或遗漏，请在下载网站联系上传者进行售后。如需其它科目的答案也可以联系上传者。一、2024年春江苏开放大学机器学习形考作业二单选题答案1、下列关于软投票说法错误的是？A、投票表决器可以组合不同的基分类器B、使用概率平均的式来预测样本类别C、可以对每个基分类器设置权重，于对预测概率求进加权平均D、软投票过程中每个基分类器都预测个类别学生答案：D2、下列有关词袋表示法的理解有误的是（）A、

2、将每个本对应词表转化为特征向量B、仅出现在少数本的词汇，般被标记为停词不计特征向量C、不考虑词语出现的顺序，每个出现过的词汇单独作为列特征D、不重复的特征词汇集合为词表学生答案：B3、兰德系数和轮廓系数都是常的聚类分析指标，以下对兰德系数和轮廓系数说法错误的是A、轮廓系数适于实际类别信息未知的情况B、在聚类结果随机产的情况下，兰德系数不能保证系数接近于0、C、兰德系数取值为0,1，越聚类结果与真实情况越接近D、调整兰德系数取值范围为-1,1，负数代表结果不好，越接近于0越好学生答案：D4、箱线图是检测离群值的法，下关于箱线图的说法不正确的是？A、箱线图中框的上边线表示上四分位数，框的下边线表示

3、下四分位数B、箱外的两条线（胡须）分别延伸到最和最异常点C、四分位距IQR = 1.5 ( Q3-Q1 )，其中Q3为上四分位数， Q1为下四分位数D、箱中于上边缘和低于下边缘的值为离群点学生答案：C5、若集成模型中，预测值表示为，真实值为，则Adaboost的损失函数(Loss Function)表示为（）学生答案：B6、关于三种常的稳健性回归法Huber回归、RANSAC回归和泰尔森回归，下列选项说法正确的是：A、从回归的速度上看，般来说，Huber回归最快，其次是RANSAC回归，最慢的是泰尔森回归B、泰尔森回归RANSAC回归在样本数量上的伸缩性（适应性）好C、般情况下，泰尔森回归可以

4、更好地处理y向的值异常点D、Huber回归可以更好地应对X向的中等的异常值，但是这个属性将在维情况下消失学生答案：A7、下列有关轮廓系数的说法错误的是（）A、所有样本的轮廓系数均值为聚类结果的轮廓系数，是该聚类是否合理、有效的度量B、某个样本的轮廓系数近似为0，说明该样本在两个簇的边界上C、某个样本的轮廓系数的绝对值接近1，说明该样本聚类结果合理D、某个样本的轮廓系数接近1，说明该样本聚类结果合理学生答案：C8、下列模型中属于回归模型的是？A、ID3、B、DBSCANC、线性回归D、逻辑回归学生答案：C9、下列有关ROC曲线与AUC的描述错误的是A、ROC曲线越靠近(0, 1)证明模型整体预测

5、能越差B、AUC的取值为0.5, 1C、AUC的何意义为ROC曲线与横轴FPR之间的积D、ROC曲线可以来考察模型的预测能学生答案：A10、下列有关包裹式和嵌式特征选择的说法错误的是（）A、嵌式特征选择的思想是根据模型分析特征的重要性，常正则化式来做特征选择B、包裹式特征选择的思想是把特征选择看做个特征集搜索问题，筛选各个特征集，模型评估各个集的效果C、Scikit-learn中实现嵌式特征选择的类SelectFromModel 必须与有feature_importances_ 或者coef_ 属性的模型起使，如随机森林和逻辑回归D、Scikit-learn中实现嵌式特征选择的类有Sele

6、ctFromModel 、RFE 和RFECV学生答案：D11、下列有关特征抽取和特征选择的说法有误的项是（）A、特征抽取和特征选择是达到降维的的两种途径B、PCA和LDA是特征选择的两种主要法C、特征抽取的标是根据原始的d个特征的组合形成k个新的特征，即将数据从d维空间映射到k维空间D、特征选择的标是从原始的d个特征中选择k个特征学生答案：B12、以下程序语句有误的是（）A、clf=LogisticRegression(penalty=l1,random_state=10,solver=liblinear)B、clf=LogisticRegression(penalty=l2,random_

7、state=10,solver=liblinear)C、clf=LogisticRegression(penalty=l1,random_state=10,solver=lbfgs)D、clf=LogisticRegression(penalty=l2,solver=newton-cg)学生答案：C13、关于线性回归模型的正则化，下列选项叙述不正确的是：A、正则化的常法为岭回归和LASSO，主要区别在于岭回归的标函数中添加了L2惩罚函数，LASSO的标函数中添加的是L1惩罚函数B、正则化可以减线性回归的过度拟合和多重共线性等问题C、对岭回归和LASSO，岭回归更容易得到稀疏解D、在求解LASS

8、O时，常的求解算法包括坐标下降法、LARS算法和ISTA算法等学生答案：C14、下列关于特征选择的和原则的说法错误的是（）A、特征选择能有效降低特征维度，简化模型B、与标特征相关性的特征应该优先被选择C、差较的特征应该被剔除D、特征选择可以有效提升模型性能学生答案：C15、下列有关过滤式特征选择的说法错误的是（）A、过滤式特征选择的法是评估单个特征和结果值之间的相关程度，留下相关程度靠前的特征B、过滤式特征选择的评价指标主要有Pearson 相关系数，互信息，距离相关度等；其中卡检验(chi2) ，F检验回归(f_regression) , 互信息回归(mutual_info_regr

9、ession) 于回归问题，F检验分类(f_classif) , 互信息分类(mutual_info_classif) 于分类问题C、Scikit-learn中实现过滤式特征选择的SelectKBest 类可以指定过滤个数， SelectPercentile 类可以指定过滤百分D、过滤式特征选择的缺点是只评估了单个特征对结果的影响，没有考虑到特征之间的相关作，可能剔除有的相关特征学生答案：B16、以下四个算法中，哪个不属于Scikit-learn聚类的主要算法（）A、cluster.SpectralClusteringB、neighbors.KNeighborsRegressorC、clust

10、er.KMeansD、cluster.AgglomerativeClustering学生答案：B17、下列有关DBSCAN聚类算法的理解有误的项是（）A、对数据集中的异常点敏感B、不需要预先设置聚类数量kC、调参相对于传统的K-Means 之类的聚类算法稍复杂，需要对距离阈值，邻域样本数阈值MinPts 联合调参，不同的参数组合对最后的聚类效果有较影响D、可以对任意形状的密度数据集进聚类，相对的， K-Means 之类的聚类算法般只适于凸数据集学生答案：A18、下图给出了三个节点的相关信息，请给出特征A1、A2及A3的特征重要性递减排序（）A、A3A1A2B、所给信息不。C、A2A3A1D、

11、A1A2A3学生答案：A二、2024年春江苏开放大学机器学习形考作业二多选题答案1、下列关于缺失值处理的说法错误的是（）A、可以将缺失值作为预测标建模型进预测，以此来插补缺失值B、连续型特征可以使众数来插补缺失值C、根据经验，可以动对缺失值进插补D、离散型特征可以使平均值来插补缺失值学生答案：B；D2、将连续型特征离散化后再建逻辑回归模型，这样做对模型有什么影响（）A、计算结果便存储，容易扩展。B、起到简化逻辑回归模型的作C、易于模型的快速迭代D、离散化后的特征对异常数据敏感学生答案：A；B；C3、下列哪些法可以解决数据集的线性不可分问题（）A、斯核SVMB、多项式核SVMC、软间隔SV

12、MD、硬间隔SVM学生答案：A；B；C4、以下关于集成模型中提升法（boosting）与装袋法（bagging）的较，说法正确的是（）A、Boosting主要于于抑制过拟合；Bagging主要于优化弱分类器。B、Boosting的学习器可并训练，顺序；Bagging的学习器需要串进，有顺序。C、Boosting般采整个训练集训练学习器；Bagging则采部分训练集，没到的数据可于测试。D、Adaboost是种Boosting法；Random Forest是种Bagging法。学生答案：C；D5、下列关于软投票说法正确的是？（多选）A、软投票过程中每个基分类器都预测个类别B、可以对每个基分类器设

13、置权重，于对预测概率求进加权平均C、投票表决器可以组合不同的基分类器D、使用概率平均的式来预测样本类别学生答案：B；C；D6、下列有关scikit-learn中TfidfVectorizer 类和CountVectorizer 类的说法错误的是（）A、属性stop_words ：返回停词表B、参数stop_words ：设置停词，默认为None （没有），可设置为english 或list （给定）C、参数min_df ：设定阈值，忽略频率于此阈值的词汇，默认为1、D、属性vocabulary_ ：返回词汇表（字典型）学生答案：A；C7、模型输的特征通常需要是数值型的，所以需要将数值型特征通过

14、特征编码转换为数值特征。下列选项对DataFrame对象df1 中的Make 字段进特征编码，其中正确的是？A、from sklearn.preprocessing import LabelEncoderle = LabelEncoder()df1Make=le.fit_transform(df1“Make”)B、df1Make = df1Make.str.replace(Toyota:1, Ford:2, Volvo:3, Audi:4, BMW:5, Nissan:6)C、df1Make = df1Make.map(Toyota:1, Ford:2, Volvo:3, Audi:4, BMW:5, Nissan:6)D、df1Make = df1Make.replace(Toyota:1, Ford:2, Volvo:3, Audi:4, BMW:5,Nissan:6)学生答案：A；C；D8、关于sklearn中的KNeighborsClassifier 算法类，下列说法正确的是（）A、距离度量附属参数p 可设置为p =2“euclidean”(欧式距离)、p =1为“manhattan”(曼哈顿距离)，默认为2、B、K近邻算法通过对以样本a为圆，半径为k

展开阅读全文