CPDA考试应用模拟

上传人:xmg****18 文档编号:118979280 上传时间:2020-01-02 格式:DOC 页数:31 大小:41.06KB
返回 下载 相关 举报
CPDA考试应用模拟_第1页
第1页 / 共31页
CPDA考试应用模拟_第2页
第2页 / 共31页
CPDA考试应用模拟_第3页
第3页 / 共31页
CPDA考试应用模拟_第4页
第4页 / 共31页
CPDA考试应用模拟_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《CPDA考试应用模拟》由会员分享,可在线阅读,更多相关《CPDA考试应用模拟(31页珍藏版)》请在金锄头文库上搜索。

1、. . .一、 计算题(题数:4,共 100.0 分)1.影响中国人口自然增长率的因素有很多,据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文

2、化程度及人口分布的影响。 从中国统计年鉴收集到以下数据(见表1): 设定的线性回归模型为: 算法1多元线性回归.xlsx(1)求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型的经济意义;(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。答案解析:(1)直接进行线性回归即可得到各个参数(用excel)。多元线性回归模型评价可以从拟合优度、T检验、F检验等多个方面出发。(2)求变量的相关系数矩阵或采用逐步回归法(也可以用datahoop平台做线性回归,会自动删除共线的变量)。2.对近期上映的10部电影进行调查研究,抽取290人对这10部电影的评分(分值01

3、0分),结果如下表所示。(1)根据表中数据对这10部电影的评分进行因子分析,并解析各个因子的含义;(2)可否利用电影的评分数据对这290名观影者进行聚类分析?给出你的理由。算法2因子分析.xlsx答案解析:(1)因子分析选择隐含因子数为3,分别代表动作片、爱情片、动画片的影响评分因子。(2)可以,这290人对电影的偏好有区别,可以进行聚类,相关性分析后排除共线性的影响再进行聚类。3.某超市为了优化商品摆放结构,对近期顾客购买的商品类型进行了统计,如附表所示。(1)写出所有有效强关联规则(minsupport=10%,minconfidence=50%);(2)结合实际情况分析顾客喜欢的商品搭配

4、,并对该超市提出合理的建议。算法3关联分析.xlsx答案解析:关联规则分析中设置参数(minsupport=10%,minconfidence=50%),结果中强关联规则通过调整显示条目全部写出(重复的删除)。结合实际情况分析要写详细。4.某市为调查驾驶员视力情况(“1”表示视力正常,“0”表示有视力缺陷)、年龄、是否有驾驶教育经历(“1”表示有,“0”表示没有),这三个因素对是否曾引起交通事故(“1”表示发生过,“0”表示未发生过)的影响,随机抽样调查了45名驾驶员,得到数据如下:(1)建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响,写出详细的思路过程。(2)

5、若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些?请说明。算法4逻辑回归.xlsx答案解析:逻辑回归,数据预处理包括分析共线性和异常值等,数据分为训练数据和测试数据,综合训练误差和测试误差评价模型。第二问要收集数据、处理数据、应用模型直接预测。-一、 计算题(题数:4,共 100.0 分)1.1993-2007年相关经济数据如附表所示。设定国内生产总值为x1,地产投资总额为x2,全国居民消费水平为x3、全社会固定资产投资房屋竣工面积为x4,作为自变量;全国房屋销售均价设为Y,作为因变量。建立如下的多元线性回归模型:y=b0+b1*x1+b2*x2+b

6、3*x3+b4*x4+b0,b1,b2,b3,b4是未知参数,是剩余残差,且E()=0,与四个自变量无关。(1)求出参数b0,b1,b2,b3,b4,并评判模型拟合优度和实际意义,写出详细的分析依据和思路过程;(2)根据(1)对模型进行修正。多元线性回归.xlsx答案解析:(1)直接做线性回归,可得各个参数。通过R2,F、T检验,p值等分别分析模型。系数在经济意义上存在不合理性,可能是共线性的影响。(datahoop平台会删除共线的变量,所以这里用excel或spss等做回归。)(2)相关性分析和解释,去掉一些变量,重新做线性回归(在Datahoop平台上直接做也可以,平台会自动删除共线的变量

7、)。2.为了解电影票房的影响因素有哪些,某出品人搜集了2010年至2013年间中国电影发放放映协会统计的过千万票房的国产电影相关统计指标,共涉及275部影片。具体数据如附表所示。Datahoop上传测试集:电影票房数据(2010-2013).xlsxDatahoop上传训练集:电影票房数据(2010-2013).xlsx对数据进行预处理(包括缺失值、数据类型、离散化等),选择决策树模型进行拟合,并检验和分析模型。要求写出详细的思路和过程。答案解析:1.影片票房:影片票房是本次模型建模的因变量。通过对选取数据的统计分析,将票房数据进行分类,一共分为8个层次,分类情况如表所示:等级 1 2 3 4

8、 5 6 7 8范围 1000万 2000万 3000万 6000万 1亿万 1亿9000万 3亿 20亿 2000万 3000万 6000万 1亿万 1亿9000万 3亿 9亿万 2.影片属性:影片类型分为爱情、喜剧等14种,分类依据是根据豆瓣和mtime里面对该部影片的标签分类。时长单位为分钟,取值范围75-156分钟。3.影片档期:影片上映年份,含5月1日在内的5、6月归为黄金1档;含10月1日的10、11月归为黄金2档;12、1、2月归为贺岁档(不同于网上贺岁档时间分类);7、8、9月归为暑期档,剩下三四月归为普通档。4.品牌属性:宣发方:明星私企=S,国有宣发公司=G,小私营公司=L

9、,联合发行=C。5.IP电影属性:是否改编,是否真实,是否翻拍,是否有续集6.导演、演员影响度:导演年代、导演第几部作品、导演是否得奖、导演是否转型、演员百度指数1,演员百度指数2数据预处理:处理缺失值方法:决策树【案例分析】第一步:用训练集数据训练模型,准确度超过70%,预测效果还可以第二步:用测试集数据测试,发现准确度很低这也是真实数据和真实场景经常会面临的问题。注意这个题的结论是模型不可以应用于实际。3.9个顾客编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9)每一顾客购买的商品记录I1,I2,I5,I2,I4,I2,I3,I1,I2,I4,I1,I3,I2,I3,I1,I3

10、,I1,I2,I3,I5,I1,I2,I3设最小支持度为22%,利用Apriori算法进行关联分析,写出所有频繁项集和强关联规则。(25.0分)我的答案答案解析:C1项数集 支持度计数I1 6I2 7I3 6I4 2I5 2最小支持度=2/9=22%,即最小支持度频度为2,则1 L1频繁项集 支持度计数I1 6I2 7I3 6I4 2I5 2C2项数集 支持度计数I1,I2 4I1,I3 4I1,I4 1I1,I5 2I2,I3 4I2,I4 2I2,I5 2I3,I4 0I3,I5 1I4,I5 0去掉小于最小支持的频度,得到2相频繁集2 L2频繁项集 支持度计数I1,I2 4I1,I3 4

11、I1,I5 2I2,I3 4I2,I4 2I2,I5 2C3项数集 支持度计数I1,I2,I3 ,2I1,I2,I5 2I1,I3,I5 1I2,I3,I4 0I2,I3,I5 1I2,I4,I5 0去掉小于最小支持的频度,得到3相频繁集3 L3频繁项集 支持度计数I1,I2,I3 ,2I1,I2,I5 2C4项数集 支持度计数I1,I2,I3,I5 1去掉小于最小支持的频度,得到4相频繁集为空集。则再不可能发现新的频集,算法结束。最终得到的频繁项集为I1I2I3I4I5I1,I2I1,I3I1,I5I2,I3I2,I4I2,I5I1,I2,I3I1,I2,I5强关联规则将商品记录TF化导入平

12、台设置参数即可得到,不过多展示。4.对各地区农村居民家庭平均每人生活消费支出进行聚类,即从综合角度来看哪些地区的消费水平类似,并结合实际情况分析模型效果;再对不同的消费项目进行聚类,即对变量进行聚类,来看哪些变量属于一类。其数据如附表所示。聚类.xlsx注:数据来源(中华人民共和国国家统计局)对数据进行预处理,选择合适的算法模型进行聚类,要求写出具体思路。 答案解析:分析数据是否有缺失值、异常值,用k-means聚类要考虑共线性(相关系数大于0.9的一定要处理),进行因子分析或处理强相关变量后再进行聚类。(分别选取2、3、4等类,选择轮廓系数大且易于解释的分类结果)-一、 计算题1.通过分析关

13、于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。二手车抽样 - 预处理.csv收集的数据包含:变量名代表含义数据类型备注yuanjia原价连续变量汽车原价baojia报价连续变量汽车报价licheng里程连续变量累计里程数(单位:万公里)pailiang排量.L.连续变量发动机单位时间内释放的能量mali最大马力.Ps.连续变量最大动力输出changshang厂商离散变量十一分类排名前十的厂商分别用1-10表示,以及前十以外的其他水平cheshen_type车身结构-车类型离散变量四分类“SUV”、“两厢”、“三厢”、“MPV”pengzhuang排除重大碰撞离散变量排除重大碰撞(0)&存在重大碰撞(1)waiguan_xiufu外观修复检查离散变量排除外观修复(0)&存在外观修复(1)waiguan_quexian外观缺陷检查离散变量排除外观缺陷(0)&存在外观缺陷(1)n

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号