《回归分析课程设计.doc》由会员分享,可在线阅读,更多相关《回归分析课程设计.doc(11页珍藏版)》请在金锄头文库上搜索。
1、应用回归分析课程设计指导书一、 课程设计的目的 (1)巩固应用回归分析的理论知识,掌握其思想精髓; (2)运用回归分析研究方法,加强解决实际问题的能力; (3)熟练使用spss软件对数据进行回归分析。 二、 设计名称:研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系三、 设计要求 (1)正确运用spss软件对数据进行处理 (2)正确分析数据,尝试选择不同的模型拟合数据 (3)课程设计中,遇到问题要翻阅课本去努力解决问题 (4)要有耐心,对于模型的显著性和回归系数都要进行检验 (5)认真并独立完成四、 设计过程 (1)思考课程设计的目的,寻
2、找来源真实的数据 (2)上网搜集并整理数据资料 (3)根据数据确定研究对象 (4)应用统计软件来处理数据信息 (5)选择通过各种检验的线性模型 (6)写出相应的实验报告,并对结果进行分析五、设计细则 (1)搜集数据阶段,数据不能过于繁杂,也不能太少; (2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论; (3)有耐心,不紧不慢;要细心,一丝不苟; (4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要清楚明了。分析结果要正确与实际问题背景相符。六、说明 (1)书写报告时,有些特殊的数学符号需要利用Mathtype(公式编辑器)这款小软件进行编辑; (2)有些sp
3、ss输出表格不整齐,需要导出在Excel中,然后在复制到word文档里; (3)认真仔细的完成课程设计课程设计任务书姓 名XXX学 号00000000班 级09统计课程名称 应用回归分析课程性质统计学设计时间 2011年11月 1 日 2011 年 11 月 15 日设计名称 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系设计要求(1)正确运用spss软件对数据进行处理(2)正确分析数据,尝试选择不同的模型拟合数(3)课程设计中,遇到问题要翻阅课本去努力解决问题(4)要有耐心,对模型的显著性和回归系数要进行检验(5)认真并独立完成 设计
4、思路与设计过程 思路:(1) 建立一个回归方程后,要检验方程显著性和回归系数的显著性(2) 将理论应用到实际问题中去 过程:(1)思考课程设计的目的,寻找来源真实的数据(2)上网搜集并整理数据资料(3)根据数据确定研究对象(4)应用统计软件来处理数据信息(5)选择通过各种检验的线性模型(6)写出相应的实验报告,并对结果进行分析计划与进度(1)11月1日-11月3日,思考准备研究课题。(2)11月4日-11月7日,确立课题,搜集数据。(3)11月8日-11月13日,分析处理数据,编写课程设计报告书。(4)11月13日-11月15日,检查报告是否完整正确并装订成册任课教师意 见说 明(1)对Wor
5、d文档进行编辑的时候,有些特殊的数学符号需要利用Mathtype (公式编辑器)这款小软件进行编辑。(2)有些spss输出表格不整齐,需要要到处在Excel中,然后在复制到word文档里设计名称:研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系日期:2011年 11 月 13 日 (1) 设计内容:研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表如下:编号货运总量y(万吨)工业总产值x1(亿元)农业总产值x2(亿元)居民非商品支出x3(亿元)1160.0070.0035.0
6、01.002260.0075.0040.002.403210.0065.0040.002.004265.0074.0042.003.005240.0072.0038.001.206220.0068.0045.001.507275.0078.0042.004.008160.0066.0036.002.009275.0070.0044.003.2010250.0065.0042.003.00(1) 计算出y,x1,x2,x3的相关系数矩阵;(2) 求y关于x1,x2,x3的三元线性回归方程;(3) 对所求的得方程做拟合优度检验;(4) 对回归方程做显著性检验;(5) 对每一个回归系数做显著性检验;
7、(6) 如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验;(7) 求出每一个回归系数的置信水平为95%的置信区间;(8) 求标准化方程;设计目的与要求:目的:(1)巩固课本上学到的知识,提高处理实际问题的能力; (2)掌握对多元线性回归问题的模型选择; (3)对软件输出的结果要学会分析要求:(1)熟练使用spss软件对回归数据进行模型拟合; (2)认真独立完成设计环境或器材、原理与说明:设计环境和器材:计算机,Minitab软件,课本,笔记设计原理与说明:(1) 多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系
8、数,再对每个系数是否为零进行t检验(2) t检验:原假设:统计量: 其中为回归标准差当原假设:成立时,构造的统计量服从自由度为n-p-1的t分布。给定显著性水平,查出双侧检验的临界值。当时拒绝原假设:,认为显著不为零。自变量是对y的线性效果是显著的;当时接受原假设:,认为显著为零。自变量是对y的线性效果不显著的(3) F检验对线性回归方程显著性的另一种检验是F检验,F检验是根据平方和分解式,直接从回归效果检验方程的显著性。平方和分解式是其中,称为总平方和,简记为sst或,SST表示Sum of Squares for Total。称为回归平方和,简记为SSR或,R表示Regression称为残
9、差平方和,简记为SSE或,E表示Error因此平方和分解式可以简记为SST=SSR+SSE原假设:统计量: 当原假设成立时,构造的统计量服从自由度为(p,n-p-1)的F分布。给定显著性水平。当大于临界值时,拒绝原假设,认为回归方程显著。 方差分析表方差来源自由度平方和均方F值P值回归残差总和SST(4) 拟合优度 拟合优度用于检验回归方程对样本观测值的拟合优度。在多元线性回归中,决定系数为样本决定系数的取值在区间内,越近1,表明回归拟合的效果越好;越接近0,表明回归拟合的效果越差。与F检验相比,可以清楚直观的反应回归拟合的效果,但是并不能作为严格的显著性检验。(5) 复相关系数称为y关于的样
10、本复相关系数。在两个变量的简单相关系数中,相关系数没有正负之分,而复相关系数表示的是因变量y对全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定,因而复相关系数都取正号。(6) 多重共线性 多元线性回归方程模型中有一个基本假设,就是要求设计矩阵X的秩rank(X)=p+1,即要求X中的列向量之间线性无关,如果存在不全为0的P+1个数,使得则自变量之间存在着多重共线性。多重共线性的诊断:(方差扩大因子法)对自变量做中心标准化,则为自变量的相关阵。记称其主对角线元素为自变量的方差扩大因子(variance inflation factor,VIF)。当就说明自变量与其他自变
11、量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘估计值。设计过程(步骤)或程序代码:(1) 打开SPSS软件,导出数据(2) 分析相关双变量相关变量:y,x1,x2,x3确定(3) 分析回归线性回归(因变量:y;自变量:x1,x2,x3)确定(4) 分析相关双变量相关变量:y,x1,x2确定(5) 分析回归线性回归(因变量:y;自变量:x1,x2)确定(6) 分析-回归-线性回归(因变量:y;自变量:x1,x2,x3;统计量:选中共线性诊断;继续)-确定(7) 分析-回归-线性回归(因变量:y;自变量:x1,x2,x3;保存:预测值:未标准化;残差:未标准化;预测区间:均值,
12、置信水平为95%;继续)-确定设计结果与分析(可以加页):(2)相关性yx1x2x3yPearson 相关性1.556.731*.724*显著性(双侧).095.016.018N10101010x1Pearson 相关性.5561.113.398显著性(双侧).095.756.254N10101010x2Pearson 相关性.731*.1131.547显著性(双侧).016.756.101N10101010x3Pearson 相关性.724*.398.5471显著性(双侧).018.254.101N10101010*. 在 0.05 水平(双侧)上显著相关。(3)输入移去的变量模型输入的变量
13、移去的变量方法1x3, x1, x2a.输入a. 已输入所有请求的变量。模型汇总模型RR 方调整 R 方标准 估计的误差1.898a.806.70823.44188a. 预测变量: (常量), x3, x1, x2。复相关系数R=0.898,决定系数=0.806,由决定系数看回归方程高度显著。Anovab模型平方和df均方FSig.1回归13655.37034551.7908.283.015a残差3297.1306549.522总计16952.5009a. 预测变量: (常量), x3, x1, x2。b. 因变量: y由方差分析表可以知道,F=8.283,P值=0.015,表明回归方程高度显著,说明x1,x2,x3整体上对y有显著的线性影响。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-348.280176.459-1.974.096x13.7541.933.3851.942.100x27.1012.880.5352.465.049x312.44710.569.2771.178.284a. 因变量: y1.回归方程为 :2.回归系数