文档详情

多元回归分析作业北航

ss****gk
实名认证
店铺
DOCX
72.59KB
约18页
文档ID:234943051
多元回归分析作业北航_第1页
1/18

单位代码 学 号 SY1401138分类号 密 级 ,上京大辱B E I H A N G UNIVERSITY应用数理统计(第一个论文)山东省旅游发展影响因素多元回归分析院係)名称 材料科学与工程学院 专业名称 材料科学与工程 学生姓名 李新杰 任课教师 冯伟 2014年12月摘要本文主要通过对山东省旅游收入的多因素分析,建立以山东省旅游总收入为 因变量,以国内旅游人数、接待入境人数、旅行社总数、旅游饭店数量以及旅游 社职工人数等为自变量的多元线性回归模型,并利用SPSS统计软件建立逐步回 归模型,找到影响山东省旅游业发展的显著性变量,并对所得的模型给予合理的 经济解释关键词:逐步回归法山东省旅游发展SPSS相关性显著性主成分目录摘要 11引言 12数据收集 23统计数据的初步分析 33.1变量间的相关性分析 33.2 一元线性模型的验证 34回归分析 54.1回归模型的建立 54.2回归模型参数的估计 6421构建模型 6422剔除变量分析 74.2.3回归系数分析 75回归模型的验证与修正 85.1方差分析 85.2回归方程的拟合度检验 95.3残差检验 95.3多重共线性检验 115.4回归模型的修正 126结果 13参考文献 15山东省旅游发展影响因素多元回归分析学号:SY1401138姓名:李新杰1引言随着社会经济快速发展,生活节奏加快,人们的压力变得越来越大,为减轻 压力,既能放松自己,又能拓展自我视野的旅游就成为了人们的首要选择。

从我 国近5年的统计数据来看,我国每年的旅游收入正在逐年递增,旅游消费已成 为中国人们日常支出中的重要部分山东省地处黄海之滨和黄河入海口,有着秀 丽的自然风光,众多的人文景观,旅游资源十分丰富全省拥有旅游景区、景点 509处,其中泰山和曲阜“三孔”列入世界遗产名录,青岛烟台、威海代表了中 国海滨旅游的一大片全省旅游资源品位高,种类全,分布广,综合条件好,旅 游业发展和旅游总收入位于全国前列,为了更好地了解山东省旅游业的发展,对 山东省旅游业发展的影响因素建立回归模型分析,找出其核心影响因素在应用回归分析去处理实际问题时,必须通过合理经济的方法建立最优回归 方程建立最优回归方程时要注意两个方面:(1)方程中要包含所有的显著作用 的自变量,不能遗漏;(2)希望变量个数尽可能少,不含有无意义的变量,而且 还应该使这类方程的S达到最小目前最常用的是逐步回归分析方法,即利用自 变量和因变量的一系列同步观测数据,通过对相关矩阵的变换和数理统计的假设 检验,逐步把显著性的自变量选入回归方程中,同时也把非显著性的自变量从回 归方程中剔除,最终建立一个最优回归方程 2数据收集表2-1 2000-2013年山东省旅游总收入、国内旅游人数、入境旅游人数、旅游社总数、旅游饭 店总数、旅行社职工人数年份旅游总收入 (亿元)国内旅游人数 (万人挨)入境旅游人数 (万人挨)旅游土总数 (家)旅游饭店总 数傢)旅行社职工人数 (人挨)2000412.65700772.3172740483682001494.38808682.081050508115152002610.75957397.061042529136822003573.43891877.671172558145152004814.6711749119.3113735971638120051038.714097155.114876851570520061295.6616775193.1316577121843820071653.620343249.617997952049220082005.2424046253.7517978652224220092452.228882310.041802912230162010305& 834990366.7918309152332720113736.641696424.2318659072297820124519.748739469.9119519132358520135183.954262452.71200190421834注:以上数据根据《山东省统计年鉴2000-2013年》整理所得3统计数据的初步分析3.1变量间的相关性分析为了知道旅游总收入具体和哪些变量有较大的关系,并将这些变量加入到线 性模型中,首先要对旅游总收入和5个变量进行相关性分析,得到各个数据之间 的相关系数表:表3-1各个变量之间的相关系数表国游IIil职勺 翌0099976 £.82447 oq.801999-山O3 n-u98383689 .816.97389-111-O88899388428838888-HI073q-697 oq36894—9739_lu o-4no9.8019.81388969489-lu o-IUO_lu-lu o00 o00000_|||00 o00-M-00 OIII-O-III o00000 o00 OIII-O-III--III--III-000_lu o-||1 o-山00 O-IIIO-lu0-lu o00 o-N1444444144444414144444144414441414141441441441444从表3-1可以看出旅游总收入Y和其他变量之间的相关系数,其中旅游总收入(亿兀)和Xi:国内旅游人数(万人次)的线性正相关程度最高,其次是X2: 入境旅游人数(万人次),而旅行社职工人数等相关程度相对较小,所以需要对 变量进行一元线性模型验证,以确定是否需要排除掉变量。

3.2 一元线性模型的验证以上我们通过相关性分析确定了各相应变量对旅游总收入Y的影响,为了 确定是否需要将所有的变量都加入到线性模型中,下面将通过做出旅游总收入Y分别和其他5个变量的散点图来进行验证:O2000OXMO2009O2012SOOOO-•0000-入 x» ocr100.00-2000.00*175000-1500XXT12SO.OO-1000 oo-750.00-(b)0 00 1000 00 2000 00 3000 00 400000 9000 00 6000 00»»&«(入(d)25000 00-20000 OO*O300#020121SOOOOO-,0000 00-5000 00-O2000O200J:2005O2009O2012«»A«(入年側02000O2003OM09O201202000O2003O20OTO2012(c)(e)图3-1因变量和自变量间的散点图: (a)为旅游总收入Y和国内旅游人数的散点图,⑹为旅游总收入Y和入境旅游人数的散点图, (c)为旅游总收入Y和旅行社总数的散点图,(d)为旅游总收入Y和旅游饭店总数的散点图,(e)为旅游总收入Y和旅行社职工人数的散点图从图3-1中的因变量旅游总收入和5个自变量的散点图来看,旅游总收入和 5个自变量都有很好的线性关系,这说明通过相关性分析得到的这5个和旅游总 收入有关系的自变量都是正确的,而旅游社总数、饭店总数、旅行社职工人数与 旅游总收入的相关性差不多,故无需对数据进行删除,因此在接下来进行多元逐 步回归分析的时候会将这5个变量都加入到多元线性模型中进行模型建立和分 析。

4回归分析4.1回归模型的建立采用线性回归分析建立的模型为:Y=a+biXi+b2X2+...+bnXn;其中Y为因 变量的预测值或估计值;X” X2 ......Xn为自变量a和bi、b2 ...... bn为回归 系数若使以上线性回归分析方法达到最优,就要求自变量满足以下两个条件:(1) 性回归分析模型中,要包含所有对Y影响显著的自变量,消除对Y 影响不显著的自变量2) 模型包含的各自变量之间不存在多重共线性,即各自变量之间不存 性关系或近似线性关系为了解决以上两个问题,最有效的方法是采用逐步回归分析方法其基本思 想是在所考虑的全部因素中,按其对Y作用显著程度的大小,由大到小地逐个 引入回归方程那些对Y作用不显著的变量可能自始至终都未被引人回归方程 另一方面,已被引人回归方程的变量在引入新变量后也可能因为变成对Y作用 不显著而从回归方程中剔除在回归分析中,对自变量的选择很重要逐步回归法能使回归式子保留几个最为 显著的自变量经过分析,影响山东省旅游收入的主要因素有国内旅游人数、接待 入境人数、旅行社总数、旅游饭店数量以及旅游社职工人数,为此设定以下多元 线性回归模型:Y=a + biXi + b2X2 + b3X3 + b4X4 + b5X5其中Y为山东省旅游总收入(亿元),Xi为国内旅游人数(万人次)、X2 为入境游客人数(万人次)、X3为旅行社总数(家)、X4为旅游饭店总数(家)、 X5为旅行社职工人数(人次)。

其中:bi= (1, 2, 3, 4, 5)分别表示各变量 系数,表示各解释变量对被解释变量Y的影响程度4.2回归模型参数的估计4.2.1构建模型通过利用SPSS软件的线性回归分析,将国内旅游人数(万人次)、入境游 客人数(万人次)、旅行社总数(家)、旅游饭店总数(家)、旅行社职工人数(人 次)作为自变量,将山东省旅游总收入作为因变量,进行逐步分析法,得到表 4-1 o表4-1输入或者移出到模型中的变量表ModelVariables EnteredVariables RemovedMethod12国内旅游 人数入墳旅游 人数Stepwise (Criteria: Probabilit y-of- F-to-enter <=.050, Probabilit y-of- F-to-remo ve >=. 100).Stepwise (Criteria: Probabilit y-of- F-to-e nter <=.050, Probabilit y-of- F-to-remo ve >=. 100).a Depen dent Variable:旅游忌、1从表4-1中可以看到最终模型中存在的自变量是国内旅游人数和入境旅游人 数。

选择的判据是变量进入回归方程的F的概率。

下载提示
相似文档
正为您匹配相似的精品文档