基于鞋码影响身高的预测模型

上传人:206****923 文档编号:91082239 上传时间:2019-06-21 格式:DOC 页数:9 大小:246KB
返回 下载 相关 举报
基于鞋码影响身高的预测模型_第1页
第1页 / 共9页
基于鞋码影响身高的预测模型_第2页
第2页 / 共9页
基于鞋码影响身高的预测模型_第3页
第3页 / 共9页
基于鞋码影响身高的预测模型_第4页
第4页 / 共9页
基于鞋码影响身高的预测模型_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《基于鞋码影响身高的预测模型》由会员分享,可在线阅读,更多相关《基于鞋码影响身高的预测模型(9页珍藏版)》请在金锄头文库上搜索。

1、基于鞋码影响身高的预测模型 姓名:XXX班级:XXXX学号:XXXXX摘 要 在已知一个人的鞋码的情况下,想要大概估算出一个人的身高,本文采用SPSS软件先对采集的数据进行相关性分析,体重和身高正相关,鞋码与身高存在极强的正相关性。接着采用偏相关分析,发现体重对身高的影响大大降低,接着对数据进行曲线估计,得出鞋码与身高为线性关系,对该模型进行检验发现拟合性很好,从而在已知寇老师的鞋码情况下,可以知道他的身高为 .关键词: 偏相关分析 SPSS 曲线估计 身高 71 问题重述已知寇老师所穿的鞋子码数是42码,利用统计学的知识,估计寇老师的身高,并分析身高与哪些因素相关,相关性如何?再建立统计模型

2、。2 问题分析在已知寇老师鞋码的情况下,要我们求出寇老师的身高,则需要收集大量鞋码与身高的数据来对这两者进行分析,考虑到影响身高的因素,我们也将体重这一因素调查出来,利用已学的SPSS软件知识对这三者之间的关系进行分析,是否符合线性回归方程,进而利用鞋码得出寇老师的身高,如若不然,应采用非线性回归分析。在此基础上还应该对已建立的模型进行检验,减小误差,得出身高其他影响因素的关系。3 模型假设1. 假设收集的数据真实可靠;2. 假设收集的数据不存在人为干扰;3. 假设本次收集的数据是随机的;4 定义与符号说明 鞋码 身高 相关系数 表示方程的回归系数5 模型的建立与求解数据预处理表一:描述统计量

3、N全距极小值极大值均值标准差方差身高5033147180169.307.15851.235体重5032417356.748.55073.094鞋码508354340.282.0904.369有效的 N (列表状态)50本次一共收集了50个人的身高鞋码数据,对鞋码、身高、体重的数据的极大值、极小值、均值、标准差、方差进行统计,发现身高大部分分布在169.3cm左右 ,体重则在56.74kg左右,鞋码大部分分布在40.28左右。5.1 鞋码、身高、体重相关与独立性 对鞋码、身高、体重的数据的相关与独立性进行定量分析,利用对3个基本指标的相关数据进行相关分析,若随机变量X、Y的联合分布是二维正态分布

4、,和分别为n次独立观测值,相关系数r的公式为:其中,利用SPSS分析得到表二:表二:相关性分析身高体重鞋码Kendall 的 tau_b身高相关系数1.000.515*.659*体重相关系数.515*1.000.528*鞋码相关系数.659*.528*1.000Spearman 的 rho身高相关系数1.000.674*.776*体重相关系数.674*1.000.641*鞋码相关系数.776*.641*1.000 Pearson 相关性身高相关系数1.705*.856*体重相关系数.705*1.686*鞋码相关系数.856*.686*1根据相关系数的检验标准,由表二可以观察得出身高和鞋码两者高

5、度相关,体重和鞋码两者中度相关,体重和身高之间正相关。但是无法确定它们之间是否存在伪相关性,则需要剔除其他变量的影响,在只有三种数据的情况下,我们采用偏相关系数来反映变量间真实的相关性,所以偏相关分析见表三:表三:偏相关分析控制变量身高体重 鞋码身高相关性1.000.313显著性(双侧).029df047体重相关性.3131.000显著性(双侧).029.df470控制变量身高鞋码 体重身高相关性1.000.722显著性(双侧).000df047鞋码相关性.7221.000显著性(双侧).000.df470由表三输出结果可知,在考虑了鞋码的影响之后,身高和体重的相关系数下降,大大低于两变量相关

6、分析中的相关系数,所以鞋码和身高存在某种线性关系。5.1.1身高与鞋码的相关性由表三数据可知,建立一元线性回归模型:上式中表示方程的回归系数,为鞋码,为身高,利用SPSS对数据进行线性拟合,得到的结果见表四。 表四:模型汇总和参数估计值方程模型汇总参数估计值R 方Fdf1df2Sig.常数b1b2b3线性.733132.006148.00051.1772.933自变量为 鞋码。因变量: 身高根据表三可以得出鞋码与身高的关系方程为:5.1.2模型检验表五:模型汇总c模型RR 方调整 R 方标准 估计的误差1.856a.733.7283.73454a. 预测变量: (常量), 鞋码。b. 因变量:

7、 身高由表五可知,方程的拟合效果很好,调整 R 方也比较大为0.728,则统计量的取值表明模型残差不存在序列自相关。表六:Anovaa模型平方和df均方FSig.1回归1841.05411841.054132.006.000b残差669.4464813.947总计2510.50049表六为方程显著性的方差分析,总平方和的自由度为49,回归平方和的自由度为1,残差平方和的自由度为48,F统计量为132.006,显著性水平为0,残差分析见表六和表七,说明线性方程非常显著,所以自变量作为一个整体对因变量有显著影响。表七:系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)51.177

8、10.2954.971.000鞋码2.933.255.85611.489.000a. 因变量: 身高表七为回归系数及多重共线性诊断结果,内容依次为:非标准化的回归系数,包括回归系数值和标准差;标准化的回归系数;回归系数显著性的检验的统计量;显著性水平。观察显著性水平一列,可见变量都比较显著,则不存在共线性问题。表八:残差统计量a (因变量: 身高)极小值极大值均值标准 偏差N预测值153.8161177.2765169.30006.1296450残差-9.411446.58856.000003.6962450标准 预测值-2.5261.301.0001.00050标准 残差-2.5201.76

9、4.000.99050表八列示了逐步回归中各步对应模型的汇总信息,可见随着变量选择过程的进行,调整不断增大,回归标准差不断降低,说明变量选择的每一步都起到了改进的作用,提高了模型的拟合程度。 图一 图二图三图一为标准化残差的直方图,从直方图与相应正态曲线的位置关系来看,标准化残差的分布与正态分布的差别不是太大,结果显示标准化残差的均值接近于0,标准差接近于1。图二为标准化残差概率图,图中散点基本分布在正态分布对应的直线的周围。图三为学生化删除残差与因变量的散点图,图中散点的分布没有明显的规律,可以认为是随机的,因而不存在异方差问题。综上所述,我们建立回归模型与回归分析的基本假设是吻合的,因而这

10、个模型是可以用来预测的。5.1.3模型解答已知寇老师所穿的鞋子码数是42码,即在此方程中,则得出。6 模型评价优点:1、 模型结构简单,参数较少2、 建模所需要的样本较少,专门针对小样本情况缺点: 1、应该分开性别进行分析,减小误差 2、利用的数据比较少,模型的参数误差比较大7 参考文献1 黄向阳.统计学方法与应用.北京:中国人民大学出版社,2005。8 附录附件一:身高(cm)体重(kg)鞋码身高(cm)体重(kg)鞋码16346361705941152443517257411786941168524017168401736543161503716252411544135175534015751371786742163463717267411665938177734214742351674539160433717462421765742170554117265411725542175554216450401746041173534116645421787343178504117352421706041174584117065421807042165464016855401695241166564016854401657041165584017062411786742175634217558411766242

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号