细心整理《统计学》案例——相关回来分析案例一 质量限制中的简洁线性回来分析1、问题的提出某石油炼厂的催扮装置通过高温及催化剂对原料的作用进展反响,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题通过因果分析图和排列图的视察,发觉回流温度是影响液化气收率的主要缘由,因此,只有确定二者之间的相关关系,找寻适当的回流温度,才能到达提高液化气收率的目的经谨慎分析细致探究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即到达12.24%的液化气收率2、 数据的收集序号回流温度〔℃〕液化气收率〔%〕序号回流温度〔℃〕液化气收率〔%〕12345678910111213141536394343393843443740343940414413.112.811.311.412.312.511.110.813.111.913.612.212.211.811.116171819202122232425262728293042434644424145404647453839444512.311.910.910.411.512.511.111.111.110.810.512.112.511.510.9目标值确定之后,我们收集了某年某季度的回流温度及液化气收率的30组数据〔如上表〕,进展简洁直线回来分析。
3.方法的确立设线性回来模型为,估计回来方程为 将数据输入计算机,输出散点图可见,液化气收率y具有随着回流温度x的提高而降低的趋势因此,建立描述y及x之间关系的模型时,首选直线型是合理的从线性回来的计算结果,可以知道回来系数的最小二乘估计值b0=21.263和b1=-0.229,于是最小二乘直线为这就说明,回流温度每增加1℃,估计液化气收率将削减0.229%〔3〕残差分析为了判别简洁线性模型的假定是否有效,作出残差图,进展残差分析从图中可以看到,残差根本在-0.5—+0.5左右,说明建立回来模型所依靠的假定是恰当的误差项的估计值s=0.388〔4〕回来模型检验a.显著性检验在90%的显著水平下,进展t检验,拒绝域为︱t︱=︱b1/ sb1︱>tα/2=1.7011由输出数据可以找到b1和sb1,t=b1/ sb1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率及回流温度之间存性关系b.拟合度检验判定系数r2=0.792这意味着液化气收率的样本变差大约有80%可以由它及回流温度的线性关系来说明0.89这样,r值为y及x之间存在中高度的负线性关系供应了进一步的证据。
由于n≥30,我们近似确定y的90%置信区间为:±1.282×0.388 = 21.263-0.229x ± 0.4974、结果分析由回来直线图可知,要保持液化气收率在12.24%以上,回流温度必需限制在34℃以下因为装置工艺卡片要求回流温度在33—40℃之间,为确保液化气质量合格,可以将回流温度限制在33—34℃之间为此,应当接受各项有效措施,改善外部操作环境,将液化气收率限制在目标值范围内细心整理案例二:轿车生产及GDP等关系探究中国的轿车生产是否及GDP、城镇居民人均可支配收入、城镇居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都有密切关系?假如有关系,它们之间是种什么关系?关系强度如何? 〔数据见《中国统计年鉴》〕〔1〕 分析轿车生产量及私人载客汽车拥有量之间的关系: 首先,求的因变量轿车生产量y和自变量私人载客汽车拥有量x1的相关系数r=0.992018,说明两者间存在必需的线性相关关系且正相关程度很强 然后以轿车生产量为因变量y,私人载客汽车拥有量x1为自变量进展一元线性回来分析,结果如下: ①由回来统计中的R=0.984101看出,所建立的回来模型对样本观测值的拟合程度很好; ②估计出的样本回来函数为:ŷ=1.775687+0.206783 x1,说明私人载客汽车拥有量每增加1万辆,轿车生产量增加2067.83辆; ③由上表中â和βˆ的p值分别是0.709481543和6.60805E-15,明显â的p值大于显著性水平α=0.05,不能拒绝原假设α=0,而βˆ的p值远小于显著性水平α=0.05,拒绝原假设β=0,说明私人载客汽车拥有量对轿车生产量有显著影响。
〔2〕 分析轿车生产量及城镇居民家庭恩格尔系数之间的关系: 首先,求的因变量轿车生产量y和自变量城镇居民家庭恩格尔系数x2的相关系数r=-0.77499,说明两者间存在必需的线性相关关系但负相关程度一般 然后以轿车生产量为因变量y,城镇居民家庭恩格尔系数x2为自变量进展一元线性回来分析,结果如下:由回来统计中的R=0.600608看出,所建立的回来模型对样本观测值的拟合程度一般,综合其相关系数值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系 〔3〕 分析轿车生产量及公路里程之间的关系: 首先,求的因变量轿车生产量y和自变量公路里程x3的相关系数r=0.941214,说明两者间存在必需的线性相关关系且正相关程度较强 然后以轿车生产量为因变量y,公路里程x3为自变量进展一元线性回来分析,结果如下:①由回来统计中的R=0.885883看出,所建立的回来模型对样本观测值的拟合程度较好; ②估计出的样本回来函数为:ŷ=-125.156+1.403022 x3,说明公路里程每增加1万公里,轿车生产量增加1.403022万辆; ③由上表中â和βˆ的p值分别是5.64E-05和1.82E-08,明显â和βˆ的p值均远小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明公路里程对轿车生产量有显著影响。
〔4〕 分析轿车生产量及GDP之间的关系: 首先,求的因变量轿车生产量y和自变量GDP x4的相关系数r=0.939995,说明两者间存在必需的线性相关关系且正相关程度较强然后以轿车生产量为因变量y,GDP x4为自变量进展一元线性回来分析,结果如下: ①由回来统计中的R=0.88359看出,所建立的回来模型对样本观测值的拟合程度较好; ②估计出的样本回来函数为:ŷ=-70.7127+0.001829x4,说明GDP每增加1亿元,轿车生产量增加18.29辆; ③由上表中â和βˆ的p值分别是0.001534和2.11E-08,明显â和βˆ的p值均小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明GDP对轿车生产量有较显著影响 〔5〕 分析轿车生产量及城镇居民人均可支配收入x5之间的关系: 首先,求的因变量轿车生产量y和自变量城镇居民人均可支配收入x5的相关系数r=0.917695,说明两者间存在必需的线性相关关系且正相关程度较强然后以轿车生产量为因变量y,城镇居民人均可支配收入x5为自变量进展一元线性回来分析,结果如下:①由回来统计中的R=0.842164看出,所建立的回来模型对样本观测值的拟合程度较好; ②估计出的样本回来函数为:ŷ=-92.9054+0.032928x5,说明城镇居民人均可支配收入每增加1元,轿车生产量增加329.28辆; ③由上表中â和βˆ的p值分别是0.001444和2.12E-07,明显â和βˆ的p值均小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明城镇居民人均可支配收入对轿车生产量有显著影响。
细心整理案例三:子女身高及父母身高的回来分析1、问题的提出 早在19世纪后期,英国生物学家Galton通过视察1078个家庭中父亲、母亲身高的平均值x和其中一个成年儿子身高y,建立了关于父母身高及子女身高的线性方程: y=33.73+0.516x 从方程可以看出,子女身高有回来平均的倾向那么,时隔一百多年后的今日,人类的物质生活和精神生活都已发生巨大的变更,父母身高及子女身高之间将呈现出什么样的关系呢? 在现实生活中,我们都知道父母身高对子女身高是有影响的,但父亲及母亲的影响分别有多大?他们对儿子和女儿的影响程度是否一样?能否用定量的形式答复这个问题呢?假如可以利用回来方法,进一步提示父亲身高、母亲身高及子女身高之间量化关系的隐私,将有助于那些关注自己后代身高的年轻父母们进展早期预料,同时也可为那些未婚青年男女在选择志向配偶时供应科学的参考依据 2、数据的收集 为了问题的探究,我们要求所调查的家庭满足以下条件:〔1〕家庭中有一个或多个子女〔2〕家庭成员身体安康,发育正常,无先天性和遗传性疾病,无残疾〔3〕子女的年龄均在23岁〔含23岁〕以上考虑到调查范围的广泛性,我们随机抽取了机关干部、职员、工人、农夫、城市居民、军人、高校生家庭,并特意选择了一所全国招生的院校应届毕业生,他们来自于全国各地,家庭背景相对困难,这样使得样本更具代表性。
在收回的410份〔发放460份〕调查表中,符合要求的有290个家庭,其中,有儿子405人,有女儿270人 3、方法的确定依据所收集的数据,应用二元回来分析方法,探究父亲身高、母亲身高及儿子或女儿身高的关系 〔1〕建立回来方程 设X1为父亲身高,X2为母亲身高,Y为儿子或女儿身高那么父母身高及子女身高的回来模型为: Y=β0+β1X1+β2X2+ε 依据样本数据建立估计二元回来方程: yˆ=b0+b1x1+b2x2 〔2〕显著性检验 对回来方程进展F检验,拒绝区域为F﹥Fα(2,n-3);对回来系数进展t检验,拒绝区域为t﹥tα/2(n-3) 〔3〕预料 假设某一家庭父亲和母亲身高分别为x10和 x20,那么子女身高的点估计为: yˆ=b0+b1x10+b2x20 区间估计方法已超出大纲要求,在此不要求 4、结果分析 〔1〕父母身高对儿子身高的影响 yˆ=53.640+0.368x1+0.349x2 显著性检验:在α=0.01的显著水平下,F=62.714﹥Fα(2,400)=4.68 t1=7.85﹥tα/2(400)=2.689 t2=6.71﹥tα/2(400)=2.689 结果说明回来方程显著,两个偏回来系数显著。
因此,所建立回来方程是有意义的,即父母身高及儿子身高有显著的线性关系 〔2〕父母身高对女儿身高的影响 yˆ=47.140+0.249x1+0.455x2 显著性检验:在α=0.01的显著水平下,F=46.81﹥Fα(2,300)=4.68 t1=4.92﹥tα/2(300)=2.68 t2=7.61﹥tα/2(300)=2.689 结果说明回来方程显著,回来系数显著,故所建立回来方程有效,即女儿身高及父母身高有显著的线性关系,特别是母亲身高对女儿身高的影响更为重要 〔3〕从以上结果可以看出,在某种程度上,父母身高对子女身高有重要影响,且在不同时期,子女身高有回来平均身高的趋势,即个子矮的父母,其子女身高未必低于自己,个子高的父母,其。