《回归与相关分析2ppt课件》由会员分享,可在线阅读,更多相关《回归与相关分析2ppt课件(88页珍藏版)》请在金锄头文库上搜索。
1、 实验设计与分析 第四章第四章 回归与相关回归与相关 主讲教师主讲教师 李得孝李得孝 4-1 直线回归与相关Linear Regression and Correlation变量之间的关系n统计相关关系 n1)因果关系回归分析 n2)平行关系相关分析4-1-1直线回归7067555251525160641616.31610.91440.01440.71423.31471.31421.81547.11533.0表表4-1-3 播种至齐穗天数播种至齐穗天数x与总积温与总积温y的关系的关系图图4-1-4 y关于关于x的回归散点图的回归散点图(Scatter plot)回归关系的模拟步骤:回归关系的模
2、拟步骤:一、绘制散点图:一、绘制散点图:根据初等函数及其根据初等函数及其图像知像知识确定近确定近似的函数似的函数y = f(x)y = 0+ xy = 0+ x找到一条直线,即,确定0和的值,使偏向平方和最小。二二. 参数估计参数估计利用最小二乘法估计0和:7067555251525160641616.31610.91440.01440.71423.31471.31421.81547.11533.0实例计算:实例计算:回归方程(Regressionequation)为:Intercept回归截距Slope斜率确定直线回归方程的方法有最小二乘法、高斯牛顿法、麦夸特法、确定直线回归方程的方法有最小
3、二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。牛顿法、梯度法、正割法等等。提问:回归方程能否真是存在?三三. 显著性检验显著性检验1) 检验回归方程的显著性检验回归方程的显著性 剩余平方和,残差平方和,离回归平方和残差回归平方和与剩余平方和的计算回归平方和与剩余平方和的计算回归直线的显著性检验回归直线的显著性检验 方法1:方差分析法方法2:相关系数法后讲2) b的显著性检验的显著性检验3) b0 3) b0 的假设检验的假设检验( (过原点过原点在实践运用中,有时要检验回归直线过定点c,d)的问题,此时只需把察看点(x,y)变为(x-c,y-d)就成为过原点的问题了四四. 预测与控
4、制预测与控制 当显著时,可用于预测、控制等但必需留意,运用时x的取值范围只能在拟合回归方程时所用样本的范围内,不能外推。例3的99%预测图4-2 相关分析及相关分析及检验检验: 这种检验不能对作出区间估计,亦不能进展H0:=c(c0)的检验!?处理途径:将r转换成Z1) 相关系数等于非零常数的检验相关系数等于非零常数的检验 那么z近似服从正态分布u检验: ,【例4-2-1】在第一节【例4-1-1】中,试检验与的差别显著性,并给出95%的置信区间2) 两个相关系数的比较两个相关系数的比较【例4-2-2】在研讨贵阳水牛中,用39头牛的实测数据,得体重与胸围的相关系数为r1=0.8256*,,体重与
5、体斜长的相关系数为r2=0.6678*,试比较两相关系数的的差别显著性(参考成组数据的假设检验!结论4-3 y关于x的非线性回归分析常用的一些简单非线性关系,都可经过变量代换变成直线回归分析,这种方法称为拟线性化法。此种方法获得的非线性方程普通不是最好的回归方程,只需用非线性最小二乘回归才干得到较为理想的结果【例4.1.4】用表4-1-4数据拟合Logistic曲线图4-1-8Z与与x 的的Logistic关系曲关系曲线 转换?xz53.527.5714303.316780040106.414.6520002.6827323931514.65.8493151.7663245722031.42.
6、1847130.7814846422545.61.1929820.1764564373060.40.6556290.4221599873575.20.3297871.10.3075784090.20.1086472.2196470414595.40.0482183.0320222755097.50.0256413.663516646表表4-1-4 越冬棉红铃虫的化蛹进度越冬棉红铃虫的化蛹进度计算直线回归方程的SAS程序为:Data new;Input x y;Cards;165 1.25 117180 1.85 160175 5.92 80120 9.42 259.98 28 11.01 40
7、;Run;利用利用reg的程序的程序*/proc reg; model y = x ;plot y*x /conf95; /* 指定给出回归曲线图指定给出回归曲线图 */run; 利用利用glm的程序:的程序:proc glm; model y =x; run;计算相关系数的SAS程序为:Data new;Input x y;Cards;70 1616.3 67 1610.9 55 1440.052 1440.7 51 1423.3 52 1471.351 1421.8 61 1547.1 64 1533.0;Proc corr;/用于计算相关系数的过程用于计算相关系数的过程Var x y;R
8、un;4-3 对直线回归分析的进一步讨论n回归直线的失拟问题分析回归直线的失拟问题分析n回归直线间的比较回归直线间的比较n 1两条回归直线的比较两条回归直线的比较n 2k 条回归直线的比较条回归直线的比较4-3-1 回回归归直直线线的失的失拟问题拟问题分析分析 表表4-1-1 4-1-1 吸附率吸附率y y关于浓度关于浓度x x的直线回归的有反复的数据的直线回归的有反复的数据149.016.616.733.316.6516.67249.316.816.833.616.8016.78349.516.816.933.716.8516.84449.816.917.033.916.9516.95550
9、.017.017.134.117.0517.02650.217.017.134.117.0517.08在K个点上均作了m次反复察看,那么真正的察看误差平方和失拟平方和失拟性检验:故回归直线是不失拟的。进展失拟检验后,再进展回归方程的显著性检验参见系统分组4-3-2 回回归归直直线间线间的比的比较较1. 两条回归直线的比较两条回归直线的比较 【例4-2-1】测定玉米地方种类“石榴子和“七叶白的叶片长宽乘积x,cm2和叶面积y,cm2的关系,试比较二者的异同经计算有七叶白:石榴子:1)平行性检验平行性检验 2) 共截距检验共截距检验 3) 在平行情况下的共截距检验在平行情况下的共截距检验(重合性检
10、验重合性检验 4在平行性被回绝下的共截距检验在平行性被回绝下的共截距检验 b0可解释为加权平均回归直线的截距(权重:ni/(n1+n2)2. k条回归直线的比较条回归直线的比较 第一步:重合性分析,假设它成立,那么把k个样本合并,计算出:重合:合并回归直线不重合:平行性分析第二步:平行性分析不全相等由k条回归直线变为k条平行回归直线所引起的剩余平方和变化为第三步:共截距分析不全相等k条回归直线的比较条回归直线的比较:实例实例 ,【例4-2-2】为研讨某4个作物种类从播种至出穗的总积温单位:d与天数x的关系,在同一管理条件下,各察看了7个点,(1)fi(2)SSxi(3)SSyi(4)SPi(5
11、)(4)/(2)bi(6)b0i7(1)-1fei8(3)-(4)2/(2)Qei(9)品种1673897939.48364.011.33701.2353147.426394.950109.74291.410.87865.3353474.836928.0151457.711809.012.73755.9651185.646830.0185460.412325.514.85773.8552426.710234.5种类内平行性242890.9484967.236789.912.73618.86759.80756.23890.672316775。0Qe平种类间3696.75486388.359225
12、.9总变异重合性273587.7975.646015.812.83750.1226381157。5Qe(重先检验重合性重合性被回绝,检验平行性重合性与平行性均被回绝,但是仔细斟酌,4条回归直线中的第4条与其他3条差别甚大,先把它剔除,仅比较前3条回归线的异同前3条回归直线的种类内平行性计算:检验阐明前3条回归直线是平行的,其方程为:进一步研讨第4条与第3条的关系由于二者的回归截距很相近:4-4 多元线性回归与相关年 月 日4-4 多元回归与相关提纲n多元回归方程的建立n多元回归方程的检验与偏回归系数的检验n通径分析与偏相关分析x1x2xjxpy1x11x12x1jx1py12x21x22x2j
13、x2py2.ixi1xi2xijxipyi.nxn1xn2xnjxnpyn和T.1T.2T.jT.pT.y表表4-4-1 多元回归数据多元回归数据4-4-1多元回归方程的建立:复相关系数复相关系数R (采用大写以与简单相关系数采用大写以与简单相关系数r相区别相区别 多元相关或称复相关多元相关或称复相关Multiple Correlation:是在是在m1个个变量中,变量中,m个变量的综合和一个变量的相关。个变量的综合和一个变量的相关。4-4-2多元线性回归的统计检验1.多元线性回归方程的显著性检验不完全为0计算复相关系数后,直接查计算复相关系数后,直接查Ra表表df=n-p-1, 变量个数变量
14、个数 p+12 偏回偏回归系数系数 bj 的的检验 或例4-4-1】支崇远对贵阳成年水牛39头实测了体重(y/kg)、胸围(x1/cm)、体斜长(x2/cm)和体高(x3/cm),资料列于表4-4-2中,试建立三元线性回归方程编号12345678体重443.5507.5462.5514.0471.5545540.5536胸围194200194211205204315207体长146150150153153153154142体高122.1123.5126.5134.5129.5125.5133.0128.5编号910111213141516体重468550.5492.0583442.5439.5
15、477.5450胸围201199200210194190203194体长153160149160140147148体高128.7127.5123.5.6124121129118编号1718192021222324体重466480422413.5471.0414.5410428.5胸围190190185183193188179193体长.5140130145133140140体高122124119.5114123.5119119116编号2526272829303132体重468517.5578620481702420491胸围190195.5207.5211203220197194体长1551
16、50160150165142149体高120.5129.5128.5132.5130142.2124122编号33343536373839体重515483505465460404496胸围198200197192185187194体长150153144154151152体高131.5128124119.5119.5123.0120.0表表4-4-2 39头成年水牛实测体重、体尺数据表头成年水牛实测体重、体尺数据表由表4-4-2数据计算一级统计数据:由一级统计数据计算二级统计数据:平方和lxx交叉积lxy计算并估计各偏回归系数得出回归方程:计算U,Q,U1,U2,U3并检验表表4-4-3 4-4
17、-3 三元线性回归方程的方差分析三元线性回归方程的方差分析变异来源df自在度SS平方和MS均方FFaX119410.4418(U1)9410.44189.154*X216553.4201(U2)6553.42016.3746*X311103.0016(U3)1103.00161回归3p108128.5546(U)36042.84535.06*剩余35n-p-135981.5546(Q)1028.0444总变异38n-1144110.0897(Lyy)剔除x3后:其中200-7693/39=2.7436150-5741.5/39=2.7821123.5-4885.1/39=-1.7590(2.7
18、436,2.7821,1.7590)例如:4-4-3 用用线线性回性回归处归处理多理多项项式非式非线线性回性回归问题归问题 如:如:令:令:表表4-4-4 4-4-4 废品率废品率y y与化学成分与化学成分x x的记录的记录y (%)(0.01%)y (%)(0.01%)1.303411560.444016001.003612960.564116810.733790.304217640.903814440.424318490.813915210.354318490.703915210.404520250.603915210.414722090.504016000.60482304图4-4-1废
19、品率y与化学成分x的散点图及回归曲线图正那么方程组为,极值:当某化学成分含量在0.44%左右时,平均废品率最小,约为0.39%4-4-4 通径分析与偏相关分析通径分析与偏相关分析 偏相关Partial Correlation:是在其他M2个变量皆固定时,指定的两个变量间的相关。偏回归系数bi不能反映自变量的相对重要性,由于:bi 带有详细的单位,单位不同无法比较;即使单位一样,Xi的变异程度不同,也不能比较。但可以采用规范化的偏回归系数,也称通径系数Path coefficient:即对分子和分母分别除以即对分子和分母分别除以Y和和Xi的规范差,就可以消除单位和变异度的影响,的规范差,就可以消
20、除单位和变异度的影响,其统计学意义是假设添加一个规范差单位,其统计学意义是假设添加一个规范差单位,Y将添加或减少将添加或减少Pi个规范差单位。个规范差单位。通径分析本质上是规范化的多元线性回归分析 图图4-5-1 y关于各关于各x的通径图的通径图 决策系数 【例4-5-2】关于小麦产量y与其构成要素x1百粒重、x2(每株穗数、x3(每穗粒数x4(每穗粒重的通径分析实验为随机区组设计,参试种类10个,反复3次误差自在度为18,遗传型的自在度为9,遗传相关系数的显著性临界值为x1X2X3X4yX110.2740.7060.5250.050X210.3000.4740.477X30.6650.256
21、X410.440通径直接作用间接作用X 对y的总作用决策系数x1对y0.3210.0867.10.8330.4770.050x2对y0.3130.08820.00.3540.4300.477x3对y1.1800.22779.00.0940.06040.256x4对y0.9080.1690.1482.60.7850.440对y0.3650.36513.3偏相关分析偏相关分析 观察值x126.731.330.433.934.633.830.427.0x273.459.065.958.264.664.662.171.4y10089591051102210971103992945观察值和平均X133.
22、330.431.533.134.0410.431.5692x264.564.161.156.059.8824.763.4385y1074102910049951045133241024.9231【例4-5-3】 测定13块中籼南京11号高产田的每亩穗数(x1),每穗实粒数(x2)和每亩稻谷产量(y). 结果列于表4-5-4,试求偏相关系数 简单相关系数偏相关系数4-5 协方差分析年 月 日回想实验条件的控制n为了提高实验的准确度和准确度,必需使一切实验单元或区组内的实验单元的实验条件一致,这叫实验控制 n假设实验目的为y,而影响实验单元不一致的要素X可以量测,那么X叫做方差分析中的协变量 ,可
23、进展统计控制例4-3-1】为比较三种肥料A1,A2,A3对苹果的增产效果,选了24株同龄苹果树,随机分成三组,并在第一年记下各树的产量x,kg,第二年每组随机施用一种肥料,并记录各树的产量y,kg,结果见表4-3-1,试进展方差分析表表4-3-1 4-3-1 施用三种肥料的苹果产量施用三种肥料的苹果产量kg/kg/株株肥料察看值(xijj,yij)和平均A1x1j475853464956544440750.875y1j546663515666615046758.375A2x2j525364585961636647659.500y2j545367626263646949461.750A3x3j4
24、44846505957585341551.875y3j525854617064696649461.750129854.083145560.6254-5-1 单单要素完全随机要素完全随机设计实验设计实验的的协协方差分析方差分析表表4-3-2 4-3-2 不思索协变量不思索协变量X X的方差分析的方差分析变异来源DFSSMSF肥料间260.75030.375误差21830.87539.565总变异23891.625变异来源DFSSMSF肥料间2356.0833178.04176.34(Pr=0.0070)误差21589.7528.0833总变异23945.8333表表 苹果树的根底消费力苹果树的根
25、底消费力x x的方差分析的方差分析表表4-3-3 三种肥料供试树中三种肥料供试树中y关于关于x的直线回归分析的直线回归分析变异来源(1)SSxi(2)SSyi(3)SPi(4)=(3)/(1)bi(5)(6)(8)A1180.875293.875226.3751.25165.2979610.5543A2178.000223.500195.0001.09553.432669.8764A3230.875313.500257.7501.11643.8365625.746646.1773肥料内0.2100平行589.750830.875675.1251.15156.76712048.8305性2.0肥
26、料间356.08360.75086.6252总变异945.833891.625765.7500.809616.839222271.6709重合性三条回归直线的重合性检验:三条回归直线的平行性检验:阐明树的根底消费力x每添加1kg,那么y平均添加1.1515kg,其规范差为0.0643kg假设把根底消费力影响校正到同一平均根底消费力程度才是Ai的真正察看值回归校正值表表4-3-4 4-3-4 的校正值的校正值 肥料A162.156 61.490 64.247 60.308 61.853 63.793 61.09661.611496.554A256.399 54.247 55.581 57.490
27、 56.338 55.035 53.732 55.278444.100A363.61165.005 63.308 65.702 64.338 60.641 64.490 67.247514.3421455.000三种肥料均值间的比较变成三条平行的回归直线截距间的比较,有协变量的单要素完全随机等反复实验方差分析有以下几点:具有协变量的方差分析过程是a条回归直线比较的过程,它既等价于校正平均数间的显著性检验,又等价于三条平行回归直线截距间的显著性检验,因此这个方差分析过程又称为离回归分析模型充分阐明了这里的协方差分析就是关于X的直线回归分析表表4-3-5 单要素完全随机实验的协方差分析离回归分析单
28、要素完全随机实验的协方差分析离回归分析变异来源df回归计算离回归分析SSxSSySPbiF(1)处置+误差(总回归)23945.833891.625765.7500.809622271.6709(2)处置间2356.08360.75086.625(3)误差(处置内)21589.750830.875675.1251.15152048.83052.4415(4)重合性,即校正平均数间或回归截距间2222.8404111.420245.64*4-5-2 单单要素随机区要素随机区组实验组实验的的协协方方差分析差分析表表4-3-6 “南南优3号在不同施肥条件下的号在不同施肥条件下的颖花数花数x和和结实率
29、率y区组处置III处置总和处置平均校正平均数xyxy14.59584.32618.911194.45559.564.7624.09654.11628.201274.10063.566.0333.94644.11648.051284.02564.065.9543.90663.57697.473.73567.567.2253.45713.79677.243.62069.067.8463.48713.38726.861433.43071.568.8773.39713.03746.421453.21072.568.1883.14723.24696.381413.19070.566.0293.34693
30、.04696.383.19069.064.53104.12614.76548.881154.44057.562.64114.12634.75568.871194.43559.564.60123.84673.60627.441293.72064.564.10133.96644.50608.461244.23062.065.53143.03753.01716.041463.02073.067.2252.3993753.21910105.6018473.74266.933.80165.003.771465.964366.7065.23表表4-3-7 4-3-7 例例2 2的平方和与偏向积和的平方和与
31、偏向积和变异来源df区组间10.024026.030.79处理间136.8732694.4666.37误差130.837282.476.44总变异277.7344802.9673.60表表4-3-8 4-3-8 例例2 2中中X X与与y y的方差分析的方差分析变异来源df颖花数X结实率ySSMSFSSMSF区组间10.02400.0240126.0326.034.10处置间136.87320.52888.20*694.4653.428.43*误差130.83720.064582.476.34表表4-3-9 例例2中有关处置的协方差分析离回归分析中有关处置的协方差分析离回归分析 变异来源df回
32、归计算离回归分析SSxSSySPbiF(1)处置+误差(总回归)267.7104776.9372.819.4432589.3786(2)处置间136.8732694.4666.37(3)误差(处置内)130.837282.476.447.6921232.93152.744(4)重合性,即校正平均数间或回归截距间1356.44714.342校正结实率没有显著性差别,表4-3-8的结论是错的表表4-3-9 例例2中有关处置的协方差分析离回归分析中有关处置的协方差分析离回归分析 变异来源df回归计算离回归分析SSxSSySPbiF(1)区组+误差(总回归)140.8612108.50-7.23-8.39531347.8023(2)区组间10.024026.03-0.79(3)误差(区组内)130.837282.47-6.44-7.69231232.93152.7443(4)重合性,即校正平均数间或回归截距间114.870814.8708