《通径分析及其简单实现》由会员分享,可在线阅读,更多相关《通径分析及其简单实现(5页珍藏版)》请在金锄头文库上搜索。
1、通径分析及其简单实现搜集变量资料是农业科学研究经常采用的方法,如:搜集作物的产量与其构成因素穗数、粒数、粒 重等资料,研究这些变量的目的想知道这些变量之间的关系,许多人往往采用简单回归和相关或多元回 归分析。但是,多元回归分析虽然在一定程度上能反映各个变量的真实关系,然而多元回归在分析偏回 归系数时带有单位,使自变量对依变量的效应不能直接进行比较,从而不能比较各自变量的相对重要性 要解决这个问题,进行通径分析(即为通径系数的分析)是一个比较好的选择。然而令人感到棘手的是, 面对繁杂的计算公式往往感到无从下手,下面从通径系数的概念入手,引出通径系数的求算方法,并利 用 SAS 完成通径分析全过程
2、。1. 通径和通径系数的概念1.1 通径设依变量y和两个自变量X、x2之间有如下关系:图 1 通径图在图1中“一”中表示变量间存在因果关系,箭头方向是原因到结果,称为通径。“ ”表示 变量间存在相关关系,称为相关线飞厂丫亡一y为直接通径,由于X,x2存在相关关系,又产生了两条 间接通径,一条是X是通过x2而作用于Y的通径,记作Xfx2fY,条是x2是通过X而作用于y的通 径,记作x2fXfy。这种情况可以推广到i个自变量,并记直接通径为ify (i=l,2,3m),间接通 径为ifjfy(i=l,2,3.m, iMj ),但也可统一记作ijfy,当i=j时为直接通径,iMj时为间接通 径。1.
3、2 通径系数表示各条通径对于改变依变量的相对重要性的统计数就叫通径系数 记作P或简写为P。通ijYijY径系数的定义可以由偏回归系数导出。例如水稻单株产量y (kg)与x1 (穗数)、x2 (单穗粒数)、x3 (粒重)间存在着线性回归关系。其 回归关系为:ytbo+b+bzXz+bsXs,此式中b0为常数,、b2、b3分别表示y对x,y对x2, y对x3的偏 回归系数,偏回归系数是带有单位的,如b2的单位分别为:kg/穗,kg/粒。所以不便于偏回归系数 进行直接比较。所以常常将其标准化之后以便于消去单位,进行直接比较。下面进行回归方程的标准化:y=b0+b 1x+bx2+b1x3 (1)由(1
4、)对y求平均数得: y=b0+b1x1+b1x2+b1x3 (2)用(1)式减(2)得:y- y= b1(x1- x1)+ b2(x2- x2)+ b3(x3- x3)(3)由(3)式除Gy得:(y- y)/ Gy = b1(x1- X)/Gy + b2(x2- x2) /Gy+ b3(x3- x3)/Gy(4)将(4)式做相应得恒等变换:(y-y)/ b1x1/Gy)(x1- x1)/Gx1 + b2(x2/Oy)(x2- x2)/Gx2 + b3(x3/Oy)(x3-小皿 其中 Gy,Gx1,gx2,gx3分别为 y,x1 ,x2,x3的标准差,并令:Ay=(y-y)/oy,Ax1= (x
5、1-x1)/ox1,Ax2 = (x2- x2)/Gx2,Ax3 = (x3- x3)/Gx3,Ay、Ax. Ax2、Ax3 即为变量 y、x. x2、x3 的标准化,将(5)式改写成下式:Ay = b1(x1/y)- Axi+ b2(x2/y) - AX2 + b3(x3/y) - AX3则b1-(Gx1/Gy), b2-(Gx2/Gy), b3-(Gx3/Gy)为变量标准化后的偏回归系数,它是不带单位的相对数,这样 就可以用以估计AX Ax2 Ax3对Ay直接影响效应的大小,并比较其重要性。因此通径系数的定义:若相关变量y与X、x2xk间存在着直线回归关系,其回归方程为:y=b0+bx1+
6、bx2+bkxk,则变量标准化后的各偏回归系数bf(Gx/Gy),b2-(Gx2/Gy), ,bk-(Gxk/Gy)分别为自变量x x2Xk对依变 量的直接通径系数,即:Py= b-(ox/oy)/p2y= b2-(ox2/oy),Pky= bk-(oxk/oy),简言之,通径系数是变量 标准化的各偏回归系数,用以表示相关变量因果关系的一个统计量。2. 通径系数的类型通径系数包括直接通径系数和间接通径系数两种类型。2.1 直接通径系数对于回归方程y= b0+bx+b2x2+b3x3+_ +bkxk,则有x对y的直接通径系数为Py=b1* 5 x/ 6 y,、 对y的直接通径系数为P2 =b1*
7、 6 x2/ 6y,x对y的接通径系数为Pk =b1* 6 x / 6y,其中6 x1、6 x2、6 y 2y2kkyk分别为x、x、x的方差。12k2.2 间接通径系数由许多自变量影响着依变量,但是它们的重要性是不同的,其中一个自变量可能通过其它自变量 对依变量起作用,这时可用间接通径系数来表示它。如通过X.对y起作用,间接通径系数为:rijP.y, 乜表示xi和x.之间的相关系数,Pjy表示x.对y的直接通径系数。z2.3 直接、间接通径系数和相关系数的关系依据回归系数和通径系数的定义以及最小二乘法原理可得到:r. = Piy + ijPjyGHj, i、j=1,2,3.K)X1X2X3Y
8、X1r11P1yr12P2yr13P3yr1yX2r21P1yr22P2yr23P3yr2yX3r31P1yr32P2yr33P3yr3y即:一个自变量对 径系数和间接通 于这个自变量与 关系数。例如:对因变量的直接通 径系数的总和等 因变量之间的相 多元回归方程y=b0+b1X1+b2X2+b3X3,有 r1y=P1y+r12P2y+r13P3y, r2y=P2y+r21P1y+r23P3y , r3y=P3y+r3P1y+r32P2y 并可以得到表】: 表1 直接通径系数和间接通径系数表注:斜体部分为直接通径系数,其它为间接通径系数。3. 通径系数的性质通径系数有以下几个性质:1) 一个具
9、有k个自变量的反应系统,共有m个直接通径系数和m(m-1) 个间接通径系数。2)进行通径分析的基础是Y和X.都具有线性关系,而且Y可以被线性分解。3)通 径系数是具有向量的。如:X.和Y不可以互换,即:PiyMPyi。它的取值在实数范围内可以大于1或小 于-1。4)通径系数是变量标准化的偏回归系数,它能够表示变量间的因果关系,故具有回归系数性质 5)通径系数不带具体单位,因而又具有相关系数的性质,表示原因与结果的相关关系。所以通径系数 是介于回归系数和相关系数之间的一种统计量。6)通径系数可以表示某个自变量的相对重要性。4. 应用SAS进行通径分析的具体过程SAS是美国使用的最为广泛的三大著名
10、统计分析软件(SAS, SPSS和SYSTAT)之一,是目前国际 上最为流行的一种大型的统计分析系统,被誉为统计分析的标准软件。对于通径系数,如采用其它常规 的统计方法,往往颇费周折。如采用 SAS 软件,往往比较简单,较快的完成分析过程。下面通过一个 实例,介绍应用SAS进行通径分析的基本作法。例:测定”丰产3号”小麦的每株穗数(X),每穗结实小穗数(X2,主茎),百粒重(X3,克), 和每株籽粒产量(Y,克)的关系,得结果于表1,试求Y依Xi的最优线性回归方程,并作通径分析.表1丰产3号小麦的每株穗数(X )、每穗结实小穗数(X)、12百粒重(X )、株高(X )和每株籽粒产量(Y)的关系
11、34X1X2X3y10233.615.79203.614.510223.717.513213.722.510223.615.510233.516.98233.38.610243.417.010203.413.710213.413.410233.920.38213.510.26233.27.48213.711.69223.612.34.1 直接通径系数的求法在sas的程序窗口中输入以下程序:DM log;clear;output;clear;ods rtf file=D:sas2003tongjing.rtf;PROC IMPORT OUT= MYSAS.tongjingDATAFILED:sa
12、s2003tongjing.xlsDBMS=EXCEL2000 REPLACE;SHEETSheet1$;GETNAMES=YES;RUN;proc reg corr;model y=x1-x3/selection=stepwise sls=.05 sle=.05 STB;run;quit;ods rtf close;此段程序中,new表示临时数据集;proc reg corr语句表示调用reg和corr程序,进行回归分析和 相关分析;model语句表示选用逐步回归法进行分析,sls=和sle=定义选入和剔除自变量的限制水平(0.05), STB给出直接通径系数。运行可以得到以下部分结果:SA
13、S 系统The REG Procedure11:02 Tuesday, June 4, 2002 1VariableLabelX1X2X3yX1X11.0000-0.13570.50070.8973X2X2-0.13571.0000-0.14890.0462X3X30.5007-0.14891.00000.6890yy0.89730.04620.68901.0000CorrelationSAS 系统 11:02 Tuesday, June 4, 2002 2 The REG ProcedureModel: MODEL1Dependent Variable: y yStepwise Select
14、ion: Step 1Variable X1 Entered: R-Square = 0.8052 and C(p) = 15.9479Analysis of VarianceSum ofMeanSourceDFSquaresSquareF ValuePr FModel1193.15219193.1521953.73 FIntercept-8.064293.1135424.118096.710.0224X12.397620.32711193.1521953.73.0001Bounds on condition number: 1, 1Stepwise Selection: Step 2Variable X3 Entered: R-Square = 0.8818 and C(p) = 7.3443Analysis of V