sas-多变量统计分析－金锄头文库

资源描述

《sas-多变量统计分析》由会员分享，可在线阅读，更多相关《sas-多变量统计分析（190页珍藏版）》请在金锄头文库上搜索。

1、生态学统计分析方法与实践,郝彦宾,中国科学院研究生院,第八章多变量统计分析,多变量统计分析（multivariate statistical analysis）统计资料中有多个变量（或称因素、指标）同时存在时的统计分析，是统计学的重要分支，是单变量统计的发展。 -多元回归分析逐步回归、岭回归、多项式回归和分类数据 -主成分分析 -因子分析 -典型相关分析 -聚类分析 -判别分析,8.1多元回归分析,多元回归分析（Multiple Regression Analysis）研究一个依变量对两个或多个自变量(且自变量均为一次项）依存关系的统计分析方法。解决的问题：确定各个自变量对于某一依变

2、量的综合效应在大量自变量中，选择仅对依变量有显著效应的自变量，建立最优的多元回归方程评定各个自变量对于依变量的相对重要性确定各个自变量对某一依变量的各自效应（偏回归系数）,8.1.1一般线性回归分析过程REG 过程格式 PROC REG 选择项;model 依变量表=自变量表/选择项；by 变量表；var 变量表；Output out=输出数据集关键字=新变量表； PROC REG 选择项说明：Data=数据集 Outsscp=数据集储存变量的平方和与叉积矩阵指定输出的统计信息： Simple 输出每个变量的基本统计量 Corr 输出model语句或var语句中所列变量的相关矩阵

3、Usscp 输出过程所用变量的平方和与叉积矩阵 All 输出所有可能的统计信息。,Model语句: Noint 指定拟合回归模型中不包括截距项（常数） Stb 输出标准偏回归系数 Collin 进行自变量之间的共线性分析 Predicted 或P 输出实际观察值、预测值及其残差等 Residual 或R 进行残差分析 DW 检验回归方程中是否存在自相关 CLM 输出依变量平均数的95%的置信区间上下限 CLI 输出依变量预测值95%置信区间上下限 OUTPUT语句P、R、U95、L95、student （学生氏残差）,例题：测定某生态系统土壤含氮量（x1，%）、含磷量（x2，%）和其生产力的关

4、系（y，g/m2），得结果如下，试做二元回归方程。,结果,回归方程的显著水平达到了0.0001，说明各个自变量的综合对依变量y有真实的回归关系，且自变量x1和x2对依变量y的偏回归显著水平分别达到0.0001和0.0003，说明x1和x2对依变量y有真实的回归关系。回归方程：y=-351.74+24.80x1+9.36x2 由标准偏回归系数的分析结果表明，土壤含N量每增加一个标准差单位，生产力平均增加1.3166个标准差单位；土壤含P每增加一个标准差单位，生产力平均增加0.9580个标准差单位。所以，N的增加比P的增加效应要大一些。,除非自变量全部取值为0，或者截距项的估计值与0相差很小（

5、在一元回归中反映为拟合直线可能通过原点），在线性回归分析中我们不用考虑对截距项（常数项）的显著性检验是否能通过。,例题：某生态系统的生产力大小受到光照时数、平均年温度、降雨量和降雨时数的影响，根据多年的观测的结果，试拟合预测模型。,共线性是指某一指标量值可以表示成其它几个指标量值的线性组合. 评估指标间存在共线性的影响是导致评估结果推断上的不稳定的原因并造成较大的推断误差 .,回归方程达到极显著水平,suntime和pday的偏回归系数不显著，可从方程中剔除,比较条件指数最大值所在行的系数，系数较大的那些个自变量具有加大的共线性,可能出现共线性的情况： 1.偏回归系数的大小和方向明显与常识

6、不同 2.从专业角度看对应变量有影响的因素，却不能入选 3.去掉一两个变量，方程的回归系数值发生剧烈的变化 4.整个Model的检验有统计学意义，而model包含的所有自变量均无统计学意义,在回归分析中，当所处理的数据与时间序列有关时，其预测误差往往是前后关联的。检验这种相关程度的大小，可选用DUEBIN-WATSON统计量。 DW=2：误差间完全没有相关程度的大小。 DW=0 or DW=4 ：误差间有正或负的线性相关。,Adjrsq:决定系数准则。 Cp准则：从预测观点出发，基于残差平方和的一个准则。按Cp准则应选择除全模型外，Cp值与P（P个自变量）最接近的模型。 VIF：方差膨胀因子。

7、如果VIF10多重共线性就会严重影响参数估计值。VIF=1，表示自变量xi与其他变量间不存在线性相关。 AIC信息量准则：应选择使AIC最小的模型。AIC=nln(SSEp/n)+2p,多重共线性,对于模型Yi=0+1X1i+2X2i+kXki+i i=1,2,n (2.8.1) 其基本假设之一是解释变量X1,X2 , , Xk是互相独立的。,如果某两个或多个解释变量之间出现了相关性，则称为多重共线性。,back,完全共线性下参数估计量不存在,如果存在完全共线性，则(XX) -1不存在，无法得到参数的估计量。,例：研究耗氧量模型。这是有关身体适应性测试的例子，肺活量与一些简单的锻炼测试数据的

8、拟合，目的是为了在锻炼测试的基础上而不是在昂贵笨重的氧气消耗测试的基础上得到方程来预测适应性。这是一个对31位成年人心肺功能的调查结果，它包含的变量和测试的各项数据见表：,通过在SAS/Insight软件中绘制散点图矩阵，操作步骤为：在SAS命令框中键入insight后按Enter，在SAS/Insight：Open对话单中，选择work.fitness数据集后单击Open按钮，将在屏幕的窗口中显示当前打开的数据集work.fitness内容，再选择菜单上的Analyze/Scatter Plot（Y X）命令，在出现的Scatter Plot（Y X）对话单中，把fitness数据集中的7个

9、变量依上面的次序全部加入Y轴和X轴的列表框中，最后单击OK。,Age的变化范围,ss1是按model语句中自变量的排列顺序依次计算每个自变量的平方和，也称为第一类平方和或称顺序平方和，ss2是把model语句中每个自变量排到变量列表的最后，所计算的一类平方和，称为第二类平方和。通过分析每个自变量的这两类平方和，能知道回归模型总的平方和的构成和各个自变量所贡献的平方和，进而能知道哪些自变量是最重要的回归变量，哪些回归变量可能是无关紧要的，配合参数估计的t检验，最终为缩减回归变量提供依据，达到简化模型的目的。,Type I SS：截距INTERCEP的Type I SS为 ny2，称为修正均值=3

10、147.375812=69578。,Type I SS（maxpulse）=RSS（model oxygen=age maxpulse ）RSS（model oxygen=age）；Type II SS： Type II SS（age）=RSS（model oxygen=maxpulse rstpulse runpulse runtime weight age ）RSS（model oxygen= maxpulse rstpulse runpulse runtime weight） 721.97=78.98+142.35+82.44+98.36+310.36+9.444,RSS:离差平方和,8

11、.1.2 逐步回归分析,作用自动从大量可选择的变量中，选择对建立回归方程重要的变量。选择变量的方法1.前进法（FORWARD）事先定一个选入的标准。开始时，方程中只含常数项，按自变量对y的贡献大小由大到小依次选入方程。每选入一个自变量，则要重新计算未被剔除的各变量对y的贡献大小，直到方程中所有变量均不符合剔除标准，没有变量可以剔除为止。自变量一旦被剔除，则不能再进入模型。,2. 后退法（BACKWARD）从模型含有所有变量开始，每次从模型中剔除一个对依变量贡献最小的变量。一个变量一旦被剔除，就不能在进入模型。 3.逐步法（STEPWISE）(最常用）每次引入模型一个最显著的变量，然后考虑从模

12、型中剔除一个最不显著的变量，直到没有变量可以引入也没有变量可以剔除为止。,选择自变量要靠有关专业知识!,4.请求R2最大准则法（Rsquare）按给定样本的R2大小准则选择最优的自变量子集，但不能保证对总体或其他样本而言是最优的； 5. Mallows的Cp统计量（Cp）是一个误差平方总和的量度。,P是模型中包括截距项的参数个数，MSE是满模型时均方误差，ESSp是具有P个自变量（包括截距项）回归模型的误差平方和。作Cp与P的曲线图，Matlows建议取Cp 首次接近P的地方的模型。,6. slentry= 值指出向前选择和逐步技术中选择变量进入模型的显著水平。如果省略，那么stepwis

13、e过程便对向前选择技术置slentry= 0.5，对逐步技术置slentry0.15。 7. slstay= 值指出向后淘汰与逐步技术中变量留在模型里的显著水平。如果省略，则逐步技术用0.15，向后淘汰技术用0.10。,逐步回归的SAS实现,REG过程的语法格式和一般多元回归分析的语法相同，只是在MODEL语句的选择项要添加： SELECTIONFORWARD（） SELECTIONBACKWARD（B） SELECTIONSTEPWISE（S）,逐步回归的基本思想:将变量一个一个引入，引入变量的条件是偏回归平方和经检验是显著的，同时每引入一个新变量后，对已选入的变量要进行逐个检验，将不显著变

14、量剔除，这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。,stepwise并不能保证给你“最好”的模型，甚至具有最大R2的模型也不一定是“最好”的，并且靠这些均值演变得来的模型没有一个可以保证它精确地描述了真实的生物学过程。,.,Mallows的Cp统计量,是一个误差平方总和的量度,P是模型中包括截距项的参数个数，MSE是满模型时均方误差，ESSp是具有P个自变量（包括截距项）回归模型的误差平方和.,定性数据的多元回归,多元回归分析中，要求因变量为服从正态分布的定量变量，而自变量既可以是定量变量，也可以是定性变量。通常定量变量的观察结果可以直接用于

15、回归分析而定性变量需进行合理的赋值方能用于回归分析。,问题：已知影响氮沉降的因素有降雨、空气温度、空气湿度、风速和季节，试分析氮沉降和它们的关系。,1.定性变量的种类：分为分类变量和有序变量两种。前者又称名义变量或计数资料，后者又称等级资料。 2. 定性变量的原始记录形式：定性变量的取值称作水平。 3. 回归分析中有序变量的赋值按照各水平间合理的或易解释的距离分别赋以一定的数值这些数值可以距离不相等。 4. 回归分析中分类变量的赋值分类变量的取值是无序的，分类变量的取值1，2,3,4. 只是为了数据记录的便利而设定的代码，不能由其平均数作为该分类变量的平均水平，对资料进行描述也不能直接参与

16、回归分析等计算。对于二分类变量，常用0和1来编码，但赋值可以任意取值。,5.哑变量（虚拟变量）的引入如果水平总数为n，应引入n-1个哑变量。例题中季节有4个水平，应引入4-1=3个哑变量。可用春天为对照分别引入3个哑变量。春天（X51=0,X52=0,X53=0);夏天（ X51=1,X52=0,X53=0); 秋天（ X51=0,X52=1,X53=0);冬天（X51=0,X52=0,X53=1);,Y=1+1D+1X+,结论：氮沉降与降雨量和风速有关。,No=0.04+0.00006X1-0.01X4-0.08X53,结论：氮沉降与降雨量(X1)和风速(X4)有关, 在其他条件不变的情况下，降雨量每增加1mm，氮沉降增加0.00006个单位，风速每增加1个单位，氮沉降减少0.01个单位。和春天相比，冬季的氮沉降比较低。,8.1.3 多项式回归,

展开阅读全文

sas-多变量统计分析

最新文档