excel一元及多元线性回归实例

资源描述

《excel一元及多元线性回归实例》由会员分享，可在线阅读，更多相关《excel一元及多元线性回归实例（6页珍藏版）》请在金锄头文库上搜索。

1、野外实习资料的数理统计分析一元线性回归分析一元回归处理的是两个变量之间的关系，即两个变量X和Y之间如果存在一定的关系，则通过观测所得数据，找出两者之间的关系式。如果两个变量的关系大致是线性的，那就是一元线性回归问题。对两个现象X和Y进行观察或实验，彳#到两组数值：X1, X2,，Xn和Y1, Y2,，Yn,假如要找出一个函数 Y=f(X),使它在X=X1,X2,Xn时的数值f(X1),f(X2),f(Xn)与观察值Y1, Y2,，Yn趋于接近。在一个平面直角坐标 XOY中找出(X1, Y1) , (X2, Y2),，(Xn, Yn)各点，将其各点分布状况进行察看，即可以清楚地看出其

2、各点分布状况接近一条直线。对于这种线性关系，可以用数学公式表示：Y = a + bX这条直线所表示的关系，叫做变量丫对X的回归直线，也叫丫对X的回归方程。其中a为常数，b为Y对于X的回归系数。对于任何具有线性关系的两组变量丫与X,只要求解出a与b的值，即可以写出回归方程。计算a与b值的公式为：a=Y-bX式中：x为变量x的均值，Xi为第i个自变量的样本值，y为因变量的均值，Yi为第i个因变量Y的样本值。n为样本数。当前一般计算机的 Microsoft Excel中都有现成的回归程序，只要将所获得的数据录入就可自动得到回归方程。得到的回归方程是否有意义，其相关的程度有多大，可以根据相关

3、系数的大小来决定。通常用r来表示两个变量 X和Y之间的直线相关程度，r为X和Y的相关系数。r值的绝对值越大，两个变量之间的相关程度就越高。当r为正值时，叫做正相关，r为负值时叫做负相关。r的计算公式如下：式中各符号的意义同上。在求得了回归方程与两个变量之间的相关系数后，可以利用F检验法、t检验法或r检验法来检验两个变量是否显着相关。具体的检验方法在后面介绍。2.多元线性回归分析一元回归研究的是一个自变量和一个因变量的各种关系。但是客观事物的变化往往受到多种因素的影响，即使其中有一个因素起着主导作用，但其它因素的作用也是不可忽视的。因此，我们还需要研究多种变量的关系，这种多个变量之间的关

4、系就叫做多元回归问题。例如，水稻的产量不仅与生长期内的雨量有关，而且与温度也有关系。所以寻求水稻的产量不仅与生长期内的雨量之间的相互关系，就是多元回归问题。如果假设自变量为 X1, X2,，Xm因变量为Y,而且因变量与自变量之间是线性的关系，则因变量Y与自变量为X1, X2,，Xm的多元线性回归方程为：Y = a+b1X1+b2X2+bmXm式中：a, bl, b2, bm为常数。因此，只要能够求出 a, bl, b2,，bm这些常数，就可以得到因变量 Y与自变量为X1, X2,，XmN间的多元回归方程。具体的算法比较简单，但很烦琐。这里不再叙述。求解多元回归的计算机程序很多，只要将自

5、变量的数据以及与其相对应的因变量的数据输入计算机程序中，立刻就可以求出 a, bl, b2,，bm各常数的值，从而可以获得因变量Y与自变量为X1, X2,，Xm的多元线性回归方程。例如，设已知因变量 Y的自变量X1, X2, X3,共得18组数据，并已知 Y对Xi存在着线性关系，求其回归方程。样品X1X2X3Y1531586422316360319377143415761524595466512377744468183111793929173931058112511137111761246114961350134771444739315561689516361435417582021681

6、85112499通过求解，得到 a=所以，回归方程为Y=+ X1 X2+ X3通常可采用单相关系数、偏相关系数和复相关系数来说明这三个自变量与因变量之间是否有明显的线性关系以及它们之间相关的程度如何。单相关系数是指在不考虑其他因素影响的条件下，所求两个变量之间的相关系数。用 rX1X2、rYX1和rYX2分别表示X1和X2、丫和X1以及Y与X2之间的单相关系数。偏相关系数是指在这三个变量中，将其中一个变量保持常数时，其他两个变量之间的相关系数。用 rYX1X2 和 rYX2X1 分别表示 X2 为常数时， Y 与 X1的偏相关系数和 X1 为常数时， Y 与 X2 的偏相关系数。偏相关系数

7、可以用单相关系数求得。当这三个变量中，同时考虑两个变量对另一个变量相关系数时，叫做复相关系数。用 r（ X1X2）Y表示X1和X2、两个自变量对于 Y的复相关系数。3. 方差分析方差分析法是分析多组平均数之间差异显着性时常用的一种统计方法。方差（或均方）是一个表示变异程度的量，它是离均差的平方和与自由度之商。在一项实验或调查中往往存在着许多造成生物形状变异的因素，这些因素有比较重要的，也有较次要的。分析时主要是把平方和与自由度按不同的变异起因分解为若干部分，从而构成来自不同起因的方差。利用它来检验各组平均数之间差异的显着性。在正态总体及方差相同的基本假定下，我们

8、将利用方差比给出 F 分布的检验统计量。因此这种方法称为方差分析法。方差分析是分析和处理试验或观测数据的主要方法之一。它首先被应用于农业试验，目前它在农业、工业、生物、医学等各部门有着广泛的应用。方差分析的方法往往与试验设计的方式紧密地联系在一起。对于从不同试验设计中得出观测资料，进行方差分析时将有不同的计算方法，类型繁多，但其基本原理却大同小异。在这里将结合一个较简单的例子介绍方差分析的数学模型和基本方法，以便于读者对方差分析的方法有一个大致的了解。在实验设计的基础上，分组试验，如分为 a组，每组作b个水平的试验，共得到 axb个数据。然后，算出组平均值和总平均值，组内和

9、组间的离差平方和，组内和组间方差，作F检验。F=组间方差/组内方差假设HO: 1 = /=b ,表示各水平的均值相等。当 F WF”时，HO:真;当F Fa时，HO:假。试验中必不可少地会产生误差。误差有两种：条件误差和试验误差。前者是由试验条件不同而引起的系统性误差，后者是在相同试验条件下引起的随机误差。例如，把四种不同的饲料分别喂给4组小鸡，每组5只，它们的增重情况如下：组别增重（Xij ）1 522 9633 924 3试问四组小鸡在平均增重量方面有没有明显的差别通过计算，得到组内和组间方差分别为和，因此，F=对于给定的显着性水平”，将有临界值Fa 一，当”=时，（3,16）=，其中3与

10、16是自由度。所以 f=（3,16）故，否定各种饲料效果一致的假设，可以认为四种饲料的效果有极明显的差别。目前现成的计算机方差分析计算程序很多，如SPASS SAS软件等，将数据输入后，都可以直接计算，并按要求输出结果。上述例子是单因素的方差分析，比较简单。对于多因素的方差分析，由于比较复杂，这里就不再叙述了。4. T检验生物学中所遇到的绝大多数问题，总体标准差b都是未知的。在b未知时，平均数的显着性检验有两种解决方法。其一是根据以往的经验或从类似的工作中估计出一个b值，用这个b做科检验。使用估计的 b做检验并不是很可靠的。因此在实际工作中，一般不用这种方法而广泛使用t检验。对于一个正态分布

11、总体，若b未知则了服从n-1自由度的t分布，因此，在 b未知时可以用t检验做平均数的显着性检验。t检验的零假设H0为：科二科0备择假设有以下三种情况：(1) HA:科0,若已知科不可能小于科0; (2) HA:科0和科t a ; ( 2) t t a/2 ,或表示为 t t a (双侧)。其中a为给定的显着性水平。t检验的统计量为：t = (0) / (s/n1/2 )例如，已知玉米单交种群单 105的平均穗重科0=300克，喷药后，随机抽取9个果穗，其穗重为分别：308、305、311、298、315、300、321、294、320克。问喷药后与喷药前的果穗重差异是否显着根据上

12、面介绍的基本程序：已知玉米穗重是服从正态分布的随机变量，(T 未知。(2)假设：H0 : w=p0=300HA 科 w 科 0=300由于问题要求检验的是“果穗重差异是否显着”，并没有明确穗重一定增加或一定减少，所以备择假设为HA(3)显着性水平：根据实验的要求(差异是否“显着”)规定 (4)统计量的值：由于 (T未知需使用t检验。t =(工 f 0) / (s/n1/2 )t =(308-3000 ) / (91/2 )=11(5)建立的才I绝域 H0：因HA科金。，所以是双侧检验。当 t (双侧)时拒绝 H0, a =时，经查表t8 ,(双侧)二。II (6)结论：因t = t8 ,(双侧

13、)=,所以结论是拒绝 H0,接受HA即喷药前后果穗重的差异是显着的。5. F检验t 检验属于单个样本的显着性检验，即在样本统计量与零假设所提出的总体参量之间做比较。这种检验需要我们事先能够提出合理的参量假设值和对参量有某种意义的备择值。然而，在实际工作中，很难提出这样的假设值及备择值。因此，限制了这种方法在实际工作中的应用。为了避免上述问题的出现，在实际应用时，常常选择两个样本，一个作为处理，一个作为对照。在这两个样本之间做比较。判断它们之间是否存在足够显着的差异。当它们之间的差异不能用偶然性解释时，则认为它们之间存在足够显着的差异，这两个样本来自两个不同的总体。而 F 检验是关于两个方差的检验，所以常用 F 检验来解决上述问题。F 检验的程序概述如下：( 1 ) 假定从两个正态总体中，独立地抽取含量分别为 n1 和 n2 的两个随机样本，计算出 s12 和s22。总体平均数和科2可以相等也可以不相等。(2)零假设H0为：(T 1=b2备择假设有以下三种情况：(1) HA(t1(t2,若已知(H不可能小于；(2)HA(t1(t2和(t1(t2(t1Fa时拒绝H0;对于HA(t1(t2,应做下尾单侧检验，当 FFa /2及FF1- a/2时拒绝H0;

展开阅读全文