第五章线性回归与相关培训教材

上传人:yuzo****123 文档编号:141584022 上传时间:2020-08-10 格式:PPT 页数:130 大小:7.11MB
返回 下载 相关 举报
第五章线性回归与相关培训教材_第1页
第1页 / 共130页
第五章线性回归与相关培训教材_第2页
第2页 / 共130页
第五章线性回归与相关培训教材_第3页
第3页 / 共130页
第五章线性回归与相关培训教材_第4页
第4页 / 共130页
第五章线性回归与相关培训教材_第5页
第5页 / 共130页
点击查看更多>>
资源描述

《第五章线性回归与相关培训教材》由会员分享,可在线阅读,更多相关《第五章线性回归与相关培训教材(130页珍藏版)》请在金锄头文库上搜索。

1、第五章 线性回归与相关,Chapter 5 Linear regression and correlation,第一节 一元线性回归与相关,1. 回归与相关的概念,1)变量 (Variable),描述事物特征或特质的数量指标,这些指标因条件不同而按一定的规律变化,故称变量。如:不同田块的土壤有机质含量; 不同小麦品种的千粒重;不同大丽轮枝菌的致病力等等。,2)变量间的关系 (Relationships between variables),函数关系 (Functional relationship): 处于同一个统一体中的两个变量,它们之间互相联系着同时在变化,其中一个变化,另一个也按一定的规

2、律相应地变化,而且一个变量取定某个数值,另一个变量也按照一定的规律有一个完全确定的数值与之对应。常以 y=(x) 表示。如:路程和时间的关系:s = vt;消光值和溶液浓度的关系:E = RC,等等。,相关关系 (Correlation relationship): 当一个变量取定某个数值时,另一个变量出现的对应值不是完全确定的。如:施氮量和作物产量的关系; 土壤有机质和土壤全氮含量。,2. 相关关系的类型,相关关系的规律是概率性的,相关关系资料必须用适当的统计方法处理后,才能使其规律呈现出来。,Relationship between ear length (cm) and yield pe

3、r plant of maize (g),陕西旬邑县苹果黑星病病叶率随时间变化图,陕西杨凌小麦条锈病病叶率随时间变化图,表1 双变量(X, Y)总体模式表,X Y y,x,X1 Y11 Y12 Y1n Y1 X2 Y21 Y22 Y2n Y2,Xn Yn1 Yn2 Ynn Yn,对于一个双变量总体 : 令 是 时所有 的平均值,在统计学上称为 的条件平均数或条件期望值则:,称为回归函数,表示 y 依 x 变化而回归。,如果变量 x 和 y 是直线相关关系,则上述回归函数可表示成:,称为直线回归方程。,又称为Y的回归值。,如果变量 x 和 y 是直线相关关系,则上述回归方程可表示成:,用 作为

4、的估计值,则上述回归函数可表示为:,称为样本回归方程。,称为样本线性回归方程。,如果变量 x 和 y 呈曲线相关关系(如抛物线),则上述回归方程可表示成:,称为样本非线性回归方程。,对于一个双变量样本 :,1)当两个变量有因果关系时,则原因变量为自变量,结果变量为依变量。 2)当两个变量没有因果关系时,则根据研究目的确定。 3)当两个变量中,有一个是非随机变量时,则非随机变量必为自变量。 4)当两个变量均为随机变量时,则根据研究目的确定。,例: 1)施肥量 (x) 作物产量 (y)。 2)土壤有机质含量 (x) 土壤全氮含量 (y) 。,自变量 (x, independent variable

5、) 和依变量 (y, dependent variable),4. 相关分析 (Correlation analysis),研究变量之间相关关系的密切程度及其性质 (正相关或负相关), 并用一个数量性指标来描述,这个指标称为相关系数 (r) 。相关分析不具备预测功能。,相关分析与回归分析有何关系?,5. 相关分析与回归分析必须注意的问题,1)相关的科学性。 2)相关的可比性。 3)作回归和相关分析时,x 的取值范围要尽可能大,而且观察值应在5 对以上。,表1 一个双变量(X,Y)样本的模式表,X,X1 Y11 Y12 Y1n,X2 Y21 Y22 Y2n,Xm Ym1 Ym2 Yma,Y,二、

6、 一元线性回归分析,1. 一元线性回归方程的建立,1)利用变量 (x, y) 作散点图 (Scatter diagram) 进行初步判断。,2)直线回归方程 (Linear regression equation) 的配置,确定直线方程的原则:,确定 b0 及 b 值的方法 (最小二乘法):,要使,则有:,= 最小,因为,上式及本式称为正规方程组 (Normal equations). 亦可用矩阵形式表示。,直线回归方程的特点,(1)直线回归方程一定通过点,(2)回归系数 b 的符号取决于 lxy b 0 时,x 与y 正相关; b 0 时,x 与y 负相关。,2. 回归关系的显著性检验,1)

7、因变量观察值的变异来源划分:,总变异 = 离回归变异(剩余变异) + 回归变异,2)总变异平方和的分解与计算,总平方和 (SST ) = 离回归 (剩余) 平方和 (SS剩) + 回归平方和 (SS回),SS回 =,SS剩 = SST - SS回,3)自由度的分解与计算,总自由度: dfT = N 1 回归自由度: df回 = M 1 = m 剩余自由度: df剩 = dfT - df回 = N - M,4)平方和的分解与F值的计算,5)统计推断,F F 否定H0 ,接受HA,3. 一元线性回归方程的应用,当x = x0 时, y0 的取值区间为:,,,置信度为:95%,置信度为:99%,=,

8、线性回归估计标准误:,预测依变量 y 的取值:,二、 简单相关分析,1. 相关系数 (Correlation coefficient),1)相关系数的直观定义,A,对于样本:,r 就定义为样本相关系数,即,2)相关系数的回归定义,总平方和 = 剩余平方和 + 回归平方和,SST = SS剩 + SS回,由:,相关系数可定义为:,3)相关系数的性质,2)r 的绝对值愈大,两变量的相关愈显著。,3)相关系数 r 的符号取决于乘积和 Lxy, 与回归系数 b 的符号一致。,1)相关系数的取值: -1 r 1,回,SS,T,2. 决定系数 (Coefficient of determination),

9、1)决定系数的定义,决定系数为相关系数 r 的平方,记为 r2 。,r2 =,SS回,SST,=,L2xy,Lxx,Lyy,2)决定系数的含义,1. 决定系数仅表示两个变量相关的密切程度, 不表明相关的性质;,2. 决定系数的取值: 0 r2 1,3. 相关系数和决定系数的显著性检验,1. 计算 r。,2. 由 df = n 2 查相关系数表(附表10)得 r,如果: r r 表明两变量的相关关系达显著或极显著水平。,3. 表示总平方和中,回归平方和所占的比重,或说在 y 的变异中有多大部分是由 x 变化引起的。,三、直线回归方程,回归系数,回归截距,确定直线回归方程参数的方法有最小二乘法、高

10、斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。,分别对上式的a和b求偏导:,解方程组得:,a称为截距;b成为斜率;Q称为离回归平方和或称为剩余平方和;U称为回归平方和;Sy/x称为回归估计标准误。,因方程使用了a,b两个统计数,故自由度为n2。,例 测定水稻播种至齐穗的天数和播种至齐穗的总积温的数据如下。请确定X与Y的变化关系。 表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系,解:以X为横坐标,Y为纵坐标绘制散点图。从散点图可以看出Y与X有回归关系,Y随着X变大而上升,可以选用一元线性回归方程拟合Y与X的回归关系。,因此,该例数据的回归直线方程为:,Old

11、Y Fitted Y Residuals STD Residuals 1421.801429.89-8.09 -0.28 1423.301429.89-6.59 -0.34 1440.701439.970.73 0.03 1471.301439.9731.33 1.33 1440.001470.23-30.23 -1.28 1547.101520.6626.44 1.11 1533.001561.01-28.01 -1.19 1610.901591.2619.64 0.83 1616.301621.52-5.22 -0.22,表 残差值,残差的方差及标准差为:,用Se对残差进行标准,得到标准化

12、残差,结果见上表。 计算Y总体平均数的95%置信区间,计算公式如下所示,其结果包括总体平均数在内。,UCL: upper confidence limit LCL: lower confidence limit,计算y值的95%置信区间的计算公式:,X Y UCL95 LCL95 51.001421.801408.841450.93 51.001423.301408.841450.93 52.001440.701420.371459.58 52.001471.301420.371459.58 55.001440.001454.021486.44 60.001547.101505.161536.

13、16 64.001533.001541.401580.61 67.001610.901567.031615.49 70.001616.301592.011651.03,表 95%置信区间,图 Y的95%置信区间,包括总体平均数在内 95%可靠度的置信区间,一般来讲,y关于x的回归方程y=f(x)是未知的,由样本来拟合是一种探索的过程,或者说是一个选择合适函数逼近的过程。,直线回归的显著测验: H0:b=0, HA:b不等于0。,b的显著性测验:,b的(1-)*100%的置信区间为:,a的显著性测验:,a的(1-)*100%的置信区间为:,预测与控制:,1、预测 在x=x0处,用y=a+bx进行

14、预测。预测包括平均值的预测和个别值的预测。,平均值预测,个别值预测,2、控制 控制问题是预测的反问题。若要求y的个别值在y1,y2内的可靠性为(1-)100%,应该把x控制在什末范围内?,第二节 非线性回归方程,非线性回归方程参数的求解过程:,(1)整理数据,(2)画散点图,(3)选方程,(4)线性化,(5)求解参数,(6)参数带回原方程,非线性模型参数的计算及其检验:,在生物学研究领域中,许多变量间的关系呈非线性关系(curvilinear relations)。非线性模型的形式是多种多样的,这里只讨论在农学和生物学研究中常遇到的非线性模型。 对这类模型参数据的求解有两种方法:一是将非线性模

15、型线性化,然后按直线模型参数的求解过程确定其参数,并进行检验;二是采用Gauss-Newton法、Marquardt法、Newton法、Gradient法、DUD法等进行参数的求解。下面以实例详细说明计算过程。,例1 美国纽约1980年观察到马铃薯晚疫病(Phytophthora infestans)在四个马铃薯品种(Katahdin, Kennebec, Monona, Sebago)上的严重度,结果见下表,请用 Gompertz, Monomolecular和Logistic模型拟合数据。,接种天数 重复 严重度 Katahdin Kennebec Monona Sebago 1110.00.00.00.0 20.00.00.00.0 30.00.00.00.0 40.00.00.00.0 1412.50.911.80.7 211.80.87.81.7 32.31.72.81.0 43.91.08.01.4 。 37198.392.5100.075.5 298.389.3100.079.5 398.087.5100.083.0 498.388.8100.078.0,表 四个马铃薯品种上晚疫病发生程度数据,马铃薯晚疫病病情增长散点图,根据散点图趋势,选择较适合的曲线模型:,单分子模型:,Gompertz模型:,Logistic模型:,单分子模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号