数据分析及数据分析及DPS数据处理系统数据处理系统1 1主要参考资料•试验应用统计:设计、创新和发现,第2版,George E. P. Box等著,张润楚等译,机械工业出版社,2010•试验的设计与分析:王万中主编,高等教育出版设,2004.•试验设计与分析及参数优化,吴建福(美)等著(张润楚等译),中国统计出版社,2003 DPS数据处理系统-实验设计、统计分析及数据挖掘,第2版,唐启义著,科学出版社,20102 2实验设计优化与DPS3 3 DPS开发背景 上世纪80年代以来,很多单位都着手编写统计分析程序,但随着时间的推移,绝大多数程序由于算法落后、数据格式规范性差、输出格式零乱、缺乏完整性而被淘汰 目前,国外大型统计软件,如SAS、 SPSS等占优势这从短期效应来看,引进国外软件,有利国内科研对数据处理需求但从长期看,特别是从知识产权来讲,依赖于国外软件需要昂贵的费用支持如在SAS平台上开发的程序,由于摆脱不了SAS的环境,难在国内推广应用 因此,研制、推广适合国内需要的统计软件,是势在必行的事;我们通过近20多年的努力,开发成功了功能完整的DPS数据处理系统,其功能已接近SAS、SPSS的水平。
4 4•1988年开始,历时10年,1997年推出DOS版本第1版,同时出版配套专著第1版(4000册);•1998年完成Window版(第2版),2002年和2007年分别出版配套专著3000册;2010年再次出版配套专著3500册(165万字);目前软件版本12.01版DPS数据处理系统开发历程5 5出版教材: 唐启义《DPS数据处理系统-实验设计、统计分析及数据挖掘》第2版, 科学出版社,2010年 唐启义 冯明光《DPS数据处理系统-实验设计、统计分析及数据挖掘》 科学出版社,2007年 唐启义 冯明光《实用统计分析及其DPS数据处理系统》 科学出版社,2002年 唐启义 冯明光《实用统计分析及其计算机处理平台》 中国农业出版社,1997年6 6DPS数据处理系统-实验设计、统计分析及数据挖掘7 7DPS用户界面与数据接口8 89 9DPS功能特色实验设计: 均匀设计 混料实验设计统计分析: 动态聚类分析 因子分析模型统计检验与评价1010DPS的应用•用户数已超过10000;•遍及国内各个省市,包括港、台,各个行业和领域;•美国宾州大学林共进博士的实验室用于工业实验设计(大样本实验设计);•成为赴国外攻读博士、或访问学者的工具。
1111DPS使用(类似Excel电子标的操作)1212数据统计分析基本步骤•(1) 将数据输入到DPS的电子表格里数据一般是一行为一个记录(样本),一列一个指标(变量)•(2) 用鼠标选中待分析的数据 •(3) 进入菜单选择相应的统计功能项•(4) 系统对选中的数据进行分析,并将分析结果返回到另一电子表格131314141515 某县植保站,调查4个水稻品种上稻纵卷叶螟卷叶率(%) ,结果列于下表水稻品种卷叶率(%)合计平均A131.927.931.828.435.9155.9 31.18A224.825.726.827.926.2131.4 26.28A322.123.627.324.925.8123.7 24.74A427.030.829.024.528.5139.8 27.96合计=550.81616数据转换:如数值相差几个数量级,可用对数转换;如许多小区值为0,则可用平方根转换;如指标是百分数,且大部分数值大于70%或小于30%,可用反 正 弦 平 方 根 转 换 一般用Tukey法和LSD法但注意:目目前国内目前的农药实前国内目前的农药实验要求验要求Duncan 法。
法17171818学会思考•在您目前从事或涉及到的研究领域,在实验设计或进行数据分析时,您最有可能碰到哪些统计学方面的问题?•在试验设计与数据处理分析中,您有可能用到工具软件(如DPS)中的哪些功能、或数据分析方法来解决您的问题,以及使用这些方法时的注意事项 1919实验设计与统计分析202021211 实实 验验 设设 计计•实验设计特点•实验设计基本原则•实验设计基本内容和步骤•常用实验设计方法22221、实验设计Experiment Design的特点•试验研究和调查研究主要区别:对研究对象是否进行干预 •试验研究特点:根据研究目的(或假设)主动加以干预措施,观察结果,回答研究假设所提出的问题2323实验研究(例子)新农药防治某作物害虫的效果•首先假设该农药可以杀死害虫•在田间划分几个随机区组几个随机区组,区组内随机设置小区随机设置小区,必要时各个小区接入害虫卵块•将农药配制成不同的浓度,再加一个空白再加一个空白( (清水清水) )对对照照在害虫防治适期施药、处理•处理(施药)后24小时、72小时、…,调查各个小区的虫量(观察指标),并对数据进行方差分析,看各处理间有无显著差异,进而得出该农药是否具有对该害虫防治效果的结论。
从该例中可以看出研究者施加了干预干预措施,即施用不同浓度的农药再经过观察总结,验证提出的假设是否正确 24242、实验设计基本原则–随随 机机–对对 照照–重重 复复 目的是为有效控制非处理因素25252.1 随机化原则 •目的:研究者在实验设计时,并不完全知道实验过程中的许多非实验因素,随机误差干扰在所难免,因此有必要采用随机化的办法抵消这些干扰因素的采用随机化的办法抵消这些干扰因素的影响影响•随机化原则包括两方面–随机分配:把实验处理对象随机分到各个区组内,以增强可比性(区组内小区随机设置)–随机抽样:总体中的每一个观察单位都有同等的机会被选入到样本中来(如实验结果的调查)26262.2 对照原则 设置对照小区,除实验处理不同外,实验过程中的实验条件和辅助措施都应相同,以便比较所研究对象存在的真实差异–抵消害虫、病害自身消长趋势的影响–抵消实验环境的其它因素的干扰 2727常见的对照•空白对照(如农药药效实验中用清水处理,重金属元素检测的空白处理)•标准对照(如农药药效实验中的标准农药品种)2828 例子: 复配农药防治一代二化螟的单因素随机区组设计单因素随机区组设计29292.3 重复的原则•是指各处理组及对照组的重复要有一定数量。
•重复数太少的话,很可能把某些偶然现象当作客观规律•重复数太多的?人力物力浪费•在保证实验结果具有一定可靠性的条件下,确定合适的重复(区组)数量30303 实验设计的基本内容和步骤•建立研究假设(提出要解决的问题)•明确研究范围(受试对象)•确立处理因素(处理因素)•明确观察指标(实验效应)•控制误差和偏倚(区组设计)31313.1 建立研究假设科研选题:研究的题目要有科学性和新颖性、社会效益和经济效益、最后要考虑可行性32323.2 明确研究范围•实验中的三个基本要素为:处理因素、实验效应和受试对象明确研究范围即:–受试对象所组成的研究总体–规定本次研究的总体范围•如研究病虫为害对作物产量影响,首先确定作物产量的考察标准以及计量方法,然后根据研究需要,选定实验田块安排实验,确定实验处理因素(不同的害虫密度梯度设置),使得实验效果清晰、明了3333实验设计的基本要素例如: 用某种 杀虫剂 防治 作物害虫, 观察其 虫口数量下降情况基本要素: 处理因素(杀虫剂) 受试对象(作物害虫) 实验效应(虫口数量下降)34343.3 确定处理因素•处理因素是根据研究目的而施加的特定实验处理因素是根据研究目的而施加的特定实验措施措施(如农药药效实验种的不同农药浓度)。
•为了增强可比性,实验通常设立对照,如空白或者标准对照也是一种处理措施 35353.4 明确观察指标•实验中的实验效应主要指处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来选用的指标应该是:–客观性强(易观察,可量可测,操作性强)–灵敏度高(对各个处理的反应要灵敏)–精确性强(要反应研究对象的实质,不受或少受其它因素的影响)36363.5 控制误差和偏倚误差(error):测量值与真值之差 1,5,9 => 5 (真正均值=5)偏倚(bias):在实验中由于某些非实验因素的干扰所形成的系统误差 4,5,9 => 6 (真正均值=5)3737•完全随机实验•随机区组设计•裂区实验设计•正交设计•二次正交回归组合设计•均匀实验设计4 常用实验设计方法3838常用常用试验设计试验设计完全随机完全随机设计设计随机区组随机区组设计设计裂区设计裂区设计样本容量样本容量估计估计随机分组随机分组方差分析方差分析多重比较多重比较局部控制局部控制随机分随机分处理处理方差分析方差分析多重比较多重比较主区主区裂区裂区方差分析方差分析正交设计正交设计水平数<水平数<5 5正交表正交表安排安排方差分析方差分析均匀设计均匀设计均匀表均匀表安排安排线性回归线性回归分析分析多项式逐多项式逐步回归步回归模型优化模型优化正交回归正交回归组合组合M Mc c+M+Mr r+M+M0 0二次多二次多项式回归项式回归模型优化模型优化水平数=水平数=5 539394.1 完全随机实验概念:首先将受试对象随机分配到实验(处理)组和对照组,通过比较分析回答研究假设。
统计方法成组设计的两样本均数比较(t检验),相应的秩和检验(非参数检验)成组设计的多个样本均数比较(方差分析),相应的秩和检验(非参数Kruskal Wallis检验)两样本率(卡方检验)或多样本率比较(Logistic 回归)4040完全随机设计的随机分配方法•使用随机数字表•DPS生成: 如3个处理,5次重复,共15个实验处理(样品)的实验:4141分配结果分组对象编号甲组1791014乙组58111315丙组2346124242 实验结果分析:方差分析实验结果分析:方差分析假定该实验是甲组是对照,乙组和丙组假定该实验是甲组是对照,乙组和丙组是不同微量元素处理的盆栽实验,实验是不同微量元素处理的盆栽实验,实验指标是植株鲜重,问不同处理的植株鲜指标是植株鲜重,问不同处理的植株鲜重是否不同?重是否不同?133.8125.3143.1128.9135.7151.2149162.7143.8153.5193.4185.3182.8188.5198.64343完全随机设计实验结果方差分析数据格式在菜单下执行“实验统计”->“完全随机设计”下面的“单因素实验统计分析”。
4444数据转换:如数值相差几个数量级,可用对数转换;如许多小区值为0,则可用平方根转换;如指标是百分数,且大部分数值大于70%或小于30%,可用反正弦平方根转换 一般用Tukey法和LSD法国内目前的农药实验要求Duncan 法45454646•数据描述:均值和标准差是必须的,处理样本数也要说明•方差分析:F值、自由度和P值;如P<0.05则差异显著,如P<0.01则差异极显著•多重比较:均值后面跟有相同字母的就没差异4747正确理解差异正确理解差异显著显著或或极显著极显著的统计意义的统计意义•"差异显著"或"差异极显著"不应该误解为相差很大或非常大 ,也不能认为在专业上一定就有重要或很重要的价值.•“显著”或“极显著”是指不同处理没有差异的可能性小于5%或1%,即认为它们有实质性差异的可能性是95%或99%•有些试验结果虽然差别大,但由于试验误差大,也许还不能得出“差异显著”的结论;而有些试验结果间的差异虽小,但由于试验误差小,反而可能推断为“差异显著”4848IIIIII均值均值A17.9710.6210.6213.07B41.9520.8879.1447.33C53.9598.1267.7573.27IIIIII均值均值A11.2212.5511.5516.53B23.4822.9432.0736.16C39.7141.8036.6151.64两个栽培试验,不同处理A、B、C间的成活率,谁的差异大?实验1实验1实实验验22A:空白对照;B:标准对照;C:新技术处理4949实验1的方差分析表方差分析表变异来源 平方和 df 均方 F值 p值 区组间区组间 325.702 162.850.2630.7807处理间处理间 5470.9822735.494.4260.0969误差误差 2472.304 618.07总变异总变异 8268.9785050实验2的方差分析表 方差分析表变异来源 平方和 df 均方 F值 p值 区组间 5.652 2.83 0.1840.8386处理间 1143.642571.8237.2360.0026误差 61.434 15.36总变异 1210.7285151两实验各处理均值比较实验实验1实验实验2处理处理 均值均值 5%显著水平显著水平 均值均值 5%显著水平显著水平 处理处理3 73.27 a 39.37 a 处理处理2 47.33 ab 26.16 b 处理处理1 13.07 b 11.77 c F值值 4.4337.24P值值0.09690.00265252 4.2 随机区组设计•概念:将研究对象按性质相同或相近者组成b 个区组(局部控制),每个区组中的k 个处理随机分配。
•优点利用区组,进一步控制偏倚,减少实验的偏差;•但实验结果中若有数据缺失,统计分析较麻烦(目前可用一般线性模型解决)5353例 用区组设计方法将20个实验对象,接受甲、乙、丙、丁4个处理•将20个实验对象分成5个区组,即l一4号为第1区组,5—8号为第2区组,余类推,接受四种处理方式545420名实验对象分配的配伍组和处理组区组处理组甲乙丙丁1321428765310119124141513165191817205555•统计方法:•定量资料: 配对t检验、随机区组方差分析随机区组方差分析•其它情形:Wilcoxon配对检验,Friedman非参数检验非参数检验5656随机区组设计实现•确定处理因素,田间划分区组•DPS生成实验方案: 如5个处理,设置4个区组,共20个实验处理的实验执行实验设计菜单下的“单因素随机区组设计”5757随机区组设计实验处理结果(对号入座填入表格)得到数据方差分析格式在菜单下执行“实验统计”->“随机区组设计”下面的“单因素实验统计分析”5858数据转换:如数值相差几个数量级,可用对数转换;如许多小区值为0,则可用平方根转换;如指标是百分数,且大部分数值大于70%或小于30%,可用反正弦平方根转换。
一般用Tukey法和LSD法但注意:目前国内目目前国内目前的农药实验要求前的农药实验要求Duncan 法5959 结果描述及数据分析与完全随机实验设计相同,就当是区组间那一行不存在6060基数的调整?•原始观察值:协方差分析•相对防治效果6161实验中缺掉1~2个处理小区怎么办?•一般线性模型在方差分析中的应用 6262实际例子实际例子6363执行“实验统计”->“一般线性模型GLM”分析在“可供分析变异来源”列表框中先选“B”,点击”>”,再选“A”,点击”>”,将这两项加入到右边并选I型平方和分解多重比较方法,这里选”Duncan”法,然后点击”OK”即可输出结果646465654.3 两因素随机区组设计•问题提出:不同农药或某农药不同浓度,在不同时期或不同施药技术情况下对病虫的防治效果•一般情况:两因素随机区组设计•特殊情况:植保农药实验,加上施药时期、施药技术等因子后,含有“伪因子”情形,需用一般线性模型分析一般线性模型分析6666伪因子伪因子•农药不同种类、不同浓度处理,一般要设空白作为对照空白和其它因子组合,如和施药时期、施药技术的组合,实际上还是“空白”,没有不同(伪因子)。
因此“伪因子”的多因子农药实验中经常遇到•农业中的多因素农药、施肥等实验,只要有空白作为对照,就有这种现象存在6767 例如进行不同农药不同浓例如进行不同农药不同浓度、在不同时期防治二化螟药度、在不同时期防治二化螟药效实验其空白对照和不同施效实验其空白对照和不同施药时期的搭配就是药时期的搭配就是“ “伪因子伪因子” ”6868某实验处理得到作物产量结果如下:这样的数据不能直接进行两因素随机区组设计的方差分析6969含伪因子实验结果统计分析7070实验结果解释(1:方差分析表)7171实验结果解释(2:多重比较)72724.4 多因子实验•完全随机设计、随机区组设计(析因设计)•裂区设计•均匀设计•正交设计•正交回归组合设计 正交设计及正交回归组合设计是应用最广泛的正交设计及正交回归组合设计是应用最广泛的多因子实验设计多因子实验设计7373•一般多因素试验设计(析因设计)当处理因素较多时:处理组合呈指数增长•5个因素,5个水平,3个区组有多少处理组合? =55=3025次x3=9075•正交试验设计:从所有的试验组合中,选择在试验因子空间相互正交因子空间相互正交的一些点来进行试验。
需要的实验次数是水平数的平方水平数的平方更多因素的实验设计: 为什么一般用正交实验设计?74744.4.1 正交设计•当实验涉及的因素在三个或三个以上,且因素间可能存在交互作用时,可用正交设计正交实验中各因素的水平数可以相等,也可以不相等它利用一套规格化的正交表,将各实验因素、各水平之间的组合均匀搭配,合理安排,可以用较少的、有代表性的处理组合数,提供充分有用的信息,还可以找出较优组合,用以指导实践7575正交实验举例分析(p269-274)花菜留种正交试验的因子与水平表 因 子水 平 1水 平 2A:浇水次数不干死为原则,整个生长期只浇1~2次根据生长需水量和自然条件浇水,但不过湿B:喷药次数发现病害即喷药每半月喷一次C:施肥次数开花期施硫酸铵进室发根、抽苔、开花和结实期各施肥一次D:进室时间11月初11月15日7676研究目的•为了解决花菜留种问题,进一步提高花菜种子的产量和质量,科技人员考察了浇水、施肥、病害防治和移入温室时间对花果留种的影响,进行了这4个因素各因素两水平的正交试验 7777L8(27)正交表 8:实验次数; 2:各因素的水平数 7:最多安排的实验因素及其效应数(包括误差项)7878有重复的两水平正交实验•上例属于无重复的两水平正交实验•如果想增大误差自由度以提高检测诸因子作用的能力,或者想研究各因子间的所有交互作用,就可采用重复实验的方法,假定把每一个实验都重复三次,结果如下。
7979有重复的两水平正交实验8080正交实验数据统计分析: 初步分析:比一比,看一看 统计分析:方差分析,及多重比较 有重复和没有重复的统计分析8181无重复时统计分析(要有空白列)8282极差分析结果均值 因子 水平1 水平2 x(1) 33.500065.2500x(2) 65.750033.0000A×B 44.000054.7500x(4) 36.750062.0000A×C 69.500029.2500x(6) 50.250048.5000x(7) 50.500048.25008383各个因子各水平均值8484因子 极小值 极大值 极差R 调整R' x(1) 33.500065.250031.750045.0850x(2) 33.000065.750032.750046.5050A×B 44.000054.750010.750015.2650x(4) 36.750062.000025.250035.8550A×C 29.250069.500040.250057.1550x(6) 48.500050.25001.75002.4850x(7) 48.250050.50002.25003.19508585方差分析表(不显著的互作项可作为空白列,重新分析不显著的互作项可作为空白列,重新分析)正交设计方差分析表(完全随机模型)变异来源 平方和 df 均方 F值 p值 x(1) 2016.125012016.1250329.16330.0351x(2) 2145.125012145.1250350.22450.0340A×B 231.12501231.125037.73470.1027x(4) 1275.125011275.1250208.18370.0441A×C 3240.125013240.1250529.00000.0277x(6)* 6.125016.1250x(7) 10.1250110.12501.65310.4208误差 6.125016.1250总和 8923.87508686有重复时统计分析8787根据重复的设计类型确定88884.4.2 定量数学模型 二次正交回归设计•正交试验结果分析考虑因子间的交互作用。
•根据一般正交试验结果可建立回归模型,如• Y=290-106x1+93x2+31x3+6x4•线性回归模型能优化吗:求最大、最小值• 优化需要二次曲线方程8989•二次多项式回归方程,可以优化,如•y=68.5-15X1-40X2+0.0X1*X1+0.0X2*X2+15X1*X2•但是一般实验设计得到的自变量,其二次项,互作项之间不一定正交在没有计算机软件的情况下,计算工作量也大9090•要建立二次多项式优化,因子之间又要正交:正交回归组合设计正交回归组合设计•使得试验因素的整个设计矩阵,包括二次项、使得试验因素的整个设计矩阵,包括二次项、互作项都相互正交互作项都相互正交91919292•二次.正交.旋转.组合.设计•二次:模型优化;•正交:各个因子正交;消除因子间互作的影响;•旋转:各个因子点到中心的距离相等;•组合:加上适当的中心试验点(0,0,0…,0)个数,适当整个设计矩阵满足要求•根据中心点数不同(当然为保持正交性,相应的臂长也不同),有: 二次正交旋转组合设计 二次通用组合设计 二次正交回归组合设计 Center composite designs (CCD) 9393零水平零水平星号臂长实验设计零水平必须大于臂长正的星号臂值水平须“过量”变化区间9494 试验设计 首先确定因子和各个处理因子的零水平、变化区间。
如有一个4因子的试验,第一个因子是播种期,零水平3月31日,变化区间5天;第二个因子是播种量,零水平40公斤,变化区间5公斤;第三因子是移栽期叶龄,零水平6叶,变化区间1叶;第四因子是氮肥用量,零水平20公斤,变化区间5公斤其试验设计可按下图方式编辑,并定义成数据959596969797实验结果统计分析 左边方实验设计表,右边一列放各个处理相应的产量,然后用鼠标选中 最后进入主菜单,选择“试验统计”中的“实验优化分析”下面的“二次多项式回归”系统出现如下界面98989999输出结果•①、各个因素(试验处理水平)编码的平均值和标准差,以及相关系数矩阵;•②、二次多项式回归模型;•③、回归模型的F检验值及显著水平p,一般显著水平小于等于0.05时即可对该模型进一步分析,如果F太小,回归方程不显著,则不适合建立二次多项式回归模型来分析试验结果;100100模型统计检验变异来源平方和自由度均方F值p值回归468.291433.44931.26880.3026残差553.642126.3636 失拟420.371042.03673.46970.0264 误差133.271112.1154总变异1021.9335101101•④、各个因子项的回归系数、标准回归系数、t检验值及显著水平p;•⑤、回归模型的复相关系数R剩余标准差和调整后的相关系数,一般来说,调整后的相关系数越大越好;•⑥、各个处理的观测值、拟合值和拟合误差,以及Durbin-Watson(DW)统计量。
DW统计量只当分析样本按某一顺序(如处理先后)存放时才有意义,该值要在2的附近为好;102102•⑦、其他因子为零时单因子和两因子互作效应分析,可在DPS系统作图功能的支持下,分别作x-y曲线图和等高线图;•⑧、其他因子为零水平时,各个因素的灵敏度分析,给出了系数灵敏度、导数、平均效应y/x和目标函数y,根据这些数据,可以进行边际分析;103103•应用典型方程,我们可以得到如下信息:•一是稳定点处是否是拟合模型的极大值、极小值或者是鞍点:当典型方程的各个系数为负负时,稳定点为模型的极大值极大值;当典型方程的各个系数为正正时,稳定点为模型的极小值极小值;当典型方程的各个系数有正正有负负时,稳定点为鞍点鞍点•这一点很重要,这时因为我们在寻优建模时,往往根据专业背景,指定模型寻优方向这种寻优方向可能和拟合模型本身的最优解不一致,或部分因子不一致不一致时,采用数值寻优算法得到的最优点有可能位于实验因子取值的边界上104104105105•同时,根据典型方程,判断各个因素在稳定点附近的变化大小系数越大,变化越快,该点的稳定性就较差,这是在应用中需要注意的•最后,如果通过数值优化分析和典型分析得到的最优值一致,那么模型可以认为是较好的,如果不一致,在模型应用时,需要进行更深入的分析,探明原因,且模型结果谨慎应用。
106106多因子实验优化中的区组设计•多因子优化设计试验,一般试验次数较多试验次数增加会带来量方面的问题:•一是试验时间延长有的实验处理是依时间顺序一个接一个地进行的由于时间延而产生的对实验结果的影响叫做时间漂移,这一影响很可能增加试验误差这种情况在工业试验中较为普遍•另一种情况是试验区增大在农林生物的田间试验中,因处理因子多、实验区加大、这样难以在同质的条件下进行试验,而需要进行小区控制、实行区组设计107107DPS提供的区组设计功能•区组设计应用与多因子优化试验是有必要的但遗憾的是,我们以往的试验优化分析工具,都没有提供可处理区组设计功能这里,我们增加了处理含有若干区组的二次正交回归组合(中心复合)设计试验数据分析建模功能,该功能模块在“试验统计”“试验优化分析”“区组设计二次多项式回归”里面108108区组设计统计分析数据格式•二次正交回归组合设计或其他多因子试验,如果在实施时划分了B个区组,在试验结果的数据分析时,数据的第一列放区组的顺序编号(1,2,..., B),其它列则和其它多因素实验设计一样,放各个处理因子的编码值或各个因子试验实施的水平值,最右边放试验观察指标结果值。
109109区组设计优化分析变异来源变异来源平方和平方和自由度自由度均方均方F F值值p p值值回归回归679.54679.54161642.4742.472.35692.35690.03830.0383模型模型468.29468.29141433.4533.451.85621.85620.10420.1042区组区组211.25211.252 2105.63105.635.86165.86160.01040.0104残差残差342.38342.38191918.0218.02失拟失拟259.17259.178 832.4032.404.28254.28250.01450.0145误差误差83.2183.2111117.567.56总变异总变异1021.931021.9335351101105. 回归分析回归分析•回归(regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小•直线回归是回归分析中最基本、最简单的一种,直线回归方程是Y= a + bX 中,a、b 是决定直线的两个系数,1111115.1 直线回归分析(p625)•根据试验数据、或调查资料,建立定量的回归方程,并对回归方程进行统计检验的过程。
•最小二乘法建立线性回归方程•在DPS里,建立回归方程: 一行一个样本 一列一个变量 因变量放在最右边•建立回归方程,样本个数要大于总变量个数112112•⑨、典型分析,求一阶偏导数方程、拟合方程的典型形式,稳定点分析;•⑩、在试验条件的约束之下,进行模型优化,得到最高产量时各个因素组合•最后,如果在分析时按系统的提示,输入了目标指标的价格,以及各个处理因素的价格,系统将会给出最大经济效益时的产量和产值113113典型分析•对回归模型进行比较深入、直观地分析;典型分析(又称典范分析,典则分析,Canonical analysis)提供了较为理想的分析技巧 114114115115116116回归分析结果解释•回归方程能否成立,看F值,显著水平(<=0.05)•回归方程好不好,看决定系数(>0.5),50%决定系数是相关系数的平方,相关系数要大于0.7•决定系数说明了:建立线性回归方程的这些变量,这些变量建立起来的回归方程,可以解释因变量变化(波动)的比例•各个变量的作用(影响):看标准系数,标准系数才具有可比性。
•因子作用是否显著,看回归系数的显著水平<0.05才显著不显著的因子可考虑可考虑剔除•但并不是一大于0.05就剔除原因是自变量之间的相互作用是非常复杂的如多重共线性1171175.2 逐步回归逐步回归(p636)•在DPS中,逐步回归分析数据格式和线性回归相同:一行一个样本,一列一个变量,因变量放在最右边118118逐步回归:调整R值达到最大下一页119119120120分析结果1211215.3 非线性回归模型(p798)•一行为一个样本,•一列为一个变量•在数据块中,第一列为X1,第二列为X2,...若数据块中有p列数据,那么数据块的最后一列为Xp122122用户操作界面123123输出结果124124某地油菜菌核病发病率增长过程125125126126127127 谢谢!128128。