生物统计复习总结－金锄头文库

资源描述

《生物统计复习总结》由会员分享，可在线阅读，更多相关《生物统计复习总结（17页珍藏版）》请在金锄头文库上搜索。

1、生物统计复习总结生物统计复习总结一、田间试验1.田间试验：是指在田间土壤、自然气候等环境条件下栽培作物，并进行与作物有关的各种科学研究的试验。2.田间试验的特点：（1）田间试验研究的对象和材料是作物（2）田间试验具有严格的地区性和季节性(3）囹问试验普遍存在实验误差。3.田间试验的要求：（ 1）试验目的要明确(2）试验要有代表性和先进性(3）试验结果要正确可靠(4）试验结果要具有重演性4.准确性：也称准确度，指某一试验指标或性状的观测值与该实验指标或性状观测值总体平均数接近的程度（实验的系统误差影响准确性大小。5.精确性：也称精确度，指同一试验指标或性状的重复观测值彼此接近程度（实验的随机误差

2、影响精确性大小。6.试验指标：用来衡量实验结果好坏或处理效应高低、在试验中共有测定的性状或观测的项目称为试验指标。7.试验因素：试验中人为控制的、影响试验指标的原因或条件称为试验因素。8.试验水平：对试验因素所设定的质的不同状态或量的不同级别称为试验水平，简称水平。9.试验处理：蔡先设计好的实施在试验单位上的具体项目称为实验处理简称处理。10.实验小区：实施一个实验处理的一小块长方形土地称为实验小区，简称小区。11.试验单位：实施试验处理的材料单位称为试验单位，亦称试验单元。12.总体与个体：根据研究目的确定的研究对象的全体称为总体，其中的一个研究对象称为个体。13.样本：从总体中抽取的一部分

3、个体组成的集合。14.样本容量：样本所包含的个体数目，常记为n。15.试验误差：由于受到试验因素以外各种内在的、外在的非试验因素的影响使观测值与试验处理观测值总体乎均数之间产生的差异，简称误差。16.系统误差：在一定试验条件下，由某种原因所引起的使观测值发生方向性的误差，又称偏性。17.随机误差：由多种偶然的、无法控制的因素引起的误差。18.回问试验误差来源：（1）试验材料的差异(2）试验操作和田间管理技术的差异(3）外界环境条件的差异。19.田间试验误差的控制途径：（1 ）选用同质一致的试验材料(2）采用标准化的操作管理技术(3）控制土壤差异对试验结果的影响。20.田间试验设计基本原则：（

4、1）重复(2）随机排列随机的含义：a分组随机b抽样随机c试验顺序随机(3）局部控制21.边际效应：指小区两边或两端植株的生长环绕与小区中问植株的生长环绕不一致而表现出的差异。22.小区形状：指小区长宽比例。（小区形状一般为长方彤，狭长小区使各小区更紧密相邻，减少了小区之间的土壤差异23.区经：将一个重复全部小区安排与土壤非礼等环缆条件相对均匀一致的小块土地上，成为一个区组（田间试验一般设置3-4次重复，即设置3-4个区组。每个区组阿奶全部处理的称为完全区组，当处理数较多时，每个区组安排部分处理的称为不完全区组。1 I 17 生物统计复习总结24.拟定试验方案基本要求：(1）明确试验目的(2）精

5、选参试因素(3）合理确定参试因素的水平等差法、等比法、优选法先确定因素水平的最大值和最小值，以G=（最大值最小值0.618为水平问距，用最小值G)和（最大值G）确定因素另外两个水平(4）设置对照（对照记为CK）对照的种类有：空白对照、互为对照、标准对照、试验对照、自身对照、肥底对照(5）遵循唯一差异原则：为保证试验结果的严格可比性，除了试验因素设置不同水平外，其余因素或其他所有条件均应保持一致，以排除非试验因素对试验结果的干扰，使处理间的比较正确可靠。(6）考虑试验因素与试验条件的关系25.顺序排列设计：将各处理顺序排列在重复区组内各个小区上（遵循重复和局部控制原则(1）分类：对比设计和间比设

6、计(2）优缺点：方便观察，对照过多增加了成本(3）数据分析：根据各株系产量合计对于其两侧CK产量合计乎均数的百分比作出结论凡大于110%的株系较CK显著增产，小于90%的株系较CK显著减产，结语两者之间的株系主继续实验，再作结论。26.随机排列设计：将各处理随机排列在重复区内各个小区上(1）完全随机设计：将各处理完全随机地分配给各个试验单位a优点：设计容易，处理数与重复数都不受限制，统计分析比较简单b缺点：没有应用局部控制原则，当实验环绕条件差异较大时实验误差较大，实验精确性较低(2）随机区级设计随机完全区组设计）：先将整个实验地划分成若干个区组，区组数等于重复数；然后将每个区组划分成若干个小

7、区，小区数等于处理数；再将全部处理独立随机安排在每个区组内的各个小区上。a优点：设计简单，容易掌握；灵活性大；符合实验设计的三原则，能无偏估计试验误差；对试验地的大小形状要求不严；易于统计分析b缺点：处理数不能大多，一般不超过20个，最好10个左右；只能控制一个方向上的土壤差异c注意事项：区组走向垂直子肥力梯度，小区长边平行子肥力梯度(3）拉丁方设计：从横行和直列两个方向对试验环境条件进项局部控制，使每个横行和豆列都成为一个区组，在每一区组内独立随机安排全部处理的试验设计。a设计步骤：选择标准拉丁方直列随机排列横行随机排列处理随机排列b优缺点：可以从两个方向消除试验环境影响，试验的精确性较随机

8、区组设计高；处理不能太多，缺乏随机区组设计的灵活性(4）裂区设计：进行两因素试验，如果两个因素有主次之分，希望对主要因素的研究有较高的准确性则用裂区设计（主区精确性小子副区两因素裂区设计主要应用于以下情况精确性要求不同主效应绝对值大小不同管理实施的需要实验方案临时变更2 I 17 生物统计复习总结26.田间种植图（能根据题目要求画出占地面积最小的田间种植图）保护走道中11了1:1,111111小l了l了l11lslslsl11sl走丰走道1了1:1:12151小161了1了11:I小IsI 1 Is I 走道宽0.5时保护行（宽2时小麦品种比较试验田间种植阁1,2,3，8农示处理，小区而叙38

9、=24(m2）：试验区长316+(0 . 5+2) 2 =53(m l: 试验区宽82+0.53+22 = 21. 5 (m)：试验区而叙5321.5=113 9 . 5(m) 27.田间试验抽样调查设计的三个问题：抽样单位的大小样本容量的大小抽样单位的配置28.抽样方法(1）顺序抽样：只有在试验单位内个体性状表现一致时采用顺序抽样。(2）随机抽样：简单随机抽样、分层随机抽样、整群随机抽样和多级随机抽样等。(3）成片抽样：指抽样的抽样单位内不作随机分布或均匀分布而连成一片的抽样方法。保护行行保护行N-Mg 二、资料的整理与描述1.数量佳状资料(1）数量性状：能够以量测或计数的方式表示其数量特征

10、的性状。(2）计量资料：也称连续性变量资料，用皮、量、衡等计量工具以量洲方式直接获得的数量性状资料。(3）计数资料：也称不连续性变量资料或间断性变量资料，是指用计数方式获得的数量性状资料。计数资料的观测值只能以整数表示。2.质量性状资料(1）质量性状：又称属性性状，指能观测到而不能直接测量的性状。(2）统计次数资料：在一定的总体或样本内，根据某一质量性状类别统计其次数，以次数作为质量性状的数量。(3）定级评分法：用不同数字表示某种现象在某种程度上的差别。3.资料的检查与核对目的：确保原始资料的完整性和正确性( 1）完整性：是指原始资料无缺失或重复。(2）正确性：是指原始资料的测量和记载无差错，

11、或未进行不合理的归并。4.计量资料的整理(1）求全l:i,会ll:t是资料中最大值与最小值之差，R =x-,-x”n (2）确定组数和组距一般以达到既简化资料又不影响反映资料的规律性为原则组距是指每组的最大值与最小值之差，记为i。i全距组数又称为极差，记为R，即3 I 17 生物统计复习总结(3）确定组fR和组中值通常选取第一组的组中值接近或等于资料中的最小观测值组中值（组下限组上限）/2组下限组距2组上限组距2(4）归组、划线计数、作次数分布表（上fR不在内原则5.资料的集中程度描述一一平均数(1）算术平均数：资料中各观测值的总和除以观测值的个数所得的商，简称平均数或均敛，样本平均数记为f，

12、其计算公式为王：三xa计算方法：直接法、加权法b基本性质样本中各个观测值与其平均数之差的总和等于零，简述为离均差之和为零，即三（勾0样本中各个观测值与其平均数之差的平方的总和小于各个观测值与不等于其平均数的任意数值之差的乎方和，简述为离均差平方和最小c.总体平均数用表示。包含N个个体的有限总体的平均数的计算公式为(2）中位数记为M,(3）众数记为M.=irz (4）几何平均数：11个观测值相乘之积开n次方所得的n次根，记为G。计算公式如下G = .jx万r（山.Xn）主在计算生长率、进行生产动态分析等，用几何平均数更具代表性(5）调和平均数：资料中n个观测值倒数的算术平均数的伤j敛，记为H，即

13、1 1 H = . =.,.,. 主（主主+t）江去用于反映研究对象不同阶段的平均速率等(6）就同一资料而言，算术平均数几何平均数调和平均数6.资料的离散性描述一一变异数(1）极差(2）标准差a离均差平方和SS三（i勾2i= l b样本方差，又称均方，记为MS或s玄，即MS=s2 二（i-i)2 4 I 17 生物统计复习总结总体方差记为（）2，对于包含N个个体的有限总体，（）2的计算公式为2 = 古r (x; -)2 c样本标准差，记为s，即句，、J王一1一仅、一一？“一flllly - ed 可筒写为：Z2二CI）2s = J一一一气1 d标准差计算方法：直接法和加权法e.离均差平方和的自

14、由度简称自由度记为df。其统计学意义是指在计算离均差乎方和时，能自由变动的离均差的个数。一般，在计算离均差平方和是，若约束条件为k个，则其自由度df=n-k(3）变异系数样本标准差与样本平均数的比值，以百分数表示，记为CV，计算公式为% nu nu 咽A s = V FL 三、常用概率分布1.事件(1）基本事件：不能再分的事件(2）复合事件：有若干个基本事件组合而成的事件(3）必然事件：在一定条件下进行一项实验，必然会发生的事件，用。表示(4）不可能事件：在一定条件下进行一项实验，不可能发生的事件，用表示2.小概率事件不可能性原理：小概率事件不是不可能事件，但在一次试验中发生的可能性很小，不发

15、生的可能性很大，以至于实际上可以看成是不可能发生的。在统计学上，把尘盘至牛在二主主韭中看成是实际不可能发生的事件成为小概率事件不可能性原理，亦称为小概率原理。3.随机变量(1）离散型随机变量：如果表示实验结果的变量x的可能取值之多为可列个，且以各种确定的概率取这些不同的值，贝称变量x为离散型随机变量。(2）连续型随机变量：如果表示实验结果的变量x的可能取值为某范围内的数值，且变量x在其取值范围内的任一区间内取值的概率是确定的，则称变量x为连续型随机变量。4.二项分布xB(n, p) (1）二项总体：非此即彼的两项构成的总体(2）二项分布的定义若随机变量x所有可能的取值为零和正整数：0.1. 2

16、，n，且P（：均凡（k)= Cf:pkqn-k (k=O, 1, 2，其中，p)O、q)O、p+q=l，则称随机变量x服从参数为n和p的二项分布，记为xB (n. p）。s I 17 生物统计复习总结(3）二项分布的特征a当p较小且n不大时，分布是偏倚的。但随着n的增大，分布逐渐趋于对称。b当p趋于0.5时，分布趋于对称。c.对于固定的n及p，当k增大时，Pn(k）先随之增大并达到其极大值，以后又减(4）二项分布的应用条件a各个观测单位只有王相对立的两种观察结果，属于二项分布资料。b已知出现某一结果的概率为p，其对立结果的概率则为1-p=q，要求p是从大量观察中获得的比较稳定的数值。c. n

17、个观测单位的观测结果相互独立，即每个观察单位的观察结果不影响其他观测单位的观察结果。(5）二项分布的平均数与标准差a当实验结果以事件A发生的次数k表示时 = np 丙b当实验结果以事件A发生的频率k/n表示对/pq 冉p，p=1n Op也称为总体百分率标准误，当p未知时，常以样本百分率p估计，此时公式改为5.正态分布xN(,02) (1）正态分布特征a正态分布密度曲线是单峰、对称的“悬钟”形曲线，对称轴为x=。b概率分布密度函数f(x）在内处达到l极大，极大值f（）志。c.概率分布密度函数f(x）是非负函数，以x轴为渐近线，分布从至。d分布密度曲线在x=士。处各有一个拐点，曲线在（oo,-o）

18、和（o,十）区间内是下凸的，在-0 。区间是上凸的。e.正态分布有两个参敛，平均数和标准差。是位置参数，。是变异度参敛。f分布密度曲线与核轴构成的曲边三角形的面积为1.(2）标准正态分布：平均数 =O、方差。2=1的正态分布，记为uN(0, 1 ）。u称为标准正态变量或标准正态离差对于任何一个服从正态分布N(,o）的变量x，都可以通过标准化变换(3）概率计算a标准正态分布： U=- P(uu,) （u,), P(uu，）（u,) , P (u,uu,) （u，）（u,) b一般正态分布：令U 生丘，将一般正态分布转换成标准正态分布在进行计算。6 I 17 生物统计复习总结c.两尾概率：随机变

19、量x在区问（ - k O , +k O ）外取值的概率P(x +k O）为两尾概率，记为0，即P(x ko)=o. 6.样本平均数抽样分布(1）句是样本平均数抽样总体的标准差，简称标准误，标准误表示乎均数抽样误差的大小。样本平均数抽样总体的两个参数的和王与总体的两个参数和有如下关系：陆，在(2）若随机变量xN( , o ) : x, b，x.是由x总体得来的随机样本，则样本平均数i号的概率分布也是正态分布，旦的，句元，即fN（，号）。(3）中心极限定理若随机变量x服从平均数是、方差是02的分布（不是正态分布）；Xi, X雪，x.是由此总体得来的随机样本，则当n相当大时，样本平均数i孕的概率分布

20、逼近正态分布N（，马。1.标准误：平均数抽样总体的标准差，二二的大小反映样本平均数f抽样误差x d页的大小，即精确性的高低。事标准误与标准差有何联系与区别？a.样本标准差s与样本标准误句是既有联系又有区别的两个统计数。联系是：与元。b区别：样本标准差s是表示样本中各个观测值变异程度大小的统计数，它的大小表示样本平均数f对该样本代表性的强弱；样本标准误句是平均数f的标准差，它是样本平均数f抽样误差的估计值，它的大小表示样本平均数f精确性高低。8. t分布计算公式为t -：.二丘Sx 随机变量tnil从自由度df=n-1的t分布。t的取值范围是（，当时，t分布与标准正态分布完全一致9. x2分布

21、设有一个平均数为、方差为2的正态总体。现从此总体中独立随机抽取n个随机变量XI, X2，X饵，并求出其标准正态离差，这n个相互独立的标准正态离差的平方和记为x2，它服从自由度为n的x2分布，记为主三i的2（n)2 7 I 17 生物统计复习总结10. F分布若乎均数、方差2的正态总体中随机抽取样本容量为n，和内的两个样本，得到两个样本方差（均方）ss乙兰构成一个新的随机变量，记为几即S, 2 F S22 服从df产n,-1、df2=n2寸的F分布（公式中s/s,2计算式需注意四、假设检验（又称显著性检验1.假设检验的目的：判断实验的表面差异（i 。）除包含试验误差5外是否还包含实验的真实差异（

22、。）。2.假设检验步骤( 1）提出假设H o: = 。（无效假设或零假设比：。（备择假设）(2）计算概率根据假设检验的类型选择相应的公式计算出需要的参敛，与查表得出临界值进行比较得出无效假设成立的概率。(3）统计推断根据小概率事件实际不可能性原理作出无效假设否定与否的推断。3.显著水平：用来推断无效假设否定与否的概率标准称为显著水平，记为口。（在农学、生物学试验研究中常取a=O. 05，称为5%显著水平；或a=O. 01，称为1%显著水或极显著水平区问（oo,-ua和u，）称为口水平土无效假设”。：。的否定域，区间（Ua,Ua）称为口水平上无效假设Ho: = 。的接受域。4.两类错误I型错误又

23、称。错误，就是把非真实差异错判为真实差异。犯I型错误的可能性不超过所选用的显著水平。II型错误又称自错误，就是把其实差异错判为非其实差异。犯II型错误的可能性记为白，。随着真实差异的减小或实验误差的增大而增大假设怆验的两类错误检验结果客观实际否定H,来否定H。比成立I型错误（(I ) 推断正确（1H，不成立推断正确（1-ll) II型错误串）5.两尾检验与一尾检验例如，一尾u检验的Uo.o，两尾u检验的Uo.10= 1. 64，一尾u检验的Uo.01两尾u检验的Uo.02=2.33，但两尾u检验的Uo.os=l.96，两尾u检验的u队o,=2.58 6.单个样本的假设检验( 1）总体方差2已知

24、或虽未知但实验样本为大样本（n30）时用u检验法(2）总体方差2未知，且样本为小样本则用t检验8 I 17 生物统计复习总结(3）检验过程（以t检验为例提出假设日。；H,: * 。计算t计算公式为s t x-, =- df二n-1，主.：2.:x n s-=-= ,In 主主立” (n - 1Sx 统计推断根据df值查附表3，得l临界t值乌响1)和马川”，通过比较t与，1面界t值，得出Ho成立的概率，最后做出判断7.非配对设计两个样本平均数的假设检验(1）非配对设计：将试验单位完全随机地分为两组，然后再随机地对两组分别实施两个不同处理的实验设计。(2）两个样本的总体方差未知，且为小非本，当两

25、个方差相等时采用t检验，当两个方差不相等时采用近似t检验。(3）检验过程先算出两个样本的方差，并进行F检验（注意分子为数值大的均方若检验结果为两个均方相等则采用t检验，相关计算公式如下t主王三 df=n,+n,-2. = Jn1 Z12 去侄儿）2+ I马2去G勺）21 1 (ni -1) + （问1)(ni）当n产n,=n时s.2 s,2 r + _:_ = / S,; 2 + S,; 2 n n、j飞、x,-xz 若检验结果为两样本均方不相等则采用近似t检验，相关计算公式如下t其中，3区，x,一s.,-xz , dt = ;r-:-仨7，怀勾一at, rtfz 2 。.L k 一主.：n

26、1 - 2 2 2 2 Sx咽+ Sx, S1 - S2 L一一12 * Sx,-xz为样本均数差数标准误9 I 17 s1 2 , s22 一一n,tz 生物统计复习总结8.配对设计两个样本平均数的假设检验(I）配对设计：先根据配对的要求将实验单位两两配对，然后将配成对子的两个试验单位随机实施某一处理的实验设计。(2）检验过程中的相关公式如下：t二，d忏1, Sif 美L d2-;a: d)2 ”(”-1) 其中cl于；呐差数标准误；n为配对的对子数9.单个样本百分率的假设检验(1）样本百分率乡，所属二项总体百分率p，总体百分率Po，合并样本百分率F(2）相关计算公式如下：u斗，句J平fI尹

27、其中，句为样本百分率标准误10.两个样本百分率的假设检验相关计算公式如下U 栓，s币1-i2= J阿哇去）其中，P1击，比去为两个样本百分率；S币1-i2为样本百分率标准误11.百分数资料假设检验的连续矫正(1）单个样本。.5Ip -po I U,=- 苦(2）两个样本12.参数的区间估计(I）区间估计：在一定概率保证下给出总体参数的可能范围，所给出的可能范围称为置信区间，给出的概率保证称为置信度或置信概率。(2）置信区间公式为L1=i-ts；主二三i+ts; = L2 其中，tS王称为置信半径；L1=i凡与与L2=i+t与分别称为置信下fR与置信上Hl；置信上、下fR之差2tS；称为置信距(

28、3）二项总体百分率的置信区间相关公式如下，其中SfJ为样本百分率标准误p -tasp 三p + tasp，与J罕10 I 17 生物统计复习总结五、方差分析的基本原理与步骤1.方差分析法：一种在若干能相互比较的资料组中，把产生变异的原因加以区分开来的方法与技术。2.方差分析的前提或基本假定：（单因素完全随机设计实驳资料的数学模型可归纳为效应的可加性、分布的正态性、方差的一致性3.平方和与自由度的分解(I）总平方和的分解分解式如下：SST二三X;j2-C 凡辽X;.2-C 其中，C手称为矫正数；SSr为总平方和；SS，处理问平方和；ss.误差ln 乎方和。(2）总自由度的分解分解式如下：dft

29、= k -1 , df. = dfr -dft 处理问均方和误差均方计算公式如下：_ SS. _ SS, _ SS. MS . = s铲= _;_ MS, = S, = _; MS. = s. = _:. dfr 也也dft df. dfr = kn-1, (3）总均方、4. F检验一尾检验(1）提出假设机。：严，比：各，不会相等，或Ho：2= 0, H : 2 * 0 (2）计算公式T与M-Mm F (3）作出方差分析表如下：l馅界F值F（ctf,ctt,) F F 资料方差分析表自由度df均方MSdf意MS,df, MS, df言变异来源处理问误差总变异5.多重比较( 1）多重比较：多个处

30、理平均数的两两比较(2）最小显著差数法（LSD法计算公式如下（0取0.05和0.01 )平方和SSSS, ss. SS l2MS, 口Dt（df,)S叭，均为丁二11 I 17 生物统计复习总结(3）最小显著极差法（LSR法）根据极差范围内所包含的处理数（称为秩次距k的不同采用检验尺度，以弥补LSD法的不足。q法（复极差法，SNK法，NK法计算公式为IMS. 口凡，k=q（df.,k）勺，与.I二SSR法（Duncan法，新复极差法）计算公式为LSR，k =SSR （df.,k) x (4）三种多重比较方法的检验尺度关系：LSD法运SSR法运q法当秩次距k=2时取等号；秩次距k注3时，取小于号

31、(5）多重比较结果表示法标记符号法也称三角形法，根据多重比较结果在平均数多重比较表中各个差数的右上方标记符号“ns”（或不标记符号表示该差数不显著、标记“”表示该差数显著、标记“”表示该差数极显著。优点是简便直观，缺点是占用篇幅较大。标记字母法（以显著水平。0.05为例a) 将各处理平均数由大到小、自上而下排列b) 在最大平均数右侧标a，以最大平均数为参考目标自上而下逐个比较，差异不显著就在该平均数右侧继续标a，直到有显著差异，则在这个平均数右侧标bc) 以标有b的平均数为参考目标向上逐个比较，差异不显著就在该平均数右例标b，直到有显辛苦差异就不用在这个平均数右侧标记字母d) 以标有b的平均数

32、里最大的平均数为参考目标，与没有标记任何字母的平均数自上而下逐个比较，差异不显著就在该乎均数右侧继续标b，直到有显著差异，则在这个平均数右侧标ce) 以标有c的平均数为参考目标向上逐个比较，差异不显著就在该平均数右侧标c，直到有显著差异就不用再这个平均数右侧标记字母f) 以此类推，直至最小的平均数右侧被标记菜一字母，若该字母是前面未出现的新字母，则还须用最小的平均数与上方比它大的平均数逐个比较，凡是差异不显著的均在其右侧标记该字母，直至出现显著差异为止6.方差分析的一般步骤1）计算各项平方和、自由度、均方2）列出方差分析表，进行F检验3）选取合适的多重比较方法，计算需要的参数4）列出平均数的多

33、重比较表，并用字母标记法表示多重比较结果5）根据多重比较结果结合题目要求进行推断分析7.方差分析注意事项1) 不同类型的方差分析，计算公式略有不同，但都是由基本公式变换而来2) 单因素完全随机设计试验资料的方差分析的多重比较方法一般选用SSR法：两因素完全随机设计试验资料方差分析的单个因素多重比较一般选用q法，而交互作用的多重比较一般选用LSD法。12 I 17 生物统计复习总结3) 当查附表时，若不能直接查到临界值，采用线性插值求临界值，计算公式为（以计算l脑界F值为例F 0.01(2,45) = F o.01(2,42) -3(F 0.01(2,42) -F 0.01(2,S0)/8 8.

34、简单效应：甲因素的某一水平与乙因素的某两个水平组成的两个水平组合乎均数之差称为乙因素在甲因素某一水平上的简单效应。9.主效应：某因素两个水平平均数之差称为该因素的主效应。10.互作效应：指由于两个试验因素的交互作用产生的效应。1 1.系统分组多层分组：也称套设计、窝设计，将A因素分为a个水平，然后再A因素的每个水平下将B因素分为b个水平，再在日因素的每个水平下将C因素分为c个水平这样得到各因素水平组合的方式称为系统分组或多层分组。12.方差分量：方差分量是指方差的组成成分。13.数据转换(1）常用数据转换方法对数转换，反正弦转换(2）反正弦转换适用于服从二项分布的百分率资料。转换公式为x= s

35、in- 1 fp。一般，若服从二项分布的百分率资料的百分率为30%70%，因资料的分布接近于正态分布，数据转换与否对分析的影响不大；如果服从二项分布的百分率资料的百分率中有小于30%或大于70%的百分率，则应对资料中的全部百分率进行反正弦转换。六、方差分析的实际应用第五章介绍了方差分析的基本原理与步骤以及完全随机设计试验资料的方差分析。本意主要介绍随机区组、裂区设计等实验资料的方差分析，具体方法和第五章类似。七、x2检验1.统计数x2的意义相关公式为：x2 步价已）2一 Ei 其中，k为属性类别敛，oi与Ei分别为第i属性类别的实际观测次数与理论观测次数。2. x2的连续性矫正由于由间断型次数

36、资料根据上面公式算出的x2值均有偏大的趋势，尤其是当df=l时，偏差较大，需要进行连续性矫正。而当df注2时则不用进行连续性校正，但要求各属性类别的理论次数不小子5。如果某一属性类别的理论次数小子5，则应把该乡是别与其相邻的一个或几个属性炎别合并，豆至合并属性类别后的理论次数大于5为止。矫正公式如下：，夺（IOi - Ei I - 0.5)2 Xe= J 缸瓦13 I 17 生物统计复习总结3.适合性检验(I）适合性检验：根据属性类别的次数资料判断属性关别分配是否符合已知属性类别分配理论或学说的假设检验。(2）检验方法a）提出假设Ho：某属性类别的次数资料判断属性关别分配符合已知属性类别分配理

37、论或学说H：菜属性类别的次数资料判断属性类别分配不符合已知属性类别分配理论或学说b）计算理论次数c）计算x2值根据上面的公式或它的变形公式计算x2或Xc2值d）统计推断判断方法和前面类似(3）当属性类别数大于2时，可将公式简化为1 o/ _ x 于组队上其中，oi为第i组的实际观测次数；Pi为第i组的理论比例；t为总观测次数，r= Ioi。4.独立性检验(I）独立性检验：根据某一质量性状的各个属性类别与某一因素的各个水平利用统计次数法得来的次数资料判断某一质量性状的各个属性类别的构成比与某一因素是否有关的假设检验。(2）检验方法a）提出假设Ho：某一质量性状的各个属性类别的构成比与某一因素有关

38、H：某一质量性状的各个属性类别的构成比与某一因素无关b）计算理论次数c）计算x2值根据上面的公式或它的变形公式计算x2或Xc2值d）统计推断(3）不同情况下独立检验的简化公式a) 22列联表Xc2 步（I011022 乌021I -j)2r . c但T2T2根据上述公式计算Xe2，不需要先算理论次敛，直接利用实际观测次数oij列、行合计T.1 、T.2、T. 1、T.2和全部实际观测次数总合计计算，计算工作量小，累计舍入误差也小b) 2c列联表c) rc列联表x2 二二）01;凡2一，一T1.凡. r.j r. 0 ,.2 r.2-.i市：14 I 17 生物统计复习总结八、直线回归与相关分析

39、1.直线回归方程的建立(1）直线回归的数学模型Y； jlx; + E; 其中，自变量x为可观测一般变量；依变量y为可观测随机变量，随x而变，受随机误差影响；为总体回归截距；。为总体回归系数：句为相互独立且服从N(0，勺的随机变量，即误差(2）直线回归方程y= a + bx Ixy；心y)IC切到SPxvb = “ = 一二丘，a=y -bi Z2 - hCix)2 IC月2s乌s三（ :i)(y-y) 凡三（ :x)2 三2 （三）2S乌三（y -y)2= LY2 -(Iy)2 其中，s为自变量x的离均差与依变量y的离均差的乘积和，简称乘积和；SSx是自变量x的离均差平方和；SSy是y的总变异

40、，称为y的总平方和。样本回归系数b是回归直线的斜率，表示x改变一个单位，y平均改变的数量将上式中a的值代入直线回归方程中，得到y对x的中心化形式的直线回归方程y = y -b:i + b y + b(x -:i(3）离回归标准误：离回归均方的乎方根（离回归标准误大小表示回归方程偏离皮大小，记为Syx，即2.直线回归的假设检验(1) t检验H o: = 0 H : 启* 0 计算公式Syx = I (y -.Y)2 2 b S,w t = -, df = n - 2 , Si, = .兰主Sb , / SS 其中，Sb回归系数标准误15 I 17 (2) F检验比：0计算公式生物统计复习总结H.

41、,: * 0 SSR MSn 万亡SSn F ；：严号手一？二一dfR = 1 dfr 2 川内新庐写SP.王.SP3. SS，、一二L.ss_ = ss . 一二L民SS况f歹SS其中，SSR表示由于y与x之间存在直线关系所引起的y的变异程度，称为回归平方和；ssr表示除y与x之问存在的直线关系以外的原因（包括随机误差所引起的y的变异程度，称为离回归平方和；MSR表示回归均方；MS表示离回归均方；dfR表示回归自由度，和自变量个数相等；dfr离回归自由度。3.直线相关分析(I）决定系数比值E豆1主称为x对y的决定系数，记为r(O三二r运1），即L(y-y) r2 坐立主二生旦旦旦旦b b I

42、(y -y)2 SSXSSy ssx SSy 其中，byx表示以y为依变量、x为自变量的回归系数；bxy表示以为x依变量、y为自变量的回归系数；决定系数的大小表示直线回归方程的拟合度的高低，或者说表示直线回归方程预测的可靠程度的高低。(2）相关系数表示相关变量x与y直线相关的程度和性质的统计敛，记为r(-1z二r主二1）。计算公式为向pPv-a:）CIY) 一一二r -xy -, 再写Jrx2守主Iy2 守主lrO，相关变量x与y同向增减，称为相关变量x与y正相关。(3）相关系数的假设检验(Ho: p = 0 比：pc!=OF检验计算公式为F = r2 df1 = 1 df2 2 (1 -r2）（ 2) t检验计算公式为r t一，df= Il -2, Sr= s . r 其中，Sr为相关系数标准误16 I 17 (1 -r2) （ 2) 生物统计复习总结4.直线回归计算题一般解题步骤1）作做点图2) 计算王、y,SSx、SSy、SPxy进而计算出回归截a、回归系数b的值，建立直线回归方程3）计算直线回归方程的离回归标准误Syx4）对建立的直线回归方程进行假设检验（使用直线回归的假设检验或相关系数的假设检验中的一种方法进行检验即可17 I 17

展开阅读全文

生物统计复习总结

最新文档