试验资料的整理与特征数

资源描述

《试验资料的整理与特征数》由会员分享，可在线阅读，更多相关《试验资料的整理与特征数（11页珍藏版）》请在金锄头文库上搜索。

1、第四章试验资料的整理与特征数试验中通过观察、测量获得大量的数据，如何从这些数据中获得有价值的信息，就要对其进行初步整理，找出内在规律、特征，这对于做好试验结果统计分析有重要意义。第一节常用的统计术语一、资料、观察值、变数试验中需要对试验的生物体进行一系列的观察和记载。经过调查和记载得到该生物体各种性状的大量的数据，这些数据称为资料。由于同一生物各不同个体在相同性状上有差异，表现出变异。例如，调查某地某一小麦品种100 个麦穗的每穗小穗数，由于受许多偶然因素的影响，可能每穗小穗数不一样。“每一个体的某一性状的测定数值叫观察值。组成总体或样本的一群观察值的集合称为变数。由于个体间属

2、性相同，但受随机影响造成观察值或表现上的变异，因此变数又称为随机变数。二、总体与样本总体指的是具有共同性质的个体所组成的集团。总体又分为有限总体和无限总体。有限总体指的是总体中包含的个体数是有限的，可以计数。无限总体指的是总体中包含的个体是无限的，数不清的，只是表示包括的个体数大到无限。例如小麦品种冀麦23 的总体，指的是冀麦 23 这一品种在多年多地的种植中所有的个体，它是无法计数的，这一总体称为无限总体。对某一块地的小麦株数，虽然多但是可数，这样的总体称为有限总体。统计上有关取样误差的计算大多数假设来自无限总体。用N表示总体容量。样本指的是从总体内抽样取出来的若干个个体，或

3、者说是总体的一部分个体。样本是用来研究总体的。生产试验研究中常用样本的事实来反映总体的情况，因为总体太大，不可能也不允许我们对其逐个研究。例如，对于某一小麦品种的穗分化情况调查，我们不能把这一品种的每一株都拔来放在显微镜下观察，同时也不允许这样做。因此，一般用样本来研究总体。用 n 表示样本容量。样本有大有小。一般n三30为大样本，nV30为小样本。三、参数与统计数由总体的全部观察值计算得到的总体特征数为参数，它是该总体真正的值，是固定不变的。由样本观察值计算得到的样本特征数为统计数，它因样本不同常有变动。它是估计值，根据样本不同而不同。例如水稻品种南优2号的株高，其总体平均值为

4、95cm，它是一个真值，为参数，而从中抽取出来的样本的平均数为91.4cm，它是估计值，为统计数。因为总体参数不易获得，我们通常用统计数来估计参数，一般的参数用希腊字母表示，统计数用拉丁字母表示。如平均数，总体平均数用M表示，样本平均数用X表示，用X估计p。第二节资料的整理一、试验资料的类别试验中观察记载所得数据，因所研究的性状不同而有不同的性质，一般可以分为数量性状资料和质量性状资料两大类。（一）数量性状资料指能够以测量、称量、度量或计数的方法所获得的资料，这类资料有两种。1、连续性变数资料指由称量、度量或测量等方法得到的资料，各个观察值不限于整数，在两个相邻数值之间，可以有

5、微量差异。例如树高、株高、产量、千粒重等。2、非连续性变数资料也称间断性变数资料，指用计数的方法得到的资料，各个观察值必须以整数表示，如株数、籽粒数、叶片数等。（二）质量性状资料指能观察不能测量的性状，又称属性性状，如花色、叶色、品种的抗病性等。从这类性状获得资料，一般可采用两种方法统计。1、统计次数的方法在一定的总体内，统计具有某性状的个体数目及具有不同性状的个体数目，按类别统计其次数或相对次数。例如，在200株豌豆中，有140株紫花占 70%， 60 株白花占30%，这类资料称为次数资料。2、给予每类性状相当数量的方法例如小麦籽粒颜色有白有红，可令白色为 0，红色为 1，再

6、如红星苹果果实的色泽，按着色面积的大小分5、4、3、2、1 级。这类资料可以与间断性变数资料一样处理。二、资料的整理田间试验或调查研究得到的资料，未经整理之前是杂乱无章的，很难找出其规律。所以对于资料处理的第一步是进行整理，把观察值的数据按大小加以整理后，便可以看到资料的集中和变异情况，对资料有一个初步的认识。资料的整理有两种常用方法。（一）次数分布表将观察值按大小进行分组统计次数，编制成表格形式即为次数分布表。次数分布表因资料的类别不同而有差异。1、非连续性变数资料的整理现以某种小麦品种的每穗小穗数为例来说明这类资料的整理方法。随机抽取100 个麦穗，计数每个麦穗的小穗数，其

7、资料如表4-1。上述资料是非连续性变数资料，每穗小穗数的变动范围在1520之间，把所有的观察值按每穗小穗数多少加以归类，共分6 组，组与组之间相差1个小穗，这一小穗称为组距。每一个观察值按其大小归到相应的组内，每增加1个画一横道，一般用“正”字表示。用“f” 表示每组出现的次数。这样就可得到表4-2 形式的次数分布表。表41 100个麦穗的每穗小穗数1815171916 v15201819171718171618201917161817161719181817 -1717181815161818181720191817191517171716171818181919171917181618

8、1717191616171717161716171918181919201516191817181019171817171615161817181617191917表4-2100个麦穂每穗小穂数的次数分布表每穗小穗数划记号数次数（/）15正一616正正正1517正正正正正正T3218正正止正正2519正正正T1720正5总次数（M）100从表 4-2 中看出，原本杂乱无章的资料，经初步整理后，就可以看出其大概情况，如每穗小穗数以17个为最多，以 20、15 个为最少。经过整理的资料也有利于进一步分析。但是有些非连续性变数资料，观察值较多，变异幅度大，不可能如上例那样按每一观察值归一组的方

9、法进行整理。例如研究某早稻品种的每穗粒数，共观察 200 个稻穗，每穗粒数变异幅度为2783粒，相差56 粒。如果以每一观察值为一组，则组数太多（57组），其规律性显示不出来。如每组包含若干粒数的幅度，例如以 5 粒为一组，则可以使组数适当减少。经初步整理后分为12 组，资料的规律性较明显，如表4-3。从表4-3看到，约半数稻穗的每穗粒数在4660粒间，大部分稻穗的每穗粒数在41 70粒之间，但也有少数稻穗少到2630粒，多到8185粒。2、连续性变数资料的整理连续性变数资料不可能按间断性变数的归组方法来进行整理，而必须先确定组数、组距、组限，然后按大小来归组。现以表4-4的100行

10、（行长2m）大豆产量资料为例，说明其整理方法。表4-3 200个稻穗每穗粒数的次数分布表每穗粒数次数（/）26-30131-35336-401041-452146-503251-554156-603861-652566-701671-75876-80r381-852合计200表4-4 100行（行长2m）大豆产（单位：g）7072135148-6814790185959310964587940118841759913215410077346816010887859512310510755457310910510113294946215661847712313540L0779131726610

11、3104141981009078445058106761079210162152978054981041183014911513610081130987425125142765673432282117116118139 求全距。观察值中最大值与最小值的差数即为全距，要确定组数必须先求出全距。也是整个样本变异幅度，一般用R表示。从表4-4中看出，最大的观察值为185g,最小值为 22g，全距为 185-22=163g0 确定组数和组距。根据全距分为若干组，每组距离相等，组与组之间的距离称为组距。组数和组距是相互决定的，组距小，组数多，反之组距大，组数少。在整理资料时，既要保持真实面目，又要

12、使资料简化，认识其中的规律。在确定组数时应考虑观察值个数的多少，极差的大小，以及是否便于计算，能否反映出资料的真实面目等方面。一般样本适宜的分组数如表4-5所示。组数确定后，再决定组距。组距二全距组数。表4-4 100行（行长2m）的大豆产量的样本容量为100，假定分为11组，则组距应为163/11=14.8g为方便起见，可用15g 作为组距。样本容量适宜分组数5051010081620010 20300122450015 301 00020 40 确定组限和组中值(中点值)。每组应有明确的界限，才能使观察值对号入座。组中值最好为整数，或与观察值位数相同，便于计算。一般第一组组中值应以

13、接近最小观察值为好，其余的依次而定。这样避免第一组次数过多，不能正确反映资料的规律。组限要明确，最好比原始资料的数字多一位小数，这样可使观察值归组时不致含糊不清。上下限为组中值1/2 组距。本例第一组组中值定为20g,它接近资料中最小的观察值。第二组的组中值为20+ 15=35g。第三组为50g，余类推。每组有两个组限，数值小的为下限，大的为上限。本例中第一组的下限为20-15/2=12.5(g),上限为20+15/2=27.5(g),所以第一组的组限为12.527.5g。第二组和以后各组的组限可以以同样的方法算出。原始资料的归类。按原始资料中各个观察值的次序，把逐个数值归于各组。一般

14、用“正” 划记数。待全部观察值归组后，即可求出各组次数，制成次数分布表，如本例将表4-4 资料整理后制成表 4-6。表4-6100行大豆产的次数分布表组限组中值划记号数次数12.527.520T227.5-42.555讦442.5-57.550正T757.572.565正正丁1272.587.580正正正一1687.5-102.595正正正IF19102.5-117.5110正正正15117.5-132.5125正正10132.5-147.5140正T7147.5162.5155正一6162.5-177.51701177.5-192.51851合计1003、质量性状变数资料的整理质量性状资料可用类似次数分布的方法来整理，整理前，把资料按各种质量性状分类。分类数等于组数，

展开阅读全文