第三章次数分布和平均数、变异数

资源描述

《第三章次数分布和平均数、变异数》由会员分享，可在线阅读，更多相关《第三章次数分布和平均数、变异数（16页珍藏版）》请在金锄头文库上搜索。

1、第三章次数分布和平均数、变异数我们在田间试验和调查中，能够获得大量的原始数据，对研究对象的某些特征或性状进行观察记载得到的数字资料，我们称为数据。这些数据在未整理之前，一般是零乱的、孤立的、杂乱无章的数字，我们就需要对这些数据进行整理分析使其归类，进而系统化、条理化、规律化，例如列成次数分布表、绘出次数分布图，计算出平均数、变异数等特征数。第一节总体及其样本一、总体与样本(一) 概念1、数据：指在生物学试验或调查中，对研究对象的某些特征或性状进行观察记载得到的数字资料。2、总体(population):指具有共同性质的个体所组成的集团(研究对象的全体) 或者说整个研究对象中每一个

2、个体某一变数观测值的集合。如:一个连续多年、多点种植的品种，所有属于这个品种的个体集合在一起称为该品种的总体。个体(individual):构成总体的每个成员。总体单位:总体中的每一个个体。总体容量：有限总体中包含的个体数，用N表示。3、样本(sample)：从研究的总体中抽出一部分有代表性的个体，这些个体的集合叫样本。样本单位：指构成样本的每一个个体样本容量：指样本中包含的个体数。用n表示研究豫玉22号玉米品种的株高，那么所有豫玉22号玉米品种的株高数据集合起来就构成了总体，每一株豫玉22号玉米的株高就称为一个个体，从中抽出2001 年度种植在郑州科教园区内的 100 株进行调查，这

3、100 株就构成了一个样本，样本容量 n=100。(二) 无限总体与有限总体总体根据个体数的多少又分为：有限总体和无限总体：1、无限总体(infinite population):是指个体极多或无限多的总体。比如，研究豫玉22号的总体，是指豫玉22号这一品种在多年、多点种植的品种的所有个体，谁也数不清有多少个单株，那么该总体就是一个无限总体。2、有限总体（finite population）:是指总体的个体数是有限的，属于无限总体的一部分。比如，调查2001级农学1、 2班同学的身高，那么这一总体的个体数是有限的，因此该总体就是有限总体。（三）大样本和小样本样本根据样本容量的多少分

4、为:大样本和小样本大样本指:样本容量大于 30 的样本小样本指:样本容量小于或等于 30 的样本之所以区分大样本和小样本是因为其统计分析方法有差异，以后还要讲到。在农业生产实践中，一个样本可以是一个植株或几个植株，也可以是一次试验，要视具体情况而定。二、变数和变量（一）概念1、变数（variable）:研究的性状。例如:研究的对象是小麦，那么株高、粒重、穗长、穗粒数、产量等数据都是具有变异特点的性状，这些性状都称为变数。3、变量（variate）：变数中的每一个具体值就是一个变量或观察值。变数用大写英文安母Y来表示。对n个个体就其Y变数进行观测，可得到n个变量或观察值。这n个变量或

5、观察值可用Y1、Y2、Y3、.、Yn来表示。例如测量 5 个人的身高，分别为 167cm、170cm、178cm、171cm、180cm，可记作 Y1=167cm， Y2=170cm，.，n=5。常用Yi代表该变数的某个变量或观察值。（二）变数的类型变数分为:间断性变数和连续性变数:1、间断性变数（不连续性变数）:指用计数方法得到的数据。如:小麦的穗数、穗粒数、每棵棉花棉铃虫的头数等。各个观察值只能取0和正整数，在两个相邻的整数间不允许有带小数的数值存在。2、连续性变数是指:指称量、度量或测量的方法得到的数据。如:玉米的株高、叶片中叶绿素的含量、烟田每亩的产量等。其各个观察值不限于整数

6、，在一定范围内可以取任何值，在两个数值之间可以有小数存在。三、参数和统计数随机样本的统计数是总体参数的无偏估计值，统计学上的大部分内容是研究总体与样本之间的关系，即参数与统计数的关系。1、参数(parameter)：由总体的全部观察值算得的总体的特征数，称为参数。如：总体的平均数用U表示总体的方差用6 2表示总体的标准差用6表示事实上参数只能估计而不能确切计算，因为总体一般都很大，有以甚至不可能得到，所以总体参数一般不能计算出来。为研究总体的特征，可以从总体中抽取随机样本。2、统计数(statistic)：由样本的全部观察值计算出来的样本的特征数，称作统计数。如：样本的平均数用：X

7、表示样本的方差用：S2表示样本的标准差用： S 表示统计上，参数一般用希腊字母表示，统计数一般用拉丁字母表示。统计数是相应参数的无偏估计。当一个统计数的数学期望等于相应总体参数值：即如果所有可能样本的某一统计数的平均值等于相应总体参数值时，则称此统计数为总体相应参数的无偏估计。第一节概念较多，同学们要理解每个名词的含义，了解了基本概念，对以后章节的学习会大有帮助，以下通过一个例子来测验同学们的掌握程度。例：调查一块麦田中豫麦 2 号小麦的株高，从中随机抽取了 10 株进行调查，得到数值为 73、85、85、76、89、82、86、78、76、89(单位：cm)。试问：该资料中数

8、据、总体、样本、变数、变量各指的是什么？是无限总体还是有限总体？是大样本还是小样本？ n二？属于连续性变数还是间断性变数？ Y2、Y7各为多少？第二节次数分布一、试验资料的性质与分类试验中观察记载所得的数据因其研究的性状、特性不同而具有不同的性质，一般可分为数量性状资料和质量性状资料。1、数量性状：指可以通过计数和量测的性状。如小麦基本苗数、穗粒数、株高、粒重等。其所得的变数分为间断性变数和连续性变数。数量性状遗传上受微效多基因控制，研究数量性状资料一般都是按研究连续性变数的方法进行。2、质量性状：指可以通过观察而不能量测的性状，又称属性性状，如花药、子粒的颜色、芒的有无等

9、。数量性状资料可以通过两种方法得到：统计次数法和给分法。二、次数分布表（一）数据的分组数据的分组就是将试验或调查得到的变数资料，按照一定的数值距离分成若干部分，以便观察数据的分布趋势，了解研究对象的变化规律。按照变数的性质分组有两种，一种是组限式分组；另一种是单项式分组，下面分别讲述。1、单项式分组单式分组主要应用于变异范围比较小的间断性变数资料和质量性状资料的分组，对间断性变数来说，有几个数值就分几组；对于质量性状来说，有几个性状就分几组。不需要人为地确定组限，属于自然分组，只需对每组作次数统计。下面我们举例说明间断性变数资料分组如教材上第 37 页的表 3.1 表中结果调查了

10、100 个麦穗的每穗小穗数。数据主要在 15-20 的范围内变动，把所有观察值按每穗小穗数多少加以归类，共分为 6 组，分组结果如表 3.2。质量性状资料的分组质量性状分组中，组数的多少，由质量性状的多少来确定，所调查的对象有几个性状就分几组。如：全班同学按性别来分组性别次数（f）相对次数女同学20男同学382、组限式分组该种分组方式适用于连续性变数资料或变异范围较大的间断性变数资料（如表 3.3就是变异范围较大的间断性变数资料的组限式分组方式）下面以 38页的表 3.4 140 行水稻产量为例讲解组限式分组的方法步骤。求极差（range）：极差:最大观察值与最小观察值的差数，用R表示

11、，R二最大值-最小值该资料中最大值为 254，最小值为 75，所以 R=254-75=179g 确定组数和组距根据极差分为若干组，每组距离相等，称为组距，组数和组距是相互决定的，组距小，组数多；组距大则组数少。确定组数时要考虑资料整理的目的，一方面要简化资料，从中找出规律性，另一方面要保证资料的真实面貌。因此，组数不能过少，过少使算出的统计数精确度差，有失真实，组数过多，资料过于分散，分析计算不方便，起不到简化资料的作用。那么组数多少才算合理呢？分组时应考虑以下四个问题：A、观察值个数：观察值多就多分几组，反之就少分几组B、极差大小：极差大多分几组为宜，极差小则相应可少分几组C、便于计

12、算：组数少精确度差，组数多增加工作量D、能反映资料的真实面貌：组数少统计数偏离处理真值，组数多无规律可循样本大小与组数多少可参照38页的表3.5,教材上就是参考表3.5来确定。组数确定好之后，便可计算组距。组距=极差/组数本例以分12组为例，则组距=179/12=14.915，为方便计算，组距确定为15 为宜。选定组限和组中点值所谓组限就是指每一组界限，包括组上限和组下限；所谓组中点值，就是该组的中间数值。首先选定第一组的组中点值，第一组的组中点值以接近最小观察值为宜。本例中最小观察值为 75，那么第一组的组中点值勤可确定为75，以后各组组中点值等于上组组中点值加上组距。如第二组组中点值

13、=75+15=90，以后各组依此类推。组中点值确定以后就可确定每组的组限：上限=组中点值+组距/2下限=组中点值-组距/2如：第一组上限=75+15/2=82.5第一组下限=75-15/2=67.5 其余结果依此类推，计算后将各组组限和组中点值的结果列于次数分布表（如表 3.6 ）分组时应注意：A、第一组的组中值二最小观察值B、每组的组上限不包括在本组内按组限归组用“正”号计数，计算出出现在各组的观察值次数，用 f 表示。最后编制次数分布表，如下：140行水稻产量次数分布表组限（g）组中值次数相对次数（）合计表头对此表的内容作简要概括，生物统计中的表格多为三线表，竖线也可要，但两边

14、绝不能封口。列出次数分布表后，资料的规律性就可以很容易地观察出来， 140 行水稻的产量多数集中在142.5-187.5之间。呈近似的正态分布。注意：开始我们把140行水稻的产量资料分为12组，但实际上是13组，为什么？这是因为第一组的下限小最小观察，差不多增加了 1/2 组，最后一组的上限以高于最大观察值，又增加了 1/2组，所以最后分组结果比原定组数多出一组。三、次数分布图除了用次数分布表来表示试验资料外，还可以画成统计图形，它可以更为直观地了解资料的基本特征和分布规律。常用的次数分布图有：方柱形图、多边形图、条形图和饼图。一) 方柱形图(his to gram)它适用于连续性

15、变数的次数分布资料。作图方法是：先画一个直角坐标，以横轴代表组限，纵轴代表次数或相对次数，作图应注意的问题：1、纵轴：横轴以 4：5或 5：6 为宜；2、纵坐标若不以 0为起点，应用折断号隔开；3、应标上变数名称及度量单位和图题。下面以表 3.6 的 140 行水稻产量的次数分布表为例加以说明。二) 多边形图该种作图形多用于连续性变数资料，且可将两个以上资料同时表示在一个坐标系内，以便从图形走势上加以比较。作图方法：横坐标代表组限式分组的组中点值或单项式分组的组值，纵轴坐标代表次数或相对次数，找出对应的坐标点用折线连接，折线两端可延长与横轴相交，形成封闭式图形。下面仍以表 3.6 的 140 行水稻产量的次数分布表为例加以说明多边形图的作图方法。注意：利用多边形图在一个坐标系上比较两个以上样本的次数分布时应注意以下3 点：八 1、用相对次数表示，以免图形受到总次数多少不同的影响，而不便比较。 2、用不同形式的线条表示不同的样本3、标明每条多边形线条所代表的对象三）条形图适用于变异范围较小的间断性变数资料和质量性状的资料。作图方法：横轴表示间断性变数资料的组值或不同的质量性状，找出对应的坐标

展开阅读全文

第三章 次数分布和平均数、变异数

第三章次数分布和平均数、变异数