生物统计学：统计数据的收集与整理

资源描述

《生物统计学：统计数据的收集与整理》由会员分享，可在线阅读，更多相关《生物统计学：统计数据的收集与整理（66页珍藏版）》请在金锄头文库上搜索。

1、统计数据的收集与整理,数据类型及频数（率）分布数据整理样本平均值样本标准差变异系数,1. 数据类型及频数（率）分布,连续型数据和离散型数据连续型数据：与某种标准比较所得到的数据，又称度量数据离散型数据：由记录不同类别个体的数目所得到的数据，又称计数数据，对离散型数据进行分析的方法通常称为属性的方法。频数表或频数图是描述数据变化规律最简单的方法,频数（率）表和频数（率）图的编绘,例1.1 调查每天出生的 10名新生儿中体重超过3kg的人数，共调查120d,图1-1 频数图,2. 数据整理【例1.2 】将126头基础母羊的体重资料,表1-2 126头母羊的体重资料(单位：kg)

2、,1、求全距全距是资料中最大值与最小值之差，又称为极差(range)，用R表示，即 R=Max(x)-Min(x) 本例 R=65.0-37.0=28.0（kg）,计量资料在分组前需要确定全距、组数、组距、组中值及组限，然后将全部观测值划线计数归组。,2、确定组数一般以达到既简化资料又不影响反映资料的规律性为原则。,本例中，n126，根据表2-6，初步确定组数为10组。,3、确定组距每组最大值与最小值之差称为组距，记为 i。分组时要求各组的组距相等。组距的计算公式为：组距(i)全距组数本例 i28.0103.0,4、确定组限及组中值各组最大值与最小值称为组限。最小值称为下限，最大

3、值称为上限。每一组的中点值称为组中值，它是该组的代表值。组中值与组限、组距的关系如下：组中值(组下限组上限)/2组下限1/ 2组距组上限1/2组距相邻两组的组中值间的距离等于组距。组距确定后，首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多，一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后，该组组限即可确定，其余各组的组中值和组限也可相继确定。注意，最末一组的上限应大于资料中的最大值。,表1- 2中，最小值为37.0，第一组的组中值取37.5，因组距已确定为3.0，所以第一组的下限为： 37.5-(1/2)3.036.0；第一组的上限也就是第二组

4、的下限为： 36.0+3.0=39.0；第二组的上限也就是第三组的下限为： 39.0+3.0=42.0，以此类推，一直到某一组的上限大于资料中的最大值为止。于是可分组为： 36.0 - 39.0，39.0- 42.0，。,为了使恰好等于前一组上限和后一组下限的数据能确切归组，约定将其归入后一组。通常将上限略去不写。第一组记为36.0 - ，第二组记为39.0 - ， 5、归组划线计数，作次数分布表分组结束后，将资料中的每一观测值逐一归组,划线计数，然后制成次数分布表。,表1-3 126头母羊的体重的次数分布表,在归组划线时应注意，不要重复或遗漏，归组划线后将各组的次数相加，结果应

5、与样本含量相等，如不等，证明归组划线有误，应予纠正。在分组后所得实际组数，有时和最初确定的组数不同，如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小，则实际分组的组数将比原定组数多；反之则少。,SPSS13.0,3. 样本平均值,平均数是统计学中最常用的统计量，用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有：算术平均数（arithmetic mean）中位数（median）众数（mode）几何平均数（geometric mean）调和平均数（harmonic mean）,3.1 算术平均数算术平均数是指资料中各观测值的总和除以观测值个数所得的商，简称

6、平均数或均数，记为。算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。 (一)直接法主要用于样本含量n30以下、未经分组资料平均数的计算。,设某一资料包含n个观测值： x1、x2、xn，则样本平均数可通过下式计算：（3-1）其中，为总和符号；表示从第一个观测值x1 累加到第n个观测值xn。当在意义上已明确时，可简写为x，（3-1）式可改写为：,【例1. 3 】某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490（kg），求其平均数。由于 x=500+520+535+560+58+600+480+5

7、10+505+49 =5285， n=10 得：即10头种公牛平均体重为528.5 kg。,?,（二）加权法对于样本含量 n30 以上且已分组的资料，可以在次数分布表的基础上采用加权法计算平均数，计算公式为：（3-2）,式中：第i组的组中值；第i组的次数；分组数第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量，因此将fi 称为是xi的“权”，加权法也由此而得名。,【例1.4】将100头长白母猪的仔猪一月窝重（单位：kg）资料整理成次数分布表如下，求其加权数平均数。,利用（3-2）式得：即这100头长白母猪仔猪一月龄平均窝重为45.2kg。计算若干个来自同一总

8、体的样本平均数的平均数时，如果样本含量不等，也应采用加权法计算。,【例3.3】某牛群有黑白花奶牛 1500头，其平均体重为750 kg ，而另一牛群有黑白花奶牛1200头，平均体重为725 kg，如果将这两个牛群混合在一起，其混合后平均体重为多少？此例两个牛群所包含的牛的头数不等，要计算两个牛群混合后的平均体重，应以两个牛群牛的头数为权，求两个牛群平均体重的加权平均数，即,即两个牛群混合后平均体重为738.89 kg。,?,（三）平均数的基本性质 1、样本各观测值与平均数之差的和为零，即离均差之和等于零。或简写成,2、样本各观测值与平均数之差的平方和为最小，即离均差平方和为最小。或简写

9、为：对于总体而言，通常用表示总体平均数，有限总体的平均数为：（3-3）式中，N表示总体所包含的个体数。,当一个统计量的数学期望等于所估计的总体参数时，则称此统计量为该总体参数的无偏估计量。统计学中常用样本平均数（）作为总体平均数（）的估计量，并已证明样本平均数是总体平均数的无偏估计量。,将资料内所有观测值从小到大依次排列，位于中间的那个观测值，称为中位数，记为Md。当观测值的个数是偶数时，则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时，中位数的代表性优于算术平均数。中位数的计算方法因资料是否分组而有所不同。,3.2 中位数,（一）未分组资料中位数的计算方法

10、对于未分组资料，先将各观测值由小到大依次排列。,1、当观测值个数n为奇数时，(n+1)/2位置的观测值，即x(n+1)/2为中位数： 2、当观测值个数为偶数时，n/2和（n/2+1）位置的两个观测值之和的1/2为中位数，即：（3-4）,【例3.4】观察得9只西农莎能奶山羊的妊娠天数为 144 、 145、 147、 149、150、151、153、156、157，求其中位数。此例 n=9，为奇数，则： Md= =150（天）即西农莎能奶山羊妊娠天数的中位数为150天。,【例3.5】某犬场发生犬瘟热，观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、1

11、4、14天，求其中位数。此例n=10，为偶数，则： (天) 即10只仔犬从发现症状到死亡天数的中位数为11.5天。,（二）已分组资料中位数的计算方法若资料已分组，编制成次数分布表，则可利用次数分布表来计算中位数，其计算公式为：（3-5）式中：L 中位数所在组的下限； i 组距； f 中位数所在组的次数； n 总次数； c 小于中数所在组的累加次数。,【例3.6】某奶牛场68头健康母牛从分娩到第一次发情间隔时间整理成次数分布表如表 3-2 所示，求中位数。,表3-2 68头母牛从分娩到第一次发情间隔时间次数分布表,由表3-2可见：i=15，n=68，因而中位数只能在累加头数为36所对应

12、的“57-71”这一组，于是可确定L=57，f=20，c=16，代入公式（3-5）得： (天) 即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5天。,3.3 几何平均数 n 个观测值相乘之积开 n 次方所得的方根，称为几何平均数，记为G。它主要应用于动态分析，疾病及药物效价的统计分析。如养殖的增长率，抗体的滴度，药物的效价，疾病的潜伏期等，用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下： (3-6),为了计算方便，可将各观测值取对数后相加除以n，得lgG，再求lgG的反对数，即得G值，即 (3-7),表3-3 某波尔山羊群各年度存栏数与增长率,【例3.7】某波尔山羊群1

13、997-2000年各年度的存栏数见表3-3，试求其年平均增长率。,利用（3-7）式求年平均增长率 G= =lg-1（-0.368-0.3980.602） =lg-1（-0.456）=0.3501 即年平均增长率为0.3501或35.01%。,3.4 众数资料中出现次数最多的那个观测值或次数最多一组的组中值，称为众数，记为M0。如表2-3 所列的 50枚受精种蛋出雏天数次数分布中，以22出现的次数最多，则该资料的众数为22天。又如【例3.6】所列出的次数分布表中，57-71这一组次数最多，其组中值为64天，则该资料的众数为64天。,3.5 调和平均数资料中各观测值倒数的算

14、术平均数的倒数，称为调和平均数，记为H，即（3-8）调和平均数主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。,【例3.8】某保种牛群不同世代牛群保种的规模分别为：0世代200头，1世代220头，2世代210头； 3世代190头，4世代210头，试求其平均规模。利用（3-9）式求平均规模： 208.33 (头) 即保种群平均规模为208.33头。,对于同一资料：算术平均数几何平均数调和平均数上述五种平均数，最常用的是算术平均数。,4. 标准差,4.1 标准差的意义用平均数作为样本的代表，其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统

15、计描述是不全面的，还需引入一个表示资料中观测值变异程度大小的统计量。,全距（极差）是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值，并不能准确表达资料中各观测值的变异程度，比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时，可以利用全距这个统计量。,为了准确地表示样本内各个观测值的变异程度，人们首先会考虑到以平均数为标准，求出各个观测值与平均数的离差，（），称为离均差。虽然离均差能表示一个观测值偏离平均数的性质和程度，但因为离均差有正、有负，离均差之和为零，即（）= 0 ，因而不能用离均差之和来表示资料中所有观测值的总偏离程

16、度。,为了解决离均差有正、有负，离均差之和为零的问题，可先求离均差的绝对值并将各离均差绝对值之和除以观测值个数n 求得平均绝对离差，即虽然平均绝对离差可以表示资料中各观测值的变异程度，但由于平均绝对离差包含绝对值符号，使用很不方便，在统计学中未被采用。,我们还可以采用将离均差平方的办法来解决离均差有正、有负，离均差之和为零的问题。先将各个离均差平方，即，再求离均差平方和，即，简称平方和，记为SS；由于离差平方和常随样本大小而改变，为了消除样本大小的影响，用平方和除以样本大小，即，求出离均差平方和的平均数；,为了使所得的统计量是相应总体参数的无偏估计量，统计学证明，在求离均差平方和的平均数时，分母不用样本含量n，而用自由度 n-1，

展开阅读全文