《资料的整理与基本分析》由会员分享,可在线阅读,更多相关《资料的整理与基本分析(90页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章资料的整理与基本分析资料的整理与基本分析下一张下一张主主页页退退出出上一张上一张数据资料的分类数据资料的整理常用统计表与统计图数据资料的特征值分析正确地进行资料的分类是资料整理的前正确地进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为的数据按其性质的不同,一般可以分为计计量资料量资料、计数资料和等级(半定量)资计数资料和等级(半定量)资料料三大类。三大类。下一张下一张主主页页退退出出上一张上一张第一节第一节资料的分类资料的分类下一张下一张主主页页退退出出上一张上一张数据资料的来源数据资料的来源 1
2、 1、 实验观察所得的科学实验记录实验观察所得的科学实验记录 2 2、 调查研究所得的资料调查研究所得的资料 3 3、 生产记录、病理等现场资料生产记录、病理等现场资料下一张下一张主主页页退退出出上一张上一张一一 计量资料计量资料(数值变量数值变量) 指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量性状资料。其数据是用长度、容积、重量等来表示。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定 , 它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。 体现:动物的各种生理、生化指标,药动力学指标
3、等,如血液中血红蛋白含量。下一张下一张主主页页退退出出上一张上一张二二 计数资料计数资料(无序分类变量无序分类变量) 指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。 如:畜禽疫病感染个数、发病数、死亡数、呼吸次数、单位容积内细胞数、细菌数等。 等等 级或半级或半 定定 量资量资 料料 (ranked data or semi-quantitative)是指将观察单位是指将观察单位按所考察的性状或指标的等级顺序分组,然按所考
4、察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量类资料既有次数资料的特点,又有程度或量的不同。的不同。也称为也称为分类资料。分类资料。下一张下一张主主页页退退出出上一张上一张三、等级(半定量)资料三、等级(半定量)资料(有序分类变量有序分类变量)下一张 主 页 退 出 上一张 如粪便潜血试验的阳性反应是在涂有粪便的棉签上如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗
5、效分为又如用某种药物治疗畜禽的某种疾病,疗效分为“无效无效”、“好转好转”、“显效显效”和和“控制控制”四个级别四个级别;然后;然后统计各级别的供试畜禽数。统计各级别的供试畜禽数。半定量资料在医学研究中是常见的。半定量资料在医学研究中是常见的。 在生物医学中,这类资料常用相对数(率)或构成比的形式表示(如:发病率、死亡率、感染率、治愈率、免疫率、阳性率等 )率率(raterate):):说明某现象或某事物说明某现象或某事物发生发生的的频率频率或或强度强度。 率率= =(实际发生数(实际发生数/ /可能发生总数)可能发生总数)比例基数比例基数 比例基数比例基数:100%100%、10001000
6、、10000/10000/万、万、100000100000(1/101/10万)等万)等 如如:发病率、死亡率、发生率、阳性率、患病率等:发病率、死亡率、发生率、阳性率、患病率等构成比构成比(proportionproportion):):说明某一事物内部,各组成部分说明某一事物内部,各组成部分所占的所占的比重。比重。也叫百分比。也叫百分比。 构成比构成比= =(某某部分观察单位数部分观察单位数/ /各各组成部分观察单位组成部分观察单位总总数)数)100%100% 如如:教研室:教研室1616人人中高级职称有中高级职称有4 4人,占人,占2020(1/51/5)。)。相对比相对比(relati
7、ve ratiorelative ratio):):是是A A、B B两个有关指标之比,两个有关指标之比,说明说明A A是是B B的若干倍或百分之几,通常用倍数或分的若干倍或百分之几,通常用倍数或分数表示。数表示。 如如:男:女、医生:护士、教师:学生:男:女、医生:护士、教师:学生下一张下一张主主页页退退出出上一张上一张率与构成比率与构成比率率构成比构成比概念概念发生的频率或发生的频率或强度强度各组成部分所占的各组成部分所占的比重比重强调点强调点随机发生事件随机发生事件 各部分的构成各部分的构成(分类)(分类)资料获得资料获得较难较难容易容易特点特点不一定不一定合计为合计为100100下一张
8、下一张主主页页退退出出上一张上一张1.1 1.1 白猪和黑猪子二代的毛色分离情况白猪和黑猪子二代的毛色分离情况 率与构成比的例子率与构成比的例子下一张下一张主主页页退退出出上一张上一张占占年龄组(周) 受检个数白内障例数 患者周龄构成比(%)患病率(%)=(3)/(2)45678合计560441296149 2268129135 97 1915.1828.7930.1321.65 4.2412.1429.2545.6165.1086.36 1468448100.0030.521.2 41.2 4周龄以上仔猪患某一疾病的记录周龄以上仔猪患某一疾病的记录下一张下一张主主页页退退出出上一张上一张存在
9、分类存在分类随机事件随机事件应用注意事项应用注意事项1 1、不能以构成比代替率。、不能以构成比代替率。2 2、计算相对数的、计算相对数的分母不宜过小分母不宜过小。小则。小则直接叙述直接叙述。3 3、进行率的对比分析时,应注意资料、进行率的对比分析时,应注意资料可比性可比性。如。如 比较疗效时,比较组间应病情轻重相同,性别比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。影响,应按性别分组后再作比较。4 4、正确求、正确求平均率平均率。 例:例: 若若P1=x1/n1P2=x2/n2P3=x3/n3P(x1+x2+x3)/n1+n2+n3)( (正确正确) ) P(P1+P2
10、+P3)/3 ( (错误错误) )下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张三种不同类型的资料相互间是有区别的,但三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。类型资料转化成另一种类型的资料。例如例如,医学临床化验动物的白细胞总数得到,医学临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次细胞总数正常或不正常分为两组,清点各组的次数,或者按白细胞总
11、数过高、正常、过低分为三数,或者按白细胞总数过高、正常、过低分为三组组,清点各组次数,清点各组次数,就转化成了半定量资料,就转化成了半定量资料。小结小结第二节第二节资料的整理资料的整理下一张下一张主主页页退退出出上一张上一张统计学一、资料的检查与核对目的目的:确保原始资料的:确保原始资料的完整性完整性和和正确性正确性。完整性完整性:指原始资料无遗缺或重复。:指原始资料无遗缺或重复。正确性正确性:指原始资料的测量和记载无差错或未:指原始资料的测量和记载无差错或未进行不合理的归并。进行不合理的归并。检查中要注意检查中要注意:1.数据本身差错数据本身差错2.取样差错取样差错3.数据资料的不合理合并和
12、归类数据资料的不合理合并和归类下一张下一张主主页页退退出出上一张上一张检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐 ;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。当变数不多当变数不多( (n30n30) )时,不必分组,直接进时,不必分组,直接进行统计分析。行统计分析。 当变数较多当变数较多( (n30n30) )时,宜将变数分成若时,宜将变数分成若干组,以便统计分析。将变数分组后,制成干组,以便统计分析。将变数分组后,制成次数分布表次数分布表(统计学上把经过数据整理后得统计学上把经过数据整理后得到的反映变数
13、在各组内的分布情况表格到的反映变数在各组内的分布情况表格),),即可看到资料的集中和变异情况。即可看到资料的集中和变异情况。 资料的性质不同,整理方法不同。资料的性质不同,整理方法不同。二、资料的整理方法二、资料的整理方法下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张表表2-250枚受精种蛋出雏天数的次数分布表枚受精种蛋出雏天数的次数分布表下一张下一张主主页页退退出出上一张上一张 问题:问题:有些计数资料,观察值较多,变异范围有些计数资料,观察值较多,变异范围较大,若以每一变数为一组,则组数太多,而每较大,若以每一变数为一组,则组数太多,而每组内包含的变数太少
14、,资料的规律性显示不出来。组内包含的变数太少,资料的规律性显示不出来。 方法:方法:可扩大为以几个相邻变数为一组,适当可扩大为以几个相邻变数为一组,适当减减 少组数,增加每组的变数。这样资料的规律性少组数,增加每组的变数。这样资料的规律性就较明显,对资料进一步计算分析也比较方便。就较明显,对资料进一步计算分析也比较方便。 变数较多,变异幅度较大的资料整理变数较多,变异幅度较大的资料整理下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张【例【例【例【例2-12-1】对】对】对】对100100例患病的断奶仔猪血液涂片显微镜下病变红例患病的断奶仔猪血液涂片显微镜下病变红
15、例患病的断奶仔猪血液涂片显微镜下病变红例患病的断奶仔猪血液涂片显微镜下病变红细胞数资料进行整理分组。细胞数资料进行整理分组。细胞数资料进行整理分组。细胞数资料进行整理分组。(原始资料略),(原始资料略),病变红细胞数变异范围病变红细胞数变异范围在在6-21个,如果以一个单独观测值为一组,个,如果以一个单独观测值为一组,分分16组就太多,不易看出资料的分布规律。组就太多,不易看出资料的分布规律。如每间隔如每间隔2个分为一组,则可使组数适当减个分为一组,则可使组数适当减少。经适当合并后分为少。经适当合并后分为9组,资料的分布规组,资料的分布规律就比较明显,见表律就比较明显,见表2-3。表表2-31
16、00例血液涂片病变红细胞数的次数分布表例血液涂片病变红细胞数的次数分布表下一张下一张主主页页退退出出上一张上一张病变细胞数病变细胞数(个)(个)组中值(组中值(x)划线计数划线计数次数()次数()56789101112131415161718192021225.57.59.511.513.515.517.519.521.5|卌卌卌卌|卌卌卌卌卌卌卌卌卌卌卌卌卌卌卌卌卌卌卌卌|卌卌卌卌卌卌|卌卌卌卌|卌卌|14112031161151合计合计100(二)、计量资料的整理计量资料在分组前需要确定计量资料在分组前需要确定全距、全距、组数、组距、组中值及组限组数、组距、组中值及组限,然后,然后将将全部
17、变数划线计数归组全部变数划线计数归组。 频数与频数分布频数与频数分布 下一张下一张主主页页退退出出上一张上一张1概念概念下一张下一张主主页页退退出出上一张上一张频数频数:某个(组)测量值的个(例)数。频数分布表频数分布表(frequencydistributiontable):):又称频数表。是将原始数据值适当分组后得到各组的频数。 适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。 可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。2频数表的编制步骤频数表的编制步骤(1)求)求极差极差(range):):即最大值与最小值之差,又称为全距。即最大值与
18、最小值之差,又称为全距。 (2) 决定决定组数组数、组限组限和和组距组距:根据研究目的和样本含量:根据研究目的和样本含量n确定。组距确定。组距=极差极差/组数,通常分组数,通常分10-15个组,为方便计,组距参考极差的十分之一个组,为方便计,组距参考极差的十分之一, 再略加调整。再略加调整。 (3) 列出组段:第一组段的列出组段:第一组段的下限略小于最小值下限略小于最小值,最后一个组段,最后一个组段上限必上限必须包含最大值须包含最大值,其它组段上限值忽略。,其它组段上限值忽略。(4) 划线计数划线计数:用划记法将所有数据归纳到各组段,得到各组段的频:用划记法将所有数据归纳到各组段,得到各组段的
19、频数。数。下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张(1)、求全距)、求全距全距全距是资料中最大值与最小值之是资料中最大值与最小值之差,又称为差,又称为极差极差(range),用用R表示,表示,即即 R=Max(x)-Min(x)本例本例R=65.0-37.0=28.0(kg)下一张下一张主主页页退退出出上一张上一张(2-1)、确定组数)、确定组数组数的多少视样本含量及资料的变动范组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组
20、数要适当,响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。不宜过多,亦不宜过少。分组越多所求得的分组越多所求得的统计量越精确,但增大了运算量;若分组过统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。统计量的精确性也较差。一般组数的确定,一般组数的确定,可参考表可参考表2-5。表表2-5样本含量与组数样本含量与组数本例中,本例中,n126,根据表根据表2-5,初步确定组,初步确定组数为数为10组。组。下一张下一张主主页页退退出出上一张上一张(2-2)、确定组距)、确定组距每组最大值与最小值之差称为
21、组距,记每组最大值与最小值之差称为组距,记为为i。分组时要求各组的组距相等。组距的分组时要求各组的组距相等。组距的计算公式为:计算公式为:组距组距(i)全距组数全距组数本例本例i28.0103.0(化整化整)下一张下一张主主页页退退出出上一张上一张(2-3)、确定组限及组中值)、确定组限及组中值各组的最大值与最小值称为各组的最大值与最小值称为组限组限。最小值称为。最小值称为下限下限,最大值称为最大值称为上限上限。每一组的中点值称为。每一组的中点值称为组组中值中值,它是该组的代表值。组中值与组限、组距,它是该组的代表值。组中值与组限、组距的关系如下:的关系如下:组中值组中值(组下限组上限组下限组
22、上限)/2组下限组下限1/2组距组距组上限组上限1/2组距组距由于由于相邻两组的组中值间的距离等于组距相邻两组的组中值间的距离等于组距,所以当第一,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。二组的组中值加上组距就是第三组的组中值,其余类推。下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张组距确定后,组距确定后,首先要选定第一组首先要选定第一组的组中值。的组中值。在分组时为了避免第一组在分组时为了避免第一组中观察值过多,一般第一组的组中值中观察值过
23、多,一般第一组的组中值以接近或等于资料中的最小值为好。以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限可相继确定。注意,最末一组的上限应大于资料中的最大值。应大于资料中的最大值。注意注意下一张下一张主主页页退退出出上一张上一张(3) 列出组段列出组段表表2-2中,中,最小值为最小值为37.0,第一组的组中值取第一组的组中值取37.5,因组,因组距已确定为距已确定为3.0,所以所以第一组的下限为:第一组的下限为:37.5-(1/2)3.036.0;第一组的上
24、限也就是第二组的下限为:第一组的上限也就是第二组的下限为:36.0+3.0=39.0;第二组的上限也就是第三组的下限为:第二组的上限也就是第三组的下限为:39.0+3.0=42.0,以此类推,一直到某一组的上限大于资料中的最大值以此类推,一直到某一组的上限大于资料中的最大值为止。为止。于是可分组为:于是可分组为:36.039.0,39.042.0,。为了使恰好等于前一组上限和后一组下限为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入的数据能确切归组,约定将其归入后一组后一组。通常将上限略去不写。通常将上限略去不写。第一组记为第一组记为36.0,第二组记为第二组记为39.0,下
25、一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张 在归组划线时应注意,不要重复或遗漏,在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予含量相等,如不等,证明归组划线有误,应予纠正。纠正。 在分组后所得实际组数,有时和最初确定在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实相差较大或实际组距比计算的组距为小,则实际
26、分组的组数将比原定组数多;反之则少。际分组的组数将比原定组数多;反之则少。注意注意(三)等级(半定量)资料的整理(三)等级(半定量)资料的整理对于等级(半定量)资料,可按性状或对于等级(半定量)资料,可按性状或等级进行分组,分别统计各组的次数,然等级进行分组,分别统计各组的次数,然后制成次数分布表。后制成次数分布表。下一张下一张主主页页退退出出上一张上一张表表2-7F2代山羊的有角无角分离情况代山羊的有角无角分离情况下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张表表2-8仔猪死亡情况仔猪死亡情况第三节第三节常用统计表与统计图常用统计表与统计图下一张下一张主主页
27、页退退出出上一张上一张使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。达出来,便于比较分析。达出来,便于比较分析。达出来,便于比较分析。一、统计表一、统计表任何反映统计资料的表格(广义)任何反映统计资料的表格(广义)统计整理与分析阶段使用的表格(狭义)统计整理与分析阶段使用的表格(狭义)下一张下一张主主页页退退出出上一张
28、上一张用用表格形式表格形式来表示数据间的来表示数据间的数量关系数量关系(一)统计表的结构和要求(一)统计表的结构和要求统计表由标题、横标目、纵标目、线条、统计表由标题、横标目、纵标目、线条、数数字及合计构成,其基本格式如下表字及合计构成,其基本格式如下表:下一张下一张主主页页退退出出上一张上一张编制统计表的总原则:结构简单,层次分明,内容安排合理,重点编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:突出,数据准确,便于理解和比较分析。具体要求如下:下一张下一张主主页页退退出出上一张上一张1.统计表的结构统计表的结构. . . . .
29、. 纵纵标标目目总总标标目(单位)目(单位). . 合合计计 . . . . 横横标标目目纵纵标标目目纵纵标标目目纵纵标标目目总总标标目目横标目的横标目的总总标标目目备注:备注:表号表号表号表号 标题(包括何时、何地、何事)标题(包括何时、何地、何事)标题(包括何时、何地、何事)标题(包括何时、何地、何事)下一张下一张主主页页退退出出上一张上一张1、标题、标题标题要简明扼要、准确地说明表的内标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。容,有时须注明时间、地点。2、标目、标目标目分横标目和纵标目两项。横标目标目分横标目和纵标目两项。横标目列在表的左侧列在表的左侧,用以表示被说明事物
30、的主要用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统标志;纵标目列在表的上端,说明横标目各统计指标内容,计指标内容,并并注注明计算单位,如、明计算单位,如、kg、cm等等。等等。2.统计表的要求统计表的要求下一张下一张主主页页退退出出上一张上一张3、数字、数字一律用阿拉伯数字,数字以小数一律用阿拉伯数字,数字以小数点对齐,小数位数一致,点对齐,小数位数一致,无数字的用无数字的用“”表示,数字是表示,数字是“0”的,则填写的,则填写“0”。4、线条、线条表的上下两条边线略粗,纵、横表的上下两条边线略粗,纵、横标目间及合计用细线分开,标目间及合计用细线分开,表的左右边线表的左右边
31、线可省去,表的左上角一般不用斜线。可省去,表的左上角一般不用斜线。(二二)统计表的种类统计表的种类下一张下一张主主页页退退出出上一张上一张统计表可根据纵、横标目是否有分组分为统计表可根据纵、横标目是否有分组分为简单表和复合表两类简单表和复合表两类。1、简单表、简单表由一组横标目和一组纵标由一组横标目和一组纵标目组成,纵横标目都未分组目组成,纵横标目都未分组。此类表适此类表适于简单资料的统计,如表于简单资料的统计,如表2-9。下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张2 2、复合表、复合表 由两组或两组以上的由两组或两组以上的横标目与一组纵标目结合而成横标目
32、与一组纵标目结合而成 , 或由一组横标目与两组或两组或由一组横标目与两组或两组以上的纵标目结合而成,或由两以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合组或两组以上的横、纵标目结合而成。此类表适用于复杂资料的而成。此类表适用于复杂资料的统计,如表统计,如表2-102-10。表表2-10几种动物性食品的营养成分几种动物性食品的营养成分下一张下一张主主页页退退出出上一张上一张猪场猪场消化道疾病发病数消化道疾病发病数其它情况其它情况黄白痢黄白痢肠炎肠炎寄生虫病寄生虫病水肿病水肿病甲甲乙乙丙丙丁丁35113023812043821714423652426225317712684113212合
33、计合计83910351316535下一张下一张主主页页退退出出上一张上一张常用的统计图有常用的统计图有长条图长条图(barchart)、园图园图(piechart)、线图线图(linearchart)、直方图直方图(histogram)和和折线图折线图(broken-linechart)等等。一般情况下一般情况下,计量资料采,计量资料采用直方图和折线图,计数资料用直方图和折线图,计数资料、半定量、半定量(等级)资料常用长条图(等级)资料常用长条图、线图或园图。线图或园图。二、统计图二、统计图1、标题简明扼要,列于图的下方。、标题简明扼要,列于图的下方。2、纵、横两轴应有刻度,注明单位。、纵、横
34、两轴应有刻度,注明单位。3、横轴由左至右、纵轴由下而上,数值、横轴由左至右、纵轴由下而上,数值由小到大;由小到大;图形长宽比例约图形长宽比例约5:4或或6:5。4、图中需用不同颜色或线条代表不同事、图中需用不同颜色或线条代表不同事物时,应有图例说明。物时,应有图例说明。下一张下一张主主页页退退出出上一张上一张(一)统计图绘制的基本要求(一)统计图绘制的基本要求(二)常用统计图及其绘制方法(二)常用统计图及其绘制方法软件绘制,直接输出,很方便!软件绘制,直接输出,很方便!下一张下一张主主页页退退出出上一张上一张统计学y下一张下一张主主页页退退出出上一张上一张1、直方图直方图(柱形图,矩形图,矩形
35、图) 直方图直方图(histogram)(histogram)适用于表示连续性变适用于表示连续性变数的次数分布。数的次数分布。 横轴横轴为为各组组限各组组限,纵轴纵轴为为分布次数(分布次数(f)f) 横坐标与纵坐标的长度要有合适的比例横坐标与纵坐标的长度要有合适的比例( (一般为一般为5:4或或6:5为好为好) ),绘成的图形,绘成的图形能明显表明次数分布情况。能明显表明次数分布情况。次次 数(数(f f)图2-1 126基础母羊基础母羊体重的次数分布柱形图下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张图2-3 水稻杂种
36、二代植株米粒分离情况的次数分布条形图性状性状次数次数(f)(f)3 3、条形图、条形图条形图条形图(bar diagram)(bar diagram)适用于间断性变数和适用于间断性变数和属性变数资料。一般横坐标表示间断的组属性变数资料。一般横坐标表示间断的组中值或分类性状,纵坐标表示次数。中值或分类性状,纵坐标表示次数。下一张下一张主主页页退退出出上一张上一张饼图饼图 (pie diagram) 适用于间断性和属性资料,用以表示这些变数中 各种属性或各种间断性数据观察值在总观察值个数中的百分比。4 4 、饼图、饼图第四节第四节数据资料的特征值分析下一张下一张主主页页退退出出上一张上一张统计学
37、离散性特征值离散性特征值 集中性特征值集中性特征值生物学数据资料(观测值)的分布具有两个重要的特征:生物学数据资料(观测值)的分布具有两个重要的特征: 集中性集中性 离散性离散性 观测值向中心位置聚集的趋势。观测值向中心位置聚集的趋势。 反映数据资料集中性的特征值是反映数据资料集中性的特征值是平均数平均数,包括,包括算术平均算术平均数数、几何平均数几何平均数、调和平均数调和平均数、中位数中位数和和众数众数等。等。观测值偏离中心位置的分散情况。观测值偏离中心位置的分散情况。 反映数据资料离散性的特征值是反映数据资料离散性的特征值是极差极差、方差方差、标准差标准差和和变变异系数异系数等。等。下一张
38、下一张主主页页退退出出上一张上一张一 集中性特征值平均数(平均数(mean)是统计学中最常用的统计量,用来表明数据中是统计学中最常用的统计量,用来表明数据中各观测值相对集中较多的中心位置,反映了一组观察值的平均各观测值相对集中较多的中心位置,反映了一组观察值的平均水平,是一组数据资料的代表值。水平,是一组数据资料的代表值。 C 可以用来说明一组数据资料的平均水平或集中趋势,具有典可以用来说明一组数据资料的平均水平或集中趋势,具有典型性型性C 可以用来进行组间比较,以判断一组数据资料与另一组数据可以用来进行组间比较,以判断一组数据资料与另一组数据资料的差别,具有代表性资料的差别,具有代表性 平均
39、数的作用:下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张【例】某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均数。 由于 x=500+520+535+560+58+600+480+510+505+49=5285, n = 10下一张下一张主主页页退退出出上一张上一张直接法:主要用于样本含量n30以下、未经分组资料平均数的计算1.3 重要性质 样本各观测值与平均数之差的和为样本各观测值与平均数之差的和为0,即,即离均差之和为离均差之和为0 证证 明明下一张下一张主主页页退退出
40、出上一张上一张下一张下一张主主页页退退出出上一张上一张1.4 加权平均数对于样本容量对于样本容量3030且已分组的资料,可以在次数分布表的基且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数。础上采用加权法计算平均数。 xi 第第i组的组中值组的组中值 fi 第第i组的次数组的次数 k 组数组数 采用加权法计算得到的平均数就称为加权平均数(采用加权法计算得到的平均数就称为加权平均数(weightedmean)n 加权平均数不具备算术平均数的两个性质加权平均数不具备算术平均数的两个性质下一张下一张主主页页退退出出上一张上一张组别组中值()次数10-1534520-25615030-35
41、2691040-4530135050-5524132060-65852070-753225合计1004520【例】将100头仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。仔仔猪猪一一月月窝窝重重次次数数分分布布表表下一张下一张主主页页退退出出上一张上一张利用式得:即这100头长白母猪仔猪一月龄平均窝重为45.2kg。计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。 下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张几何平均数(几何平均数(geometricmean):n个观测值相乘之积的个观测值相乘之积的
42、n次方根次方根 利率、畜禽数的增长率、药物的效价、抗体的滴度等非线性数据,采用几利率、畜禽数的增长率、药物的效价、抗体的滴度等非线性数据,采用几何平均数比用算术平均数更能代表其平均水平。何平均数比用算术平均数更能代表其平均水平。例1 为研究人群中流感的抗体水平,测得12名儿童的血清对流感病毒的血凝抑制抗体效价的倒数为:5,5,5,5,5,5,5,10,10,10,20,40,试计算平均血凝抑制抗体效价。解:解: 答:平均血凝抑制抗体效价约为答:平均血凝抑制抗体效价约为1 8平均血凝抑制抗体效价约为平均血凝抑制抗体效价约为1 10 2. 几何平均数几何平均数下一张下一张主主页页退退出出上一张上一
43、张3. 调和平均数调和平均数调和平均数(调和平均数(harmonicmean):):资料中各观测值倒数的算术资料中各观测值倒数的算术平均数的倒数。平均数的倒数。 调和平均数主要适用于速度类的资料,或有个别极端大观测调和平均数主要适用于速度类的资料,或有个别极端大观测值的数据资料。值的数据资料。 主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。下一张下一张主主页页退退出出上一张上一张当观测值的个数是偶数时,以中间两个观测值的平均数作为中当观测值的个数是偶数时,以中间两个观测值的平均数作为中位数位数 数据资料呈偏态分布或分布情况不清楚时,中位数的代表性数据资料呈偏态分布或分布情况不清
44、楚时,中位数的代表性优于算术平均数优于算术平均数 4. 中位数中位数中位数(中位数(median):):将资料中所有观测值按从小到大依次排列,将资料中所有观测值按从小到大依次排列,位于中间位置的那个观测值,简称为中数位于中间位置的那个观测值,简称为中数下一张下一张主主页页退退出出上一张上一张(1)未分组资料中位数的计算方法 下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上一张上一张(2)已分组资料中位数的计算方法 【例】【例】【例】【例】 某奶牛场某奶牛场某奶牛场某奶牛场6868头健康头健康头健康头健康母牛从分娩到第一次发情间母牛从分娩到第一次发情间母牛从分娩到第一次发情
45、间母牛从分娩到第一次发情间隔时间隔时间隔时间隔时间 整理成次数分布表如整理成次数分布表如整理成次数分布表如整理成次数分布表如下表所示,求中位数。下表所示,求中位数。下表所示,求中位数。下表所示,求中位数。下一张下一张主主页页退退出出上一张上一张5. 众数众数 众数(众数(mode):):在数据资料中出现次数最多的一个观测值在数据资料中出现次数最多的一个观测值或次数最多一组的组中值或次数最多一组的组中值n 有的资料可出现多个众数,有的资料则没有众数有的资料可出现多个众数,有的资料则没有众数下一张下一张主主页页退退出出上一张上一张所所所所 列列列列 出出出出 的的的的 次数分布表中,次数分布表中,
46、次数分布表中,次数分布表中,57577171这一这一这一这一组次数最多,组次数最多,组次数最多,组次数最多,其组中值为其组中值为其组中值为其组中值为6464天,则该天,则该天,则该天,则该资料的众数为资料的众数为资料的众数为资料的众数为6464天。天。天。天。总结对于同一资料:对于同一资料:算术平均数算术平均数几何平均数几何平均数调和平均数调和平均数上述五种平均数,最常用的是算术平均数。上述五种平均数,最常用的是算术平均数。二 离散性特征值平均数主要是用来说明数据的集中趋势和集中程度的,是一组平均数主要是用来说明数据的集中趋势和集中程度的,是一组数据的代表值。数据的代表值。平均数的代表性如何,
47、还要看数据的变异情况:平均数的代表性如何,还要看数据的变异情况: 数据越是数据越是集中集中, 则平均数的代表性就越则平均数的代表性就越强强 n 仅用平均数对一个数据资料的特征进行统计描述是不完善仅用平均数对一个数据资料的特征进行统计描述是不完善的,还必须要有另外一个统计量来衡量数据变异程度的大小、的,还必须要有另外一个统计量来衡量数据变异程度的大小、说明平均数的代表性。说明平均数的代表性。 数据越是数据越是分散(离散)分散(离散),则平均数的代表性就越,则平均数的代表性就越差差 用来衡量数据变异程度的统计量有很多,常用的有:极差、方用来衡量数据变异程度的统计量有很多,常用的有:极差、方差、标准
48、差和变异系数。差、标准差和变异系数。下一张下一张主主页页退退出出上一张上一张1.极差极差 (全距)极差(极差(range):):数据资料中最大观测值与最小观测值之间的数据资料中最大观测值与最小观测值之间的差差 极差主要用来说明传染病和食物中毒的最短、最长潜伏期极差主要用来说明传染病和食物中毒的最短、最长潜伏期(1)没有充分利用数据中全部观测值的信息)没有充分利用数据中全部观测值的信息C 优点:优点:极差是衡量数据资料变异程度大小的最简便的统计量极差是衡量数据资料变异程度大小的最简便的统计量 D 缺点:缺点:(2)不能准确反映数据中各观测值的分布状况)不能准确反映数据中各观测值的分布状况 (3)
49、样本之间难以进行比较)样本之间难以进行比较 (4)极差的抽样误差较大,不稳定)极差的抽样误差较大,不稳定下一张下一张主主页页退退出出上一张上一张2. 方差方差 极差:仅用全部观测值中较为特殊的两个点值,比较粗糙极差:仅用全部观测值中较为特殊的两个点值,比较粗糙充分利用数据资料中的每一个观测值,将每一观测值都和某一充分利用数据资料中的每一个观测值,将每一观测值都和某一个特定的值相比,个特定的值相比, 可以求出每一个观测值与平均数的差值,即离均差可以求出每一个观测值与平均数的差值,即离均差 有多少个观测值就可以得到多少个离均差,还是不能说明整个有多少个观测值就可以得到多少个离均差,还是不能说明整个
50、数据资料的变异程度数据资料的变异程度 将各个离均差相加是最简单的方法,将各个离均差相加是最简单的方法, 可以用离均差平方和来衡量数据的变异程度可以用离均差平方和来衡量数据的变异程度仅仅进行简单地相加,还是不能反映数据资料中所有观测值的仅仅进行简单地相加,还是不能反映数据资料中所有观测值的总偏离程度总偏离程度 最理想的特定值就是平均数最理想的特定值就是平均数下一张下一张主主页页退退出出上一张上一张离均差平方和简称为平方和(离均差平方和简称为平方和(sumofsquares),),用用SS表示表示样本平方和:样本平方和: 总体平方和:总体平方和: 用平方和衡量数据的变异程度:用平方和衡量数据的变异
51、程度:C 离均差平方和消除了离均差正、负值的影响离均差平方和消除了离均差正、负值的影响 D 离均差平方和的大小除了与变异程度有关外,还随样本容量离均差平方和的大小除了与变异程度有关外,还随样本容量的大小而改变的大小而改变为了消除样本容量大小的影响,可以取其平均数,即用平方和为了消除样本容量大小的影响,可以取其平均数,即用平方和除以样本容量,即除以样本容量,即 下一张下一张主主页页退退出出上一张上一张平方和的平均数称为方差(平方和的平均数称为方差(variance) 在求离均差平方和的平均数时,分母不用样本容量在求离均差平方和的平均数时,分母不用样本容量n,而用自由而用自由度度n-1 样本方差:
52、样本方差: 总体方差:总体方差: 下一张下一张主主页页退退出出上一张上一张为了使所得统计量是为了使所得统计量是相应总体参数的无偏相应总体参数的无偏估计值,统计学证明,估计值,统计学证明,在求离均差平方和的在求离均差平方和的平均数时,分母不用平均数时,分母不用样本含量样本含量,而必须用,而必须用自由度自由度.注意注意用方差衡量数据的变异程度:用方差衡量数据的变异程度:同类资料进行比较时,方差越大就意味着数据同类资料进行比较时,方差越大就意味着数据资料的变异程度越大,因此方差是衡量数据资料资料的变异程度越大,因此方差是衡量数据资料变异程度的一个重要指标变异程度的一个重要指标 方差是通过平方求和得来
53、的,在对观测值方差是通过平方求和得来的,在对观测值进行平方的同时,它的单位也相应地进行了进行平方的同时,它的单位也相应地进行了平方,因此在实际应用时很不方便。平方,因此在实际应用时很不方便。 下一张下一张主主页页退退出出上一张上一张3.1 关于自由度的讨论(1)对于样本容量为对于样本容量为n的样本来说,每一个观测值都要与平均的样本来说,每一个观测值都要与平均数相比,都有一个离均差,即有数相比,都有一个离均差,即有n个离均差,但由于受到个离均差,但由于受到“离均离均差之和为差之和为0”的限制,其中只有的限制,其中只有n-1个离均差是自由的,有一个离个离均差是自由的,有一个离均差必定失去自由均差必
54、定失去自由(2)在统计学中,计算某个统计量时,如果该统计量受到了在统计学中,计算某个统计量时,如果该统计量受到了k个条件的限制,那么它的自由度就为个条件的限制,那么它的自由度就为n- -k (3)使用自由度的目的之一就是为了能无偏地估计总体方差使用自由度的目的之一就是为了能无偏地估计总体方差 总体方差总体方差2的平方根称为总体标准差的平方根称为总体标准差3. 标准差 样本方差样本方差S2的平方根称为样本标准差(的平方根称为样本标准差(standarddeviation) 统计学中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少。自由度计算公式:自由度=样本个数-样本数据受约
55、束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数) 能独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。 通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。补充:自由度的理解补充:自由度的理解 3.2 标准差的计算标准差的计算 (1)直接法)直接法对于未分组或小样本资料,可用标准差的概念公式来直接计算:对
56、于未分组或小样本资料,可用标准差的概念公式来直接计算: (2)校正值法)校正值法大样本资料一般采用校正值法大样本资料一般采用校正值法下一张下一张主主页页退退出出上一张上一张(3)加权法)加权法对于分组资料可用加权法计算标准差:对于分组资料可用加权法计算标准差: 式中,式中,式中,式中,f f为各组次数;为各组次数;为各组次数;为各组次数;x x为各组为各组为各组为各组的组中值;的组中值;的组中值;的组中值; f f = = n n为总次数为总次数为总次数为总次数下一张下一张主主页页退退出出上一张上一张(1)校正值法)校正值法下一张下一张主主页页退退出出上一张上一张下一张下一张主主页页退退出出上
57、一张上一张3.3 标准差的性质标准差的性质(1)标准差的大小,受数据资料中每个观测值的影响)标准差的大小,受数据资料中每个观测值的影响观测值间观测值间变异大变异大,标准差,标准差大大;观测值间;观测值间变异小变异小,则标准差,则标准差小小。(2)各观测值同时加减一个常数,标准差不变)各观测值同时加减一个常数,标准差不变(3)各观测值乘上一个常数)各观测值乘上一个常数a,所得标准差将扩大所得标准差将扩大a倍,各观测值倍,各观测值除以一个常数除以一个常数a,所得标准差将缩小所得标准差将缩小a倍。倍。下一张下一张主主页页退退出出上一张上一张(4 4 4 4)在资料服从正态分布的条件下,资料中约有在资
58、料服从正态分布的条件下,资料中约有在资料服从正态分布的条件下,资料中约有在资料服从正态分布的条件下,资料中约有68.26%68.26%68.26%68.26%的观测值的观测值的观测值的观测值在平均数左右一倍标准差(在平均数左右一倍标准差(在平均数左右一倍标准差(在平均数左右一倍标准差( S S S S)范围内;约有范围内;约有范围内;约有范围内;约有95.45%95.45%95.45%95.45%的观测的观测的观测的观测值在平均数左右两倍标准差(值在平均数左右两倍标准差(值在平均数左右两倍标准差(值在平均数左右两倍标准差( 2 2 2 2S S S S)范围内;约有范围内;约有范围内;约有范围
59、内;约有99.73%99.73%99.73%99.73%的观的观的观的观测值在平均数左右三倍标准差(测值在平均数左右三倍标准差(测值在平均数左右三倍标准差(测值在平均数左右三倍标准差( 3 3 3 3S S S S) 范范范范 围内。也就是说围内。也就是说围内。也就是说围内。也就是说全距近似地等于全距近似地等于全距近似地等于全距近似地等于6 6 6 6倍标准差,可用(全距倍标准差,可用(全距倍标准差,可用(全距倍标准差,可用(全距/6/6/6/6)来粗略估计标准差。)来粗略估计标准差。)来粗略估计标准差。)来粗略估计标准差。下一张下一张主主页页退退出出上一张上一张作业总体、样本、参数、统计量的概念及其关总体、样本、参数、统计量的概念及其关系系精确性、准确性、随机误差、系统误差的精确性、准确性、随机误差、系统误差的概念及其关系概念及其关系如何计算平均数、方差、标准差、变异系如何计算平均数、方差、标准差、变异系数,其意义、性质是什么数,其意义、性质是什么