第二章资料的来源及整理第二章资料的来源及整理第一节第一节 资料的分类资料的分类 1 1资料的收集资料的收集2 2资料的分类资料的分类第二节第二节 资料的整理资料的整理 1 1资料的检查与核对资料的检查与核对2 2资料的整理方法资料的整理方法第三节第三节 常用统计表与统计图常用统计表与统计图 1 1统计表统计表2 2统计图统计图第一节第一节 资料的分类资料的分类①① 经常性工作(统计报表、日常工作记录)经常性工作(统计报表、日常工作记录)②② 专题调查专题调查③③ 控制试验控制试验 1 1资料的收集资料的收集第一节第一节 资料的分类资料的分类 正确地进行资料的分类是资料整理的前提正确地进行资料的分类是资料整理的前提在调查或试验中,由观察、测量所得的数据按在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为数量性状资料、其性质的不同,一般可以分为数量性状资料、 质量性状资料和半定量(等级)资料三大类质量性状资料和半定量(等级)资料三大类 2 2资料的分类资料的分类第一节第一节 资料的分类资料的分类ü数量性状资料数量性状资料2资料的分类资料的分类ü半定量资料半定量资料ü质量性状资料质量性状资料能够以量测或计数的方式表示其特征能够以量测或计数的方式表示其特征的性状的一类资料就是数量性状资料。
的性状的一类资料就是数量性状资料数量性状资料的获得有量测和计数两数量性状资料的获得有量测和计数两种方式种方式 ,因而数量性状资料,因而数量性状资料 又分为又分为计量资料和计数资料两种计量资料和计数资料两种计量资料计量资料( (连续性资料连续性资料) ) 指用量测指用量测方式获得的数量性状资料,即用度、方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量、衡等计量工具直接测定获得的数量性状资料量性状资料计数资料计数资料( (间断性资料间断性资料) ) 指用计数指用计数方式获得的数量性状资料方式获得的数量性状资料动物的体高、体重、产奶量、各种生理生动物的体高、体重、产奶量、各种生理生化指标、药动力学指标等化指标、药动力学指标等发病数、治愈数、死亡数、呼吸次数、细发病数、治愈数、死亡数、呼吸次数、细菌数、产仔数、产蛋数等菌数、产仔数、产蛋数等第一节第一节 资料的分类资料的分类ü数量性状资料数量性状资料资料的分类资料的分类ü半定量资料半定量资料ü质量性状资料质量性状资料质量性状质量性状是指能观察到而不能直接测量是指能观察到而不能直接测量的性状,如颜色、的性状,如颜色、 性别、生死等。
这性别、生死等这类性状本身不能直接用数值表示,要获类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:果作数量化处理,其方法有以下两种:统计次数法统计次数法 在一定的总体或样本中,在一定的总体或样本中,根据某一质量性状的类别统计其次数,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据以次数作为质量性状的数据评分法评分法 对某一质量性状对某一质量性状 ,, 因其类别因其类别不同,分别给予评分不同,分别给予评分研究猪的肉色遗传时,将屠宰后研究猪的肉色遗传时,将屠宰后2h的猪眼肌面积切的猪眼肌面积切面的颜色与标准图谱进行对比,由浅到深评分(面的颜色与标准图谱进行对比,由浅到深评分(1-5分)分)第一节第一节 资料的分类资料的分类ü数量性状资料数量性状资料2资料的分类资料的分类ü半定量资料半定量资料ü质量性状资料质量性状资料指指既既有有数数量量性性状状资资料料的的特特点点,,又又有有质质量量性性状状资资料料特特征征的的一一类类资资料料将将观观察察单单位位按按所所考考察察的的性性状状或或指指标标的的等等级级顺顺序序分分组组,,然然后后清清点点各各组组观观察察单单位位的的次次数数而得的资料。
而得的资料粪便潜血试验的阳性反应是在涂有粪便的棉签粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分上加试剂后观察颜色出现的快慢及深浅程度分为为6个等级,统计各等级的次数等资料个等级,统计各等级的次数等资料 三种不同类型的资料相互间是有区别的,三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料例如,一种类型资料转化成另一种类型的资料例如,兽医临床化验动物的白细胞总数得到的资料属兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按计数资料就转化为质量性状次数资料;如果按白细胞总数过高、正常、过低分为三组,清点白细胞总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料各组次数,就转化成了半定量资料 第一节第一节 资料的分类资料的分类第一节第一节 资料的分类资料的分类国外关于资料的分类国外关于资料的分类第二节第二节 资料的整理资料的整理1资料的检查与核对资料的检查与核对完整性完整性 是指原始资料无遗缺或重复。
是指原始资料无遗缺或重复正确性正确性 是指原始资料的测量和记载无差错是指原始资料的测量和记载无差错,未进行不未进行不合理的归并检查中要特别注意特大、特小和异常数合理的归并检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)对于有重复、异常据(可结合专业知识作出判断)对于有重复、异常或遗漏的资料或遗漏的资料 ,应予以删除或补齐,应予以删除或补齐 ;对有错误、相互;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验矛盾的资料应进行更正,必要时进行复查或重新试验代表性代表性 原始资料要能充分的反映它所代表总体的特征原始资料要能充分的反映它所代表总体的特征第二节第二节 资料的整理资料的整理2资料的整理方法资料的整理方法p 当观测样本个体数不多当观测样本个体数不多(n≤30)时,不必分组,时,不必分组,直接进行统计分析直接进行统计分析p 当观测个体数较多当观测个体数较多(n>30)时,宜将各观测值分时,宜将各观测值分成若干组,以便统计分析将观测值分组后,制成若干组,以便统计分析将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况成次数分布表,即可看到资料的集中和变异情况。
第二节第二节 资料的整理资料的整理( (一一) ) 计数资料的整理计数资料的整理现以现以5050枚受精种蛋孵化出雏鸡的天数为例,说明枚受精种蛋孵化出雏鸡的天数为例,说明计数料的整理计数料的整理表表1 501 50枚受精种蛋孵化出雏鸡的天数枚受精种蛋孵化出雏鸡的天数范围:范围:19-24第二节第二节 资料的整理资料的整理 小鸡出壳天数在小鸡出壳天数在19─2419─24天范围内变动天范围内变动 ,有,有6 6个不同的观察值用各个不同观察值进行分组,个不同的观察值用各个不同观察值进行分组,共分为共分为6 6组,可得表组,可得表2 2形式的次数分布表形式的次数分布表表表2 50枚受精种蛋出雏天数的次数分布表枚受精种蛋出雏天数的次数分布表正正 正正表表2-1 鸡新城疫血球凝集抑制滴度分布表鸡新城疫血球凝集抑制滴度分布表第二节第二节 资料的整理资料的整理第二节第二节 资料的整理资料的整理有些计数资料,观察值较多,有些计数资料,观察值较多,变异范围较大变异范围较大,若以每,若以每一观察值为一组,则组数太多,而每组内包含的观察一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。
对于这样的资料,值太少,资料的规律性显示不出来对于这样的资料,可扩大为以可扩大为以几个相邻观察值为一组几个相邻观察值为一组,适当减少组数,,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析这样资料的规律性就较明显,对资料进一步计算分析也比较方便也比较方便第二节第二节 资料的整理资料的整理表表2-2 100例血液涂片病变红细胞数的次数分布表例血液涂片病变红细胞数的次数分布表第二节第二节 资料的整理资料的整理(二二) 计量资料的整理计量资料的整理计量资料:组距式分组法计量资料:组距式分组法 在分组前需要确定在分组前需要确定 全距全距、、组数组数、、组距组距、、组组中值中值及及组限组限,,然后将全部观测值然后将全部观测值划线计数归组划线计数归组第二节第二节 资料的整理资料的整理200头奶牛血液镁离子含量(头奶牛血液镁离子含量(mg)资料见表)资料见表2-3,,对该资料进行整理分组对该资料进行整理分组表表2-3 200头奶牛血液镁离子含量头奶牛血液镁离子含量 单位单位∶ ∶mg第二节第二节 资料的整理资料的整理第一步:求全距第一步:求全距(极差极差) 第二步:第二步: 确定组数(确定组数(12),参考下表),参考下表 样本容量与组数多少的关系 样本容量与组数多少的关系R=3.3-1.0=2.3(mg)第二节第二节 资料的整理资料的整理第三步:计算组距第三步:计算组距 第四步:计算各组的组下限、组上限以及组中值第四步:计算各组的组下限、组上限以及组中值 分组时要使第一组的下限小于资料的最小值,最后分组时要使第一组的下限小于资料的最小值,最后一组的上限大于资料的最大值。
一组的上限大于资料的最大值 本例第一组的下限为本例第一组的下限为1.0―(1/2)×0.2==0.9 组中值=组中值=(组下限+组上限组下限+组上限)/2 =组下限+=组下限+1/2组距=组上限组距=组上限-1/2组距组距本例第一组的组中值为(本例第一组的组中值为(0.9++1.1))/2==1.0第二节第二节 资料的整理资料的整理第五步:第五步:以表格方式写出各组的下限、上限与组中值以表格方式写出各组的下限、上限与组中值 第六步:第六步:统计汇总,得到每组中出现的次数统计汇总,得到每组中出现的次数 第二节第二节 资料的整理资料的整理(二二) 计量资料的整理计量资料的整理表表2-5 200头奶牛血镁含量次数分布表头奶牛血镁含量次数分布表第二节第二节 资料的整理资料的整理(三三) 质量性状资料、半定量资料的整理质量性状资料、半定量资料的整理 按照质量性状类别或等级进行分组,分别按照质量性状类别或等级进行分组,分别统计各组的次数,绘制次数分布表统计各组的次数,绘制次数分布表。
表表2-8 F2代山羊的有角无角分离情况代山羊的有角无角分离情况第二节第二节 资料的整理资料的整理仔猪死亡情况仔猪死亡情况 第三节第三节 常用统计表与统计图常用统计表与统计图一一 统计表统计表Ø统计表是用表格形式来表示数量关系,使数据统计表是用表格形式来表示数量关系,使数据条理化、系统化,便于理解、分析和比较条理化、系统化,便于理解、分析和比较Ø编制统计表的编制统计表的总原则总原则:结构简单,层次分明,:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理内容安排合理,重点突出,数据准确,便于理解和比较分析解和比较分析ü统计表的结构统计表的结构①①标题标题②②横标目横标目③③纵标目纵标目④④线条线条⑤⑤数字数字⑥⑥合计合计表表X X 标题标题 第三节第三节 常用统计表与统计图常用统计表与统计图 第三节第三节 常用统计表与统计图常用统计表与统计图 39080 3.16 1.80 5458.34 5322.95 4331.61 987.17 12.40 1998年年资料来源:《中国统计摘要1999》,中国统计出版社,1999,第79页。
注:1.本表为城市和县城的城镇居民家庭抽样调查材料 2.消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗 保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务 37890 3.19 1.83 5188.54 4945.87 4185.64 755.94 11.90户户人人人人元元元元元元元元平方米平方米 一、调查户数一、调查户数 二、平均每户家庭人口数二、平均每户家庭人口数 三、平均每户就业人口数三、平均每户就业人口数 四、平均每人全部收入四、平均每人全部收入 五、平均每人实际支出五、平均每人实际支出 #消费性支出#消费性支出 非消费性支出非消费性支出 六、平均每人居住面积六、平均每人居住面积1997年年单位单位项目项目1997~~1998年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料行行行行标标标标题题题题表头表头表头表头列列列列标标标标题题题题数数数数字字字字资资资资料料料料附附附附加加加加 第三节第三节 常用统计表与统计图常用统计表与统计图ü统计表的种类统计表的种类①①简单表简单表 由一组横标目和一组纵标目组成,纵横标目都未分组。
由一组横标目和一组纵标目组成,纵横标目都未分组表表2-6 某猪场仔猪死亡情况某猪场仔猪死亡情况 第三节第三节 常用统计表与统计图常用统计表与统计图②②复合表复合表 由两组或两组以上的横标目与纵标目由两组或两组以上的横标目与纵标目结合而成,结合而成, 或一组横标目与两组或两组以上或一组横标目与两组或两组以上的纵标目结合而成,或两组或组以上的横、的纵标目结合而成,或两组或组以上的横、纵标目结合而成纵标目结合而成几种动物性食品的营养成分几种动物性食品的营养成分 第三节第三节 常用统计表与统计图常用统计表与统计图二二 统计图统计图ü常用的统计图有常用的统计图有条形图条形图 、、饼图饼图、、直方图直方图和和折折线图线图等 ü一般情况下,一般情况下,计量资料计量资料采用直方图和折线图,采用直方图和折线图,计数资料、质量性状资料、半定量计数资料、质量性状资料、半定量 (等级)(等级)资料资料常用条形图常用条形图 或饼图 第三节第三节 常用统计表与统计图常用统计表与统计图统计图绘制的基本要求统计图绘制的基本要求ü标题简明扼要,列于图的下方。
标题简明扼要,列于图的下方ü纵、横两轴应有刻度,注明单位纵、横两轴应有刻度,注明单位ü横轴由左至右、纵轴由下而上,数值由小横轴由左至右、纵轴由下而上,数值由小到大;到大; 图形长宽比例约图形长宽比例约5::4或或6::5ü图中需用不同颜色或线条代表不同事物时,图中需用不同颜色或线条代表不同事物时,应有图例说明应有图例说明 第三节第三节 常用统计表与统计图常用统计表与统计图u条形图条形图ü它用它用等宽长条等宽长条的长短或高低表示按某一研的长短或高低表示按某一研究究 指指 标标 划分属性种类或等级的次数或频划分属性种类或等级的次数或频率分布率分布 如果只涉及一项指标如果只涉及一项指标 ,, 则采用则采用单式长条图;如果涉及两个或两个以上的单式长条图;如果涉及两个或两个以上的指标,则采用复式长条图指标,则采用复式长条图 第三节第三节 常用统计表与统计图常用统计表与统计图某猪场仔猪死亡情况分布图某猪场仔猪死亡情况分布图 ü单式长条图单式长条图 第三节第三节 常用统计表与统计图常用统计表与统计图3000位女性身高调查数据的次数分布位女性身高调查数据的次数分布ü复式长条图复式长条图 第三节第三节 常用统计表与统计图常用统计表与统计图 不同猪场仔猪发病情况分布图不同猪场仔猪发病情况分布图 第三节第三节 常用统计表与统计图常用统计表与统计图u条形图条形图ü在绘制长条图时,应注意以下几点在绘制长条图时,应注意以下几点①①纵轴尺度从纵轴尺度从“0”开始,间隔相等,标明所开始,间隔相等,标明所表示指标的尺度及单位。
表示指标的尺度及单位②②横轴是长条图的共同基线,应标明各长条的横轴是长条图的共同基线,应标明各长条的内容长条的宽度要相等长条的宽度要相等,间隔相同间隔,间隔相同间隔的宽度可与长条宽度相同或者是其一半的宽度可与长条宽度相同或者是其一半 ③③在绘制复式长条图时,将同一属性种类、等在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔种类、等级的各长条间不留间隔 第三节第三节 常用统计表与统计图常用统计表与统计图ü单式长条图单式长条图水稻杂种二代植株米粒性状的分离情况水稻杂种二代植株米粒性状的分离情况 第三节第三节 常用统计表与统计图常用统计表与统计图u饼图饼图ü用于表示计数资料、质量性状资料或半定量用于表示计数资料、质量性状资料或半定量(等级)资料的构成比等级)资料的构成比ü所谓所谓构成比构成比,就是各类别、等级的观测值个,就是各类别、等级的观测值个数数(次数次数)与观测值总个数与观测值总个数(样本含量样本含量)的百分比。
的百分比ü把饼图的把饼图的全面积看成全面积看成100%,按各类别、等级,按各类别、等级的构成比将圆面积分成若干分,的构成比将圆面积分成若干分, 以扇形面积以扇形面积的大小表分别表示各类别、等级的比例的大小表分别表示各类别、等级的比例 第三节第三节 常用统计表与统计图常用统计表与统计图u饼图饼图(圆图圆图)某猪场仔猪发病情况分布图某猪场仔猪发病情况分布图 第三节第三节 常用统计表与统计图常用统计表与统计图u饼图饼图绘制饼图时,应注意以下三点绘制饼图时,应注意以下三点ü饼图每饼图每 3.6° 圆心角圆心角 所对应的扇形面积为所对应的扇形面积为1%ü饼图上各部分按资料顺序或大小顺序,以时饼图上各部分按资料顺序或大小顺序,以时钟钟9时时或或12时时为起点,为起点,顺时针方向排列顺时针方向排列ü饼图中各部分用线条分开,注明简要文字及饼图中各部分用线条分开,注明简要文字及百分比 第三节第三节 常用统计表与统计图常用统计表与统计图u直方图直方图 对计量资料,对计量资料, 可根据次数分布表作出直方图可根据次数分布表作出直方图以表示资料的分布情况。
以表示资料的分布情况 其作法是:在横轴上标记组限,纵轴标记次其作法是:在横轴上标记组限,纵轴标记次数数 ((f),), 在各组上作出其高等于次数的矩在各组上作出其高等于次数的矩形,即得次数分布直方图形,即得次数分布直方图 第三节第三节 常用统计表与统计图常用统计表与统计图u直方图直方图血液涂片病变细胞数分布图血液涂片病变细胞数分布图 ü用用矩矩形形的的宽宽度度和和高高度度来来表表示示频频数数分分布布的的图图形形,,实际上是用矩形的实际上是用矩形的面积面积来表示各组的来表示各组的频数频数分布分布ü在在直直角角坐坐标标中中,,用用横横轴轴表表示示数数据据分分组组,,纵纵轴轴表表示示频频数数或或频频率率,,各各组组与与相相应应的的频频数数就就形形成成了了一一个矩形,即直方图个矩形,即直方图(Histogram)ü直方图下的总面积等于直方图下的总面积等于1 第三节第三节 常用统计表与统计图常用统计表与统计图直方图的特点直方图的特点频频频频频频数数数数数数( ( (人人人人人人) ) )151512129 96 63 3105105 110110 115115 120120 125125 130130 135135 140140直方图下的面直方图下的面直方图下的面积之和等于积之和等于积之和等于1 11 第三节第三节 常用统计表与统计图常用统计表与统计图 第三节第三节 常用统计表与统计图常用统计表与统计图Ø条条形形图图是是用用条条形形的的长长度度(横横置置时时)表表示示各各类类别别频频数数的多少的多少,其宽度,其宽度(表示类别表示类别)则是固定的则是固定的Ø直直方方图图是是用用面面积积表表示示各各组组频频数数的的多多少少,,矩矩形形的的高高度度表表示示每每一一组组的的频频数数或或百百分分比比,,宽宽度度则则表表示示各各组组的组距的组距,其高度与宽度均有意义,其高度与宽度均有意义Ø直直方方图图的的各各矩矩形形通通常常是是连连续续排排列列,,条条形形图图则则是是分分开排列开排列条形图与直方图的联系与区别条形图与直方图的联系与区别 第三节第三节 常用统计表与统计图常用统计表与统计图u多边形图或者折线图多边形图或者折线图ü对于计量资料,还可根据次数分布表作出次数分对于计量资料,还可根据次数分布表作出次数分布折线图。
布折线图ü是在直方图的基础上,把直方图顶部的是在直方图的基础上,把直方图顶部的中点中点(组中组中值值)用直线连接起来,再把原来的直方图抹掉用直线连接起来,再把原来的直方图抹掉ü其作法是:在横轴上标记组中值,纵轴上标记次其作法是:在横轴上标记组中值,纵轴上标记次数,以各组组中值为横坐标,次数为纵坐标描点,数,以各组组中值为横坐标,次数为纵坐标描点,用线段依次连接各点,即可得次数分布折线图用线段依次连接各点,即可得次数分布折线图 第三节第三节 常用统计表与统计图常用统计表与统计图200头乳牛血镁含量分布折线图头乳牛血镁含量分布折线图 图图图图 某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图151512129 96 63 3105105 110110 115115 120120 125125 130130 135135 140140日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数( ((个个个个个个) ))频频频频频频数数数数数数( ((人人人人人人) ))折线图下的面积折线图下的面积折线图下的面积折线图下的面积折线图下的面积折线图下的面积与直方图的面积与直方图的面积与直方图的面积与直方图的面积与直方图的面积与直方图的面积相等!相等!相等!相等!相等!相等! 第三节第三节 常用统计表与统计图常用统计表与统计图 第三节第三节 常用统计表与统计图常用统计表与统计图数据类型与显示数据类型与显示数值型数据数值型数据品质数据品质数据分组数据分组数据总计表总计表茎茎叶叶图图条条形形图图圆圆形形图图环环形形图图直直方方图图箱箱线线图图折折线线图图原始数据原始数据时序数据时序数据线线图图雷雷达达图图多元数据多元数据 第三节第三节 常用统计表与统计图常用统计表与统计图树茎树茎树茎树茎 树叶树叶树叶树叶788788022347778889022347778889013344579901334457991010111112121313数据个数数据个数数据个数数据个数3 3131324241010茎叶图类似横茎叶图类似横茎叶图类似横茎叶图类似横置的直方图置的直方图置的直方图置的直方图图图 某车间工人日加工零件数的茎叶图某车间工人日加工零件数的茎叶图茎叶图茎叶图 第三节第三节 常用统计表与统计图常用统计表与统计图图图图图3-12 83-12 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图 第三节第三节 常用统计表与统计图常用统计表与统计图0500100015002000 食品食品 衣着衣着 家庭设备用家庭设备用 品及服务品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育娱乐教育 文化服务文化服务 居住居住 杂项商品杂项商品 与服务与服务城镇居民农村居民 图图3-15 1997年城镇居民家庭消费支出年城镇居民家庭消费支出 (元)(元)用于研究多个样本之间的相似程度用于研究多个样本之间的相似程度用于研究多个样本之间的相似程度用于研究多个样本之间的相似程度1.数据预处理的内容和目的数据预处理的内容和目的2.各种数据整理与表示方法各种数据整理与表示方法3.合理使用统计表和图合理使用统计表和图4.用用Excel作作频数分布表和图形频数分布表和图形本本 章章 小小 节节。