第二章 描述统计 知识引入统计分析工作是以通过实验或调查收集到数据为起点的拿到数据,例如:样本 A样本 B6411275692128436581153111109329794104547398667575810293我们如何能知道其中所包含的信息?它们有哪些特点呢?要回答这样的问题,特别是 要先粗略了解数据的基本特点,就需要对数据进行整理,并以恰当的方式进行呈现这个 过程可称为统计分组(grouping),即根据被研究对象的特征和统计研究的目的,将所得 数据进行适当的分组或分类统计分组最常用的方式就是编制数据次数分布(frequency distribution),它可以是任何形式的数据分组或分类;通常用图表的形式呈现出来,即次 数分布表和次数分布图尝试一下,如果将上面的两个样本按照每个数据出现的次数进行排序统计,现在你能 回答前面的问题吗?样本 A样本 B面对数据,从哪些方面刻画其主要特征呢?对单个样本来说,可以考虑数据的代表值、 数据的分散程度以及数据的分布形态可以通过第二章的统计量来刻画这些特征,而通过 次数分布表或次数分布图可以非常直观地了解这些信息本章首先介绍如何编制次数分布 表以及相应的次数分布图,接着介绍其它几种最常用的统计图。
第一节 次数分布表一、编制次数分布表的原则编制次数分布表的原则 一个完整的次数分布表应当包括标题(在科学文献中,表格的标题通常应放在表格上 方)、表(序)号、项目(变量)和单位、线条(许多文献中要求表格中只能使用横线, 甚至只能使用三根横线,称“三线表三线表”)、数字;有必要还可以使用表注(表中用“*”标出, 再在表的最下方注出)编制次数分布表之前,应当首先确定统计项目或变量的测量尺度(数据类型):离散 型变量次数分布和连续型变量次数分布有着显著的区别这里及教材中主要介绍后者离散型变量次数分布离散型变量次数分布 次数分布是直观反映随机变量各取值发生次数的数据整理方式,因此对于离散型随机 变量,其次数分布(表)更加直观,分别统计各离散类别发生次数作出表格即可下表是 某 26 人样本职业类别调查的次数分布表从中可以看出,离散变量各类别之间无顺序之分, 可任意排列;不过有时候,为了最大限度地揭示次数分布中的有用信息,往往采用按照次 数或频率对各类别进行排序的方式类别类别次数次数频率频率累加次数累加次数累加频率累加频率工人830.8830.8农民311.51142.3商人623.11765.4知识分子623.12388.5其它311.526100.0总计总计26100.0 其对应的次数分布图如下:下面是一个心理学家职业领域分布的双列次数分布表,当需要按照两个变量进行次数 统计时可以使用:二、次数分布表的编制次数分布表的编制随着大量统计软件的应用,手工编制次数分布表越来越没有必要。
不过,了解次数分 布表的一些特点,仍是统计学的一个基本功次数分布表可以将一堆杂乱无章的数据排列 成序,简洁地反映数据的整体概貌,平均水平,离散情况和分布形态等但是对原始数据 进行次数分组之后,原始数据就不见了,若只保留了次数分布丢失了原始数据,用这种分 组数据继续进行运算会带来一些运算上的误差编制次数分表的步骤如下:(1)求全距 R = Max-Min2)决定组数与组距:K = 1.87(N-1)2/5,I = [R/K],其中 R 表全距,K 为大致的组数, I 为组距,应和原始数据的精确位一样,如,成绩精确到分,长度 1.32 米表示精确到厘米3)列出分组区间,要求:①最高组包含最大值,最低组包含最小值②最低组或最高组的下限最好是 I 的整数倍③分组区间顺序排列④注意表述组限和实际组限的区别:教材 P14 表 1-2 中所列均为表述组限,他们实际 上都表示[9.5,14.5)这个实际区间,实际组限通常都取数据精确位(单位)一半往左偏移, 这是连续数据取值规则(见绪论第四节)所致,也可以满足上述①的要求,因为写分组区 间通常是从小到大写的4)求组中值,实际组限的均值由于上述组限的规定和组距通常取奇数,组中值一 般会是整数。
5)登记次数与计算次数6)求相对次数(频率),可表示每组占所有数据量的比例,有时能更准确地反映数 据中的信息次数或相对次数最后通常会求和遇四舍五入,要保证总频率和为整数 17)求累积次数和累计频率,可从任意一端开始累加最后两个步骤不是必需步骤[例例 1-1]:随机地从某省参加高考的考生中抽取 100 名,登记其英语成绩如下:70.6 77.5 82.0 90.5 81.0 85.5 71.0 80.0 92.5 77.0 88.0 81.0 76.5 67.083.0 84.0 84.0 62.0 79.0 72.0 89.0 78.0 78.0 80.0 78.5 76.5 75.0 79.566.5 81.5 75.0 84.0 90.0 80.0 86.0 84.5 68.5 71.0 86.0 81.5 79.5 80.573.0 93.0 83.0 72.0 68.0 71.0 87.0 78.0 66.0 83.0 87.0 82.5 79.5 80.082.0 81.0 86.5 83.5 71.5 83.0 91.0 96.0 75.5 89.0 87.5 69.0 74.0 70.077.5 75.0 79.0 79.0 80.5 74.5 77.0 82.5 72.5 73.5 73.5 76.0 88.5 85.089.5 78.5 76.0 74.0 98.0 73.0 94.0 79.0 80.0 75.5 83.5 82.0 65.0 74.580.0 70.5解:解:第一步:找出最大值与最小值,分别为 98.0 和 62.0,求全距 R=98.0-62.0=36;第二步:确定组数 K=1.87(100-1)2/5 =11.75≈12,组距 I=R/K=3。
第三步:列分组区间因为最小值为 62,组距为 3,所以最低组的下限取为 60,这样 最低组既包括最小值 62,又是 3 的倍数于是分组区间则取为[59.5,62.5),[62.5,65.5), ……,[95.5,98.5)第四步:求组中值,可以发现其间隔刚好就是组距第五、六、七步见下表:分组区间组中值登记次数次数频率累加次数累积频率[95.5,98.5)97||2.021001.00[92.5,95.5)94|||3.0398.98[89.5,92.5)91||||4.0495.95[86.5,89.5)88||||| |||8.0891.91[83.5,87.5)85||||| ||||| |11.1183.83[80.5,83.5)82||||| ||||| ||||| ||17.1772.72[77.5,80.5)79||||| ||||| ||||| ||||19.1955.55[74.5,77.5)76||||| ||||| ||||14.1436.36[71.5,74.5)73||||| |||||10.1022.22[68.5,71.5)70||||| ||7.0712.12[65.5,68.5)67|||3.035.05[62.5,65.5)64|1.012.02[59.5,62.5)61|1.011.01合合 计计1001.00有相对次数和累计次数或累积频率的分布表均为复杂分布表,可单独构成相对次数分相对次数分 布表布表、累积次数分布表累积次数分布表等,不再赘述。
后两类次数分布在利用次数分布表进行有关统计量 计算(缺乏原始数据)时非常有用第二节 次数分布图一、次数分布图的编制原则一、次数分布图的编制原则 次数分布图都是利用平面直角坐标系表示各统计分组的次数分布或相对次数分布通 常用纵坐标表示次数或频数,横坐标表示分组变量次数分布图按照变量的测量尺度也有 所不同由于纵坐标通常都被次数占用,所以一个平面直角坐标系中最多再能容纳两个分 类或分组变量,在各种复合图尤其要注意这一点,若横坐标占用一个变量,则再增加另一 变量,必须采用不同的图例(如不同颜色、填充等),且必须在图中表明不同图例的含义二、条形图主要特点和应用二、条形图主要特点和应用用于表示离散变量的次数分布与下面的直方图非常类似,都是用直条的长短表示各 分组或各类别的次数或相对次数;不同的是其横坐标为离散变量的各类别,因此并无单位, 条形之间是分开的复合条形图还可以表示按多变量分类的次数分布见教材 P29 图 1-10再如下图,表 示的是某次调查中不同性格类型和不同血型的人数分布这种条形图可以用来分析两个变 量间的人数分布关系(见第八章的卡方独立性检验)三、圆形图主要特点及应用三、圆形图主要特点及应用又叫饼图,用一个圆形中的扇面来表示各部分在整体中所占的比例以及各部分间的大 小关系,它和条形图一样都用于离散性数据资料,所不同的是,圆形图通常已经将次数信 息和相对次数信息全部融合在一起,这是条形图所不具备的。
对比下面两个图四、直方图主要特点及应用四、直方图主要特点及应用用于表示连续变量的次数分布其横坐标就是次数分布表中的各连续分组,因此其矩 形的的宽度也是有意义的,矩形之间是紧连的纵坐标仍然表示次数或相对次数直方图 的一个很重要的应用就是可依据它来判断连续变量的分布形态通常把那种分布呈两头低、 中间高、单峰、对称、钟形的分布称为正态分布正态分布(见第三章),如下方左图表示的是某次 考试的学生成绩分布,图中曲线为正态分布拟合线;右图则是一个非对称的偏态分布五、次数多边形图主要特点及应用五、次数多边形图主要特点及应用直方图用于表示连续性变量的次数分布,还可以用另一种多边形图来代替,通常是以 次数分布表各组的组中值为横坐标,以各组的次数或频率为纵坐标的各点连接而成的一条 折线(实际上就是直方图中各直条上端横线的中点连线)若以次数为纵坐标则称为次数 多边形图,若以频率为纵坐标,则称为频率多边形图第三节 其他统计图统计图是用点、线、面的位置、升降或大小来表达统计资料数量关系的一种呈现形式一、统计图的结构及其绘制原则一、统计图的结构及其绘制原则统计图由标题、图号、标目、图形、图注等项构成标题:图的名称应简明扼要,切合图的内容,和统计表相反,图标题一般位于图的下 方。
图号:文章中按图出现的先后次序编上序号,放在标题的前面标目:对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及其单位图例:在复合图中常用不同的图例以表示不同的变量图形:可以是点、线或条等形状图注:图注不是图中必要组成部分,用法同表注二、统计图的类型二、统计图的类型统计图可以按照不同标准来分类最常用的是按照其用途或其图形形态来分类如前 面所学的条形图、圆形图、直方图、多边形图,按照用途来分都是次数分布图但按照图 形形态分,条形图和直方图属于条图、多边形图实际上属于线形图下面主要介绍除次数 分布图之外几种常用的统计图形三、散点图三、散点图用平面直角坐标系(当然,完全可以扩展到多维坐标系中构成复合图形,其它图形同 理)上点的散布来表示两连续变量连续变量间的相关关系在相关分析前(见第二章)常借助散点 图来直观分析相关关系它是用两个变量分别作为横、纵坐标轴,用两个相关样本中的配 对数据分别作为横、纵坐标值,在坐标系上标出散点相关样本相关样本(correlated samples)亦称关联样本、配对样本,指观测值之间存在对应和匹配关系的两个或多个样本,通 常它们是具有显著相关关系的样本相关样本的判断在许多统计方法中是一个重要的先决 条件,通常有两种情况:一是对同一组研究对象实施了两次或多次不同的处理后,对之进 行同样指标的观测或者对同一组研究对象进行两种指标观测所得到的数据样本,如同一组 被试的视觉反应时和听觉反应时,同一群大学生的学习动机和学习成绩等;二是将研究对 象按照某种标准进行两两配对后,对之进行同样指标观测或不同指标观测所得到的数据样本,如将。