第二章次数分布>>>>>>次数分布综述次数分布表次数分布图次数分布的形状茎和叶图百分位数,百分位等级,插值法次数分布综述■ 描述统计的目的:简化和整理数据的表达■ 次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的■ 次数分布:是指一批数据在某一量度的每一个类目所出现的次数情况■ 组织此类数据的第一种方法是:建立次数分布表次数分布表◊ 次数分布表的要素> 变量的值?-填充x列> 每个值出现多少次(发生次数)?-填充f列> 观察的总数?将次数行求和,将得到£ f = N> 变量的总值?最简单的方法就是求(X)和(f)的乘积列,然后将结果求和£ (Xf )例1:对于下面的次数分布表:i.此分布中共有几个分数(N = ?)ii.对这些分数求和£Xxf42342513例2:某个班的26个学生在一次测验中的分数如下(10分为满分):9,2,3,8,10,9,9,2,1,2,9,8,2,5,2,9,9,3,2,5,7,2,10,1,2,9将这些分数作成一个次数分布表比例(相对次数;Proportions).全组中有多大比例取值为X? p = f / N(N =观察的总数). 百分比(Percentages).全组中有多大比例取值为X? p * 100iii iv v分组次数分布表常常以区间的形式出现,而不是某一特定值.例如学生成绩,(A = 90-100, B = 80-89, ...).编制分组次数分布表的步骤求全距定组数定组距写出区间上下限统计每个区间的次数建构这些区间有一系列的“惯常法则”i.•(rules of thumbs)分组次数分布表应该有大约10个区间,目的是使这组数据易于直观感受和理解 组距应该是个比较简单的数字,如2, 5,10,20iii.iv.每个区间开始的分数应该是组距的倍数 所有区间的宽度应该相等次数分布图次数分布的数据可以用图简明地概括> 直方图(histogram):用一些垂直条画在每个分数之上口 垂直条的高度代表次数口 垂直条的宽度代表分数的精确区间.口 只有数据是等距或等比量度时,才能用直方图♦ 注意:对于一个连续变量,每个分数实际对应一段组距.分割这些组距的界限叫做精确界限(real limits).分割两个邻近分 数的精确界限位于两个分数的中间。
♦ 每个分数有两个精确界限,一个在组距的顶端,称为精确上限(upperreallimit),另一个在组距的底端,称为精确下限(lower real limit).♦ 注意一个组距的精确上限也是高一个组距的精确下限例3:绘制一个直方图来表达例2的分布口 水平轴-X轴(abscissa)- X的值垂直轴-Y轴(ordinate)-次数> 棒图(条形图;bar graph):用一些垂直条画在每个分数(或类别)之上■ 垂直条的宽度代表分数的精确区间.■ 垂直条的高度代表次数■ 每个垂直条之间有一段空间■ 只有数据是命名或顺序量度时,才能用棒图-作全班同学家乡地区的棒图> 折线图(line graph),又称次数分布多边图(frequency distribution polygon)■ 在每一分数上面画点■ 点的高度代表次数■ 一条连续折线将这些点连接在一起 次数分布的形状> 用3个特征可以完整地描述一个分布:形状(shape),集中趋势(central tendency),和变异性(variability).♦对称分布(symmetrical distribution :可以画一条垂直线穿过分布的中央,使得分布的一边恰是另一边的镜象。
♦偏态分布(skewed distribution中,分数堆积在分布的一端,而另一端成为比较尖细的尾端(tail)<------尾端向左:负偏态 正偏态:尾端向右---->♦ 偏态分布尾端向右的称为正偏态(positively skewed)(因为其尾端指向正数)♦ 偏态分布尾端向左的称为负偏态(negatively skewed .- 如何描述例2-例3分布的形状?- 从整体上说,这个班的学生测验情况怎么样?大部分分数是偏高还是偏低?测验容易还是简单?♦ 双峰分布茎和叶图♦ 茎和叶图(stem and leaf display)-将每一数字分解为左边部分(称为茎)和右边部分(称为叶).如果数字是两位数,左 边的一位就是茎,右边的一位就是叶.271 4586 302 41693 265例4:考察下列茎和叶图:8765432a) 以10为组距宽度,作相应的分组次数分布表b) 以10为组距宽度,作相应的次数分布直方图c) 如果给定分组次数分布表,能否作出茎和叶图?为什么?百分位数> 以上是描述观察的整体,而我们也可用次数分布来描述某一个别点在一个集合中的位置> 一个分数的等级(rank)或百分位数等级(percentilerank):某一分布中分数在某一值之下或等于该值的个体所占的百分 比.当一个分数被其百分位数等级,该分数称为百分位数(percentile).例4:此表是一次词汇测验的分数:X f p % cf c%52.05540100410.25253895316.4040287028.2020123014.1010410_cf =累积次数(cumulative frequency)c% =累积百分比(cumulative percentage)如果你在测验中得到4分,你的百分位数等级是多少?>如何确定百分位数注意:对于连续型数据,必须考虑其精确上限和精确下限- 步骤1) 找出分布中分数在4分之下或等于4分个体的个数,即累积次数.-对于分数4,其对应的累积次数是38,意思是40个学生中的38个在测验中的得分是4分或4分以下。
2) 这些累积次数转换位累积百分比-对于分数4,其对应的累积百分比是95%.■ 注意:百分位数不是分数,只是组距.分数4意味着一个人得分在3.5和4.5之间.累积百分比表明组距的精确上限因此,95的百分位数是与4.5相对应(而不是4.0).插值法(Interpolation)-有时你所感兴趣的值并未出现在表内此时你需要做基于经验的猜测.其中的一个方法是插值法早上8:00温度是20度,到中午12:00温度是28度上午9:00是多少度呢?- 步骤:1) 找出两个量数组距的宽度如,时间8到12点;温度60到68度4小时;8度2) 找出组距中已知值的位置=已知值与组距顶端的距离/组距宽度=12: 00 - 9:00 = 3 小时 / 4 小时=.753) 用所得位置(分数)来确定另一量表中对应的所求值与组距顶端的距离=(分数)X (另一量表组距宽度)=.75 X 8 度=6 度再求得插入值--> 28 - 6 = 22度(9:00的温度) 例5:_X____f cf G%_■1022510098239284156076114464520_5__ 1 1 X = 7.0所对应的百分位数等级是多少?。