统计学第四章第三节

资源描述

《统计学第四章第三节》由会员分享，可在线阅读，更多相关《统计学第四章第三节（9页珍藏版）》请在金锄头文库上搜索。

1、第二节离散程度的测度 10天道森供应公司克拉克批发公司05 0.504 0.403 0.3 02 0.201 0.1 9 10 11 工作日数 7 8 9 10 11 12 13 14 15 工作日数集中趋势只是数据分布的一个特征，数据的离中趋势是数据分布的另一个重要特征。两者是反映总体数据分布特征的一对对立统一的代表值。一、离散程度指标，又称标志变异指标，标志变动度。（一）定义就是总体各项标志值差别大小的程度。（二）应用1主要是评价平均数代表性的依据。平均数的代表性与标志变动度的数值成反比。例如：有甲乙两组工人，人数都是5人。每人每日产量：甲：5 20 45 85 95 乙：48 4

2、9 50 51 52 平均数 50 95-5 90 52-48 4 2标志变动度可以用来反映社会生产和其他社会经济活动过程的均衡性或协调性。标志变动度小，就说明生产或经济活动各阶段变动幅度小，是均衡的协调的，反之，就是不均衡，不协调的。二、测量标志变动度的主要方法（一）异众比率分类数据，顺序数据，数值型数据1 定义：异众比率，即非众数组的频数占总频数的比率。2 公式： Vr=(fi fm)/ fi =1fm/ fifi变量值的总频数，fm众数组的频数。3 作用：主要用于衡量众数对一组数据的代表程度。异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差；反之，异众比率越小

3、，说明非众数组的频数占总频数的比重越小，众数的代表性越好。 4 适用围：测定分类数据（也可以是顺序数据，数值型数据）的离散程度饮料品牌频数可口可乐 15 升 11 百事可乐 9 汇源果汁 6 露露 9 合计 50 异众比率解： Vr=(fi fm)/ fi =1fm/ fi=（5015）/50=35/50=0.7=70%（二）四分位差顺序数据数值型数据 1 定义：上四分位数和下四分位数之差。 2 公式： Qd=QuQl 3 作用：反映了中间50%数据的离散程度。其数值越小，说明中间的数据越集中，数值越大，说明中间的数据越分散。常常和中位数一起使用4 特点：四分位差不受极值的影响。例

4、如：在某城市中随机抽取9个家庭，调查得到每个家庭的人均月收入数据如下（单位为元），计算人均月收入的四分位差1500 750 780 1080 850 960 2000 1250 1630解：先按大小顺序排队 750 780 850 960 1080 1250 1500 1630 2000 QL位次(n+1)/4 =（9+1）/4=2.5QL=（780+850）/2=815（元） QU位次3(n+1)/4 =3（9+1）/4=7.5QU=（1500+1630）/2=1565（元）四分位差 Qd=QuQl=1565815=750（元）（三）全距（极差）数值型数据 1 全距是一个数列中两个极端

5、数值之差。（最大值-最小值）组距数列，以最大一组的上限和最小一组的下限之差为全距。例如：甲：5 20 45 85 95 乙：48 49 50 51 52甲组全距=95-5=90 乙组全距=52-48=4 一般地说，全距数值愈小，标志变动度愈小，反映变量值愈集中，反之，越大。2 评价：意义明确，计算简单。但不考虑中间变量，受极端值影响。有时根本反映不出差异程度。 10 20 30 40 50 60 70 80 90 100 55 9010 50 50 50 50 60 60 60 60 100 55 90 （四）平均差1定义：各标志值对其算数平均数的平均离差2公式（五）标准差1 定义各标志值

6、对其算数平均数的平均离差2简单式（未分组资料）3加权式（分组资料）如果是样本资料，将来要推断总体的，方差及标准差的公式就是：分母用样本数据个数减1：n1 n1 称为自由度。公式为：为什么样本方差是用自由度n1去除？样本方差的表达式中的分子，为 n个量的平方和，为何自由度只有 n1 、这是因为这n个离差并不能自由变化，而是受到一个约束，即离差之和等于零，这使它的自由度少了一个。在样本方差公式中的分母上是n1，就是因为当给定均值时，x1,x2,x3,-xn,这n个数据中前n1个数据都可以自由取值，而第n个数据受全部数据的平均值的制约，不能自由取值。第n个数据可以由公式xi求得。因此，方差的自由度

7、是n1。也可以这样理解：从字面意义上看，自由度是指一组数据中，可以自由取值的个数。当样本数据的个数为n时，如果样本平均数确定后，只有n1个数据可以自由取值，其中必有一个数据不能自由取值。例如，假如样本有3个数值，X1=2，X2=4，X3=9，则平均数=5。当平均数=5确定后，X1，X2，X3只有两个数据可以自由取值，其中必有一个不能自由取值。例如X1=6，X2=7，那么X3则必然取2，而不能取其他值。另一种解释：即共有n个样本，有n个自由度。用样本方差估计总体方差，自由度本应为n，但总体均值也未知，用样本平均数去估计它，就用掉了了一个自由度，故，只剩下n1个自由度。（七）标准差系数厂名工人平

8、均标准差标准差系数劳动生产率（元）甲 16000 600 3.75乙 8000 400 5.00（八）标准分数每一个变量值相对位置的测度 1. 标准分数变量值与其平均数的离差除以标准差后的值。又称z分数，或标准化值。设标准分数为zi,则有zi=（离差/标准差） z分数，zi可以被解释为xi偏离平均数，相当于标准差的个数。如，z=2，表示变量值比平均数大2个标准差，如果等于-2，则表示变量值比平均数小2个标准差。z分数大于0，是指那些数值大于平均数的观察值，z分数小于0，是指那些数值小于平均数的观察值，z分数等于0，是指那些数值等于平均数的观察值，任何观察值的z分数都可以解释为该观察值在数

9、据集中相对位置的测度。因此，如果位于两个不同数据集中的观察值的z分数相等，则可以说它们的相对位置相同，即偏离平均数的标准差的个数相同。例如：已知下面样本的平均数为44，标准差是8。班级的学生数xi 均值的离差 z分数 46 2 0.25 54 10 1.25 42 -2 -0.25 46 2 0.25 32 -12 -1.5 第5个观察值的z分数是-1.5，说明它是偏离平均数最远的一个样本，它比平均数低1.5个标准差。（九）经验法则经验法表明，当一组数据对称分布时：约有68%的数据在平均数加减1个标准差的围之。约有95%的数据在平均数加减2个标准差的围之。约有99%的数据在平均数加减3个标准差

10、的围之。例如，液体清洁剂纸板箱在生产线上可以被自动装满。填充的重量通常呈钟型分布。如果填充重量的平均值是16盎司，标准差是0.25盎司，利用经验公式：大约68%的已填充纸板箱的重量在15.75-16.25之间大约95%的已填充纸板箱的重量在15.50-16.50之间大约99%的已填充纸板箱的重量在15.25-16.75之间可以看到，一组数据中低于或高于平均数3倍标准差之外的数值是很少的，也就是说，在平均数加减3个标准差的围几乎包含了全部数据，而在3个标准差之外的数据，在统计上也称为异常值或离群点。(十)切比雪夫不等式对于任意分布形态的数据，根据切比雪夫不等式，至少有（1-1/z.z）的数据落

11、在z个标准差之。其中z是大于1的任意值，但不一定是整数。z=2,至少有75%的数据落在平均数加减2个标准差的围之z=3,至少有89%的数据落在平均数加减3个标准差的围之。z=4，至少有94%的数据落在平均数加减4个标准差的围之例如，假设100个大学生数学课程的考试成绩的平均数是70分，标准差是5分。那么有多少学生的考试成绩在6080之间？又有多少学生的考试成绩在5882之间？第二节偏态与峰态的度量偏度和峰度是从整个图形来刻画分布特征的。一偏态及其测度（一）偏态即指数据分布的不对称性。偏斜的程度测定偏态系数1 未分组资料的偏态系数公式例如：某组工人生产产品日产量件数分别为48 49 50 51 52 计算偏态系数。平均数=x/n=（48+49+50+51+52）/5=50 标准差=1.41 n=5 生产件数离差离差平方离差立方 48 -2 4 -8 49 -1 1 -150 0 0 051 1 1 152 2 4 8250 0 10 0 sk=50/(5-1)(5-2) 1.41 1.411.41=0 （正态分布）例如：某组工人生产产品日产量件数分别为5 20 45 85 95 计算偏态系数。平均数=x/n=50 标准差=35.2 n=5 生产件数离差离差平方离差立方

展开阅读全文

统计学第四章第三节

最新文档