163编号四、单变量的描述统计离散趋势分析和集中趋势分析

资源描述

《163编号四、单变量的描述统计离散趋势分析和集中趋势分析》由会员分享，可在线阅读，更多相关《163编号四、单变量的描述统计离散趋势分析和集中趋势分析（67页珍藏版）》请在金锄头文库上搜索。

1、1,第五讲：单变量描述统计,集中趋势测量离散趋势测量,2,知识点：两个维度七个统计量数,3,学习要求,1、集中趋势各测量法的计算方法； 2、集中趋势各测量法的特点和应用； 3、离散程度各测量法的计算方法； 4、离散程度各测量法的特点与应用；,4,单变量描述统计,在统计分析中，是否可以找出一个有代表性的数值来说明变量的分布，反映资料的集中或差异情况？集中趋势测量，就是以一个数值来代表变量的资料分布，反映的是变量值向中心值聚集的程度，也就是说以这一个数值（或称典型值）来估计或预测每一个研究对象的数值时发生的错误总数在理论上是最小的。离散趋势测量（Measures of dispersion）

2、就是用一个值表示数据之间的差异情况。离散趋势测量法和集中趋势测量法具有互补作用。在进行统计分析时，既要测量变量的集中趋势，也要测量离散趋势。,5,集中趋势测量/分析,集中趋势测量：用某一个典型的变量值或特征值来代表全体变量的问题，这个典型的变量值或特征值就称作集中值或集中趋势。众值（Mode) 定类层次中位值（Median)定序层次均值（Mean) 定距层次,6,一、众数（mode）,1、出现频次最多的变量值； 2、众数的不唯一性； 3、主要应用于定类变量，当然也可以应用于定序和定距变量,7,众数的特点：不唯一性,原始数据：4、5、7、8、19（无众值）原始数据：4、5、7、5、5、

3、16（一个众值）原始数据：4、4、5、7、7、9（两个众值）,8,例1：非连续取值,9,例2 分组数据,10,从分布来看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的数值及为众数。,11,二、中位值（Median）,1、把一组数据按顺序排列，处于中间位置的那个数值就是中位值。 2、主要应用于定序变量，也可用于定距变量，但不可用于定类变量。,Md,12,（1）未分组数据求中位数： Md位置= （2）中位数=中间位置的值注意：先找位置，再找中位数将各个个案由低至高排列起来，居序列中央位置的个案值就是中位值。,13,（1）、个案数为奇数,【例1】：甲地的5户人家的人数为：2，

4、4，3，6，8，求中位值。解：Md的位置 3,排序2，3，4，6，8,中位值Md=4,14,（2）个案数为偶数,【例2】：乙地的6户人家的人数为：2，4，3，6，8，5求中位值。解：Md的位置 3.5,排序2，3，4， 5, 6，8,Md= =4.5,15,（3）频数分布表,【例3】根据下表求中位值。,解：Md位置 250.5 中位值Md乙,16,2、分组数据,根据统计表中的累积百分比，找出含有50%的区间找出含有50%区间的上界值U，下界值L，上界累计百分数U%，下界累计百分数L%以及组距等信息根据线段对应成比例的原理，计算出累计百分比为50%的变量值,17,L：中位数组的下限 f：

5、中位数组的频数 w：中位数组的组距（U-L） cf：低于中位数组下限的累加次数 n：全部个案数 Md位置=n/2 （上下各50%的位置）,18,例：分组数据：,首先将各组的次数累加起来求中位数的位置： Md位置=n/2 =212/2=106 第106个位置在 25-35之间,19,分组变量看作是一组连续的数值,25,94,35,124,?,106,10,30,12,20,【例4】：根据下表数据求中位值。,解：Md位置50；从累积频数cf栏找到中位数位置所在组为“300400” 引入公式：,=350,21,三、均值,1、均值的定义：总体各单位取值之和除以总体单位数目。 2、仅适用于定距变量

6、，不适用于定类和定序；,22,1、未分组数据,（1）简单原始资料求均值,23,均值的计算未分组数据,【例5】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁，求他们的平均年龄。,解：根据平均数的计算公式有：,24,（2）、加权平均数,某个变项值重复出现多次，可以先统计每个值（x）的次数（f），再求次数与相应变量值的乘积（fx），利用各乘积之和求出均值。（f也称为权数,f/n称为权重）公式：,25,未分组数据加权平均数,【例6】调查某年120名学生的年龄，结果如下表，求平均年龄。,解：根据公式得 18.9岁,26,2、分组资料求均值：根据组中值求均值,先求出

7、组中值组中值=（上限+下限）/2 计算组中值的和计算分组数据的均值,组中值,27,众值、中位数和均值的比较1,注：表示该数据类型最适合用的测度值,28,众数、中位数和平均值的比较,众数是一组数据中出现次数最多的数值。但在社会调查中众数的代表性较小,29,中位数和平均数的比较,计算平均数时用到数据中所有的数值，而求中位数时只用到数值的相对位置，平均数比中位数利用了更多的有关数据的信息平均数容易受到极端值的影响，而中位数则不会受这种影响。当样本中数据值的分布是高度倾斜的，中位数一般比平均数更适合一些如100，200，400，500，600，均值为360，中位数为400 100，200，

8、400，500，1000，均值为440，中位数为400,30,对随机抽样调查来说，平均数比中位数更稳定，它随样本的变化比较小平均数比中位数更容易进行算术运算。,31,众数、中位数、均值比较2,但两种情况不宜用均值： (1)分组数据的极端组没有组限。 (2)个别数值非常特殊。,32,33,练习：,求下表(单项数列)所示数据的算术平均数。,34,求下表所示数据的的算术平均数,35,求54，65，78，66，43这些数字的中位数。求54，65，78，66，43，38 这些数字的中位数。,36,某年级学生身高如下，求中位数,37,求下表中的众数,38,求下表中的众数,39,城镇自杀率的分组次数

9、分布,40,第五讲单变量的描述统计（2）离散趋势测量,41,离散趋势测量（Measures of dispersion）,反映的是各变量值偏离其中心值的程度，是个案与个案之间的差异情况。这种测量法，与前面所讲的集中趋势测量法具有相互补充的作用。集中趋势求出的是一个最能代表变量所有资料的值，但是集中趋势值代表性的高低还要看各个个案之间的差异情况。,42,举例：某校3个系各选5名同学参加智力竞赛，他们的成绩如下：中文系：78，79，80，81，82 （ 80）数学系：65，72，80，88，95 （ 80）英语系：35，78，89，98，100 （ 80）如果仅从集中趋势测量（平均

10、分数）来看，这三个系的成绩都一致，不存在什么差别。但从直观上可看出，三个系选手之间的差距程度（离散程度）很不一样？,43,异众比率/离异比率（Variation ratio) 定类层次四分位差（Interquartile range)定序层次方差（Variance) 标准差（Standard deviation)定距层次,44,一、异众比率（Variation ratio),1、异众比率(简写Vr) ：指非众值在总数中所占的比率。表示以众数来预测一组数据时，所犯错误的大小.即Vr值越大,则众值的代表性就越小. Vr值越小,则众值的代表性就越大. 2、计算公式：,：众值的频次,45,

11、异众比率(先找出众值.找到众值的频次分布),【例1】：根据表1中的数据，计算众值和异众比率。,解：众值Mo “核心家庭” 异众比率,46,例2：众数和异众比率的比较,表2 甲乙两校学生的父亲职业,甲乙两校学生的父亲职业的众数都为“农民” 甲校乙校众数的代表性中甲校小于乙校，甲校中有47.6%非农民，乙校只有38.5%.,47,异众比率&众值,异众比率是众值的补充。取值范围是0，1。不属于众数的个案所占的比例愈大，就表示众数的代表性愈小，以之作估计或预测时所犯的错误也就愈大。当 Vr 0，说明变量只有一个值，那就是众值；当 Vr 0，说明资料比较集中，众值的代表性比较高；当 Vr

12、1，说明资料比较分散，众值的代表性低。,48,二、四分位差（Interquartile range),将数据由低至高排列，然后分为四等分（即每个等分包括25的数据），第一个四分位置的值（ Q1 ）与第三个四分位置的值（Q3）的差异，就是四分位差（简写为Q）。,Q1,Q2,Q3,Q4,25%,25%,25%,25%,49,1.离散程度的测度值之一 2.也称为内距或四分间距 3.上四分位数与下四分位数之差 4.反映了中间50%数据的离散程度 5.不受极端值的影响 6.用于衡量中位数的代表性,50,基本公式,求位置，找出4分位对应的数值 Q1= Q3= 四分位差Q Q3 Q1。,51,1、根据原始未

13、分组资料求四分位差,解： Q1 的位置 =75.25 Q3的位置 225.75 那么 Q1 不满意； Q3 一般 Q Q3 Q1 一般不满意结论，有一半的家庭对住房评价在不满意到一般之间。,【例3】求下表的四分位差,52,例4：调查甲乙两村的家庭人数,其中甲村有11户人家，每户人数为 2，2，3，4，6，9，10，10，11，13，15 乙村有8户人家，每户人口数为 2，3，4，7，9，10，12，12 则甲村中：Q1 位置=（n+1）/4=（11+1)/4=3， Q1 =3 Q3位置=3（n+1)/4=9， Q3=11 Q=Q3-Q1=11-3=8 则乙村中： Q1 位置=（n+1）/4=

14、2.25， Q1 =3+0.25(4-3)=3.25 Q3位置=3（n+1)/4=6.75， Q3=10+0.75(12-10)=11.5 Q=Q3-Q1=11.5-3.25=8.25 甲的离散程度低于乙村，以中位置估计甲乙两村的人口数时，在甲村犯的错误小于乙村,53,2、根据分组资料求四分位差,有四步：计算向上累加次数求出Q1 和Q3的位置 Q1= Q3= 参考累加次数分布，决定Q1和Q3属于哪一组从所属组中，计算Q1位置和Q3位置的数值。,54,公式如下：,L1=Q1属组之真实下限 L3=Q3属组之真实下限 f1=Q1属组之次数 f3=Q3属组之次数 cf1=低于Q1属组之累计次数

15、cf3=低于Q3属组之累计次数 w1=Q1属组之组距 w3=Q3属组之组距 n=全部个案数目,55,四分位差&中位数,四分位差反映的是中位数的代表性差距越大，中位数的代表性越小，用中位数估计变量时所犯的错误越大；反之，中位数的代表性越大，用中位数作估计犯的错误越小。,56,三、方差和标准差,1.离散程度的测度值之一 2.最常用的测度值 3.反映了数据的分布 4.反映了各变量值与均值的平均差异 5.根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差,57,三、方差与标准差,所谓方差（Variance) ，观察值与其均值之差的平方和除以全部观察总数N。方差的平方

16、根就是标准差（Standard deviation)，用或S,58,表示以均值作代表值时引起的偏差或错误，也就是说用均值来估计或预测各个个案的数值，所犯的错误（）平均是标准差是用得最多，也是最重要的离散量数的统计量；方差是统计学上的一个重要概念，在以后的统计方法学习过程中会进一步了解；只适用于定距层次的变量；,59,总体方差和标准差,未分组数据：,未分组数据：,分组数据：,方差的计算公式,标准差的计算公式,60,样本方差和标准差,分组数据：,未分组数据：,分组数据：,方差的计算公式,标准差的计算公式,未分组数据,61,样本方差的自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时，若样本均值x 确定后，只有n-1个数据可以自由取值，其中必有一个数据则不能自由取值

展开阅读全文