lec6 数据的离中趋势等的描述

资源描述

《lec6 数据的离中趋势等的描述》由会员分享，可在线阅读，更多相关《lec6 数据的离中趋势等的描述（41页珍藏版）》请在金锄头文库上搜索。

1、数据的离中趋势、峰度、偏斜度描述,第六讲,大纲,离中趋势的计量区域/全距/范围、平均差、四分位距、方差、标准差 Chebishev定理与经验法则相对离中趋势偏斜度和峰度的计量对方差、偏斜度和峰度的进一步讨论,离中趋势,离中趋势反映的是一组资料中各观测值之间的差异或离散程度与集中趋势相反如下如所示，三个不同的曲线表示三个不同的总体，其均值相同，但离中趋势不同,区域/全距/范围（Range）,全距又称极差，指一组资料中最大的数值与最小的数值之差。 R 最大值最小值简单明了，但没有考虑中间值以及数据的分布情况落差、温差,平均差（Average Deviation）,一组数据值与其均值

2、之差的绝对值的平均数称为平均差以.D.表示，其计算公式为： ECXCEL中计算函数：AVEDEV 平均差的特点优点：充分考虑了每一个数值离中的情况，完整地反映了全部数值的分散程度，在反映离中趋势方面比较灵敏，计算方法也比较简单缺点：由于它的敏感性，使得它易受极端值影响，特别是绝对值运算给数学处理带来很多不便,四分位距 (Interquartile Range),Q = Q3 - Q1，与极差类似四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的数据越集中；数值越大，说明中间的数据越分散。四分位差主要用于测度定序数据及数值型数据的离散程度的测定。它克服了极差容易受极端值的影

3、响这一缺陷。此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。,总体方差（Variance）与总体标准差（Standard Deviation）,方差与标准差是测度离中趋势的最重要、最常用的量总体方差是一组总体资料中各数值与其算术平均数离差平方和的平均数，通常用s 2 表示，总体标准差则是总体方差的平方根，用s 表示：（m 表示总体均值）,方差与标准差的性质,以离差来反映一组数据的差异程度的与平均差一样对离差的处理方式与平均差不同方差和标准差是通过对离差进行平方来避免正负离差的互相抵消这使得它不仅能够考虑所有数据的情况来可以反

4、映数据离散程度的大小，而且避免了绝对值计算，使得数学上的处理更加方便方差在统计推断上具有较佳的统计与数学性质，这就使得方差成为最重要的离中趋势测度量,样本方差（Variance）与样本标准差（Standard Deviation,样本方差是一组样本资料中各数值与其算术平均数离差平方和的平均数，通常用 S2表示。样本标准差则是样本方差的平方根，用S 表示：离差的计算使用的是样本均值当样本数据个数很大时，n与n 1很接近，从而样本方差与总体方差也很接近。强调：样本方差的分母为n 1，总体方差的分母为n,方差和标准差的计算,方差的简便运算平方的均值减去均值的平方用EXCEL求方差和标准

5、差总体方差和总体标准差 s 2 = VARP( )， s = STDEVP( ) 样本方差和样本标准差 S2 = VAR( )， S= STDEV( ),Chebishev定理,方差和标准差是较重要的离中趋势测度量，其大小说明各数值在均值周围分布的情况，当一组资料的标准差较小时，说明大多数的数值集中于均值附近。提出一个问题：已知一组数据的均值和方差，究竟有多少个数值落在均值附近的某一个区间内呢？,Chebishev定理,对任何的一组资料，观测值落于均值左右k个标准差的区间内的比例，至少为（1-1/ k2 ）。例如，有一组关于顾客购物付帐时等候时间的资料，已知等候时间的均值为4分钟，标准差

6、为0.9分钟根据Chebishev定理，当k =2时，至少有1-(1/2)2 =3/4或75%的观测值落在均值左右两个标准差的区间内，即420.9区间内也就是说，等候时间介于2.2分钟至5.8分钟之间的顾客至少占75%,各种不同K值所对应的观测值落入的区间,Chebishev定理适用于任何形状的次数分布资料，但按Chebishev定理得到的估计区间是一个比较保守的估计值，只说明了至少有多少比例在某一区间内，至于确切的比例仍不得而知,经验法则,当资料分布形状呈对称时，则有：约有68%的观测值落于(xbar, xbar+ ) 约有95%的观测值落于(xbar2, xbar+2 ) 约有97

7、%的观测值落于(xbar3, xbar+3 ) 假如上例顾客等候付帐的时间是对称分配，则有95%的顾客需等候2.2分钟至5.8分钟,相对离中趋势,前面各种度量离中趋势的量，都带有与原资料相同的计量单位，属于绝对数，凡性质相同，计量单位相同，均值相同的统计资料，都可用绝对离中趋势量来比较但是，如果资料的性质不同、单位不同、或均值不同，就要考虑用相对离中趋势度量来进行比较，因为此时绝对离中趋势的度量量已不能反映各组资料差异程度的区别和大小,相对离中趋势的作用,由方差公式：可以看出，导致方差绝对水平不同的因素有：变量本身的离散程度变量本身的平均水平采用的度量单位引入相对离中趋势，消除均值

8、水平以及度量单位的不同对数据资料离散程度的影响,变异系数与平均差系数,变异系数又叫离散系数，它是标准差与均值之比值计算公式为：平均差系数测度的是相对离中趋势，它是平均差与均值之比计算公式为：,案例分析,在一项实验中，实验组(treatment group)接受了某种阅读技巧的训练，控制组(control group)则无。每组各10人。训练后，对两组成员的阅读错误次数进行了测试，结果见下，请对训练效果进行评价,实验效果分析、评价,阅读训练显著地降低了实验组的阅读错误次数由于两组的均值不等，通过比较变异系数，可以看出，虽然实验组的标准差小于控制组，但是变异系数却大于控制组，这表明，实验组

9、错误次数的分散程度要大于控制组，说明阅读训练的之后，个体的阅读能力产生了较大的差异,变异指标的比较,极差容易计算和理解只利用最大和最小值，完全不考虑其他数据的存在，无法精确反映所有数据的分散情形四分位距利用第三和第一个四分位数的差距来表示数据的分散情形，避免受到极端值影响的缺点计算不方便，也没有用到所有的数据点平均差利用了所有的数据资料，比较全面反映数据的离散程度；含义也容易理解绝对值的运算不方便,变异指标的比较,方差与标准差方便的代数运算，可以用于估计总体参数由于使用了平方，比平均差更容易受到极端值的影响标准差系数消除平均数的影响，适用于比较均值水平差异很大的总体的离

10、散程度,案例分析：产品质量控制,某快餐公司的管理人员要监测送外卖的时间，他考察了10名员工10次的送餐时间，得到相关数据。试根据这些样本资料对该公司的送餐时间进行质量控制分析，以半个标准差为控制上下限,数据的分布形状,Karl Pearson (1857-1936) 在对概率分布的研究中，发现了一组被他称为“偏斜分布”的一组分布函数，他认为这组函数可以描述数据的任何分布类型，而它们的分布则取决于四个参数：平均数：测量数据的中间状态；标准差：测量数据的分散程度以及偏离均值的程度；对称性：测量数据在均值一边的堆积程度；峰度：测量个别的观测值偏离均值有多远,偏斜度(Skewness)的计量,

11、计量偏斜度的意义两组资料虽然平均数与标准差皆相同，却可能由于各自不同的偏斜情况，使得次数分配的形状不相同偏斜度的计量就是要讨论如何衡量这种偏斜的程度计量指标 Pearson偏态系数动差法偏倚系数,Pearson偏态系数,Pearson (1895)偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度偏态系数小于0 平均数在中位数之左，是一种左偏分布，又称为负偏左边的尾部比较长，数据在均值的右侧堆积较多偏态系数大于0 均值在中位数之右，是一种右偏分布，又称为正偏,Pearson偏态系数是根据众数、中位数与均值各自的性质，通过比较众数或中位数与均值来衡量偏斜度的,动差法偏倚系数

12、,动差法又称矩法矩：矩分为原点矩与中心矩 h=0 为原点矩 h=m 为中心矩 k为矩的阶数请你写出一阶原点矩和二阶中心矩的表达式，并解释其含义,偏倚系数,当分布对称时，它的所有奇数阶中心矩均为0 考察三阶中心矩保留了离差的正负号，并且相加之后不会出现正负抵消的情况，其大小可以反应出均值两侧观测值的大小是否对称定义偏倚系数：通过a3的符号可以判断是正偏还是负偏同时a3的绝对值越大，说明数据偏斜程度越大,峰度(Kurtosis)的计量,峰度系数 K=a4 =3，峰度适中，称为常态峰 K=a4 3，称为高狭峰，或尖峰 K=a4 3，称为低阔峰，或扁峰,峰度与尾部分布,Pearson (

13、1905)建立峰度的这一指标，目的是为了测量与具有同方差的正态分布相比，一个分布的最高处是否很平或很尖但人们后来发现，峰度值更适合于描述一个分布的尾部厚度，即它是否很宽还是很窄何为“尾部”？通常指的是矩离均值一个标准差之后的部分,用EXCEL求偏斜度与峰度,动差法偏倚系数：函数SKEW 计算公式：计算的是样本偏倚系数，因此进行样本容量调整结果大于零，说明分布为正偏，小于零则为负偏峰度：函数KURT 计算公式：结果大于零，说明分布比正态分布尖锐，负峰值则表示相对平坦的分布,案例分析,已知某商场9月份的日销售额资料：万元 236 238 240 249 252 257 258 261

14、263 265 267 268 269 271 272 273 274 276 278 280 281 284 291 292 295 297 301 303 310 322 对其销售额情况进行分析,对方差、偏斜度和峰度的比较,偏斜度：反映的是在平均数两侧，次数分配的对称程度如果比平均数小的单位数偏多，说明平均数右侧的观测值偏大，分布曲线右边的尾部较长，数据呈右偏分布 Pearson偏态系数比较粗略动差法偏移系数比Pearson偏态系数更精确三阶中心矩保留了离差的正负号，并且相加之后不会出现正负抵消的情况，其大小可以反应出均值两侧观测值的大小是否对称,峰度：本质上描述的是数据分布的“肥尾

15、”程度四阶中心矩：因为是4次方，从而远离均值的值被放大了四阶中心矩越大，表明远离均值的极端观测值越多，分布曲线的两侧就显得越“肥”，称之为“肥尾” 在多数情况下，分布曲线的尾部越宽，它的“峰度”会越明显（与同方差的正态分布相比）峰度可以告诉我们，观测数值的方差在多大程度上是由于极端值的出现造成的峰度值越大，表明该分布的极端值比重越大，或者它的极端值的极端程度越大；同时，该分布更可能是单峰的,方差：反映的是全体数据在平均数附近的集中情况在平均数附近数据越集中，方差就会越小；同时，集中的数据越多，方差也会越小根据全部数据计算，反映每个数据与其算术平均数相比平均相差的数值，因此它能准

16、确地反映出数据的差异程度，是实际中应用最广泛的离中程度度量值,观察,以下三条曲线具有相同的均值、方差、偏斜度，仅仅峰度不同,案例分析,已知1997年我国农村居民家庭按纯收入分组的有关数据如下表。试计算偏态系数和峰度,计算结果,结论,偏态系数为正值，而且数值较大，说明农村居民家庭纯收入的分布为右偏分布，即收入较少的家庭占据多数，而收入较高的家庭则占少数，而且偏斜的程度较大由于峰度系数3.43，说明我国农村居民家庭纯收入的分布为尖峰分布，说明收入很高的家庭占有显著的比重,作业,4.3 4.7 4.8 补充请你使用11年统计学课堂调查的数据，选择你所感兴趣的几个指标，来分析一下同学们在这些调查项目中有哪些集中趋势和变异趋势举一个现实中的现象，它们的分布分别为左偏，并找到相关的数据计算它们的偏斜度，从而验证你的判断举一个现实中的现象，它们的分布为尖峰或平峰，并找到相关的数据，计算其峰度，从而验证你的判断,

展开阅读全文