文档详情

偏态与峰度的测度课件

m****
实名认证
店铺
PPT
786KB
约48页
文档ID:606089835
偏态与峰度的测度课件_第1页
1/48

单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,第四章 数据分布特征的测度,,学习目标,掌握众数、中位数的概念、特点及其计算方法;,,了解四分位数概念;,,掌握算术平均数、调和平均数、几何平均数的概念、特点及计算方法;,,了解异众比率、四分位差、全距、方差及标准差的概念、及计算方法;,,了解偏度和峰度的意义;,,能够区分各种指标的应用场合,根据不同数据类型运用不同测度指标主要内容:,集中趋势的测度,1,离散程度的测度,,2,偏态与峰度的测度,,3,,众数,四分位数,中位数,平均数,偏度,峰度,方差和标准差,全距,异众比率,四分位差,离散系数,数据的特征和测度,集中趋势,离散程度,分布的形状,,第一节 集中趋势的测度,,众数,,中位数,,四分位数,,平均数,,,,●,概念,,在次数分布数列中,就是出现次数最多的变量值, 用 表示主要用于测度定类数据的集中趋势,当然也适用于作为定序数据以及定距和定比数据集中趋势的测度值一、众数,,,●,计算众数的方法,,(1)单项分配数列的众数计算方法,,,出现次数最多的那一组变量值就是众数,,,某商场某日连续销售15双皮鞋的尺码组成情况如下:,,38,37,38,40,40,41,40,42,44,40,41,39,40,40,43,,出现次数最多的数是40,40就是某商场某日销售皮鞋尺码的众数。

2)组距分配数列的众数计算方法,,第一步:根据分配数列次数最多的组,,确定为众数所在组第二步:根据该组与前后相邻两组,,分配次数的关系推算众数众数与相邻两组的关系示意图,,,,,众数组的组中值即为众数的值众数会向其前一组靠,众数小于其组中值,,,,,,,众数会向其后一组靠,众数大于其组中值,,,M,o,f,f,-1,f,+1,M,o,M,o,,其中,L,U分别表示众数所在组的下限值和上限值, i表示众数组的组距根据上述关系,可以利用相似三角形推导出组距分配数列的众数的计算公式如下:,,下限公式:,,,上限公式:,,,,,某乡3000农户按人均年纯收入分组的资料如下表,试计算其众数人均年纯收入(元),农户数,2000-3000,,3000-4000,,4000-5000,,5000-6000,,6000-7000,,7000-8000,,8000-9000,,9000-10000,240,,480,,1050,,600,,270,,210,,120,,30,合计,3000,,,从表中可以看出,众数所在的组为4000-5000,出现的最多次数为1050按下限公式计算众数:,,按上限公式计算众数:,,,●,众数的优缺点,,优点,,①容易理解,,,②不受极值影响,,缺点,,①灵敏度和计算功能差,,②稳定性差,,③具有不唯一性,,二、中位数和四分位数,(一)中位数,,● 概念,,是指对样本数据由小到大排序后,处于中间位置上的变量值,用 表示。

是一个位置代表值,它主要用于测度定序数据的集中趋势,当然也适用于定距数据和定比数据的集中趋势,但不适用于定类数据●,计算中位数的方法,,,(1)变量值未分组情况下:,,总体单位数n是奇数,中间位置的变 量值是中位数总体单位数n是偶数,中间位置的两个变量值的算术平均数为中位数2)变量值分组情况下:,,,下限公式:,,上限公式:,,,,某乡人均年纯收入中位数计算表如下,:,,年人均纯收入(元),农户数,向上累计,向下累计,2000-3000,,3000-4000,,4000-5000,,5000-6000,,6000-7000,,7000-8000,,8000-9000,,9000-10000,240,,480,,1050,,600,,270,,210,,120,,30,240,,720,,1770,,2370,,2640,,2850,,2970,,3000,3000,,2760,,2280,,1230,,630,,360,,150,,30,合计,3000,──,──,,,按下限公式计算中位数:,,,,,按上限公式计算中位数:,,,,●,优缺点,,,优点,,①容易理解,,,②不受极值影响,,③适宜于开口组资料和些不能用数字测定的事物,,缺点,,①灵敏度和计算功能差,,②间断数Me,,,(二)四分位数,,,,中位数是从中间点将全部数据分为两部分。

与中位数类似的还有四分位数、十分位数、百分位数、四分位数就是对数据集合四等分的三个数值,其中的第二个四分位数即为中位数例如某数据集合有101项数据,则第26项、51项、76项三个数据可以把数据集合分为数目相等的四个等分,这三个数就分别是第一、第二、第三四分位数,其中第一个四分位数称为上四分位数,第三个四分位数称为下四分位数,第二个四分位数就为中位数三、数值平均数:算术平均数、调和平均数、几何平均数,● 算术平均数,,主要适用于定居数据和定比数据,但不适用于定类数据和定序数据,,,1、简单算术平均数,,,,,2、加权算术平均数,原始数据被分为k组,,,各组的组中值为,各组变量值出现的频数分别为,,,某中学100名高中一年级男生身高(单位:厘米)的频数分布如下表求该校高一男生的平均身高身高,15,5~160 160~165 165~170 170~175 175~180 180~185,人数,2 8 28 36 18 8,,当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上式计算均值,,请注意!,,,● 调和平均数,——,,该式与加权算术平均数公式的计算结果完全一致。

实际上,上式只是加权算术平均数的另一种表现形式由此可见,调和平均数实际上是算术平均数的一种变形,二者在本质上是一致的,唯一的区别就是计算时使用了不同的数据只适用于定比数据,不适用于定距数据,,,● 几何平均数,,是n项变量值连乘积的n次方根适合于计算现象的平均比率或平均速度,反应现象增长率的平均水平因此,凡是现象的变量值的连乘积等于总比率或总速度,都可以使用几何平均数来计算平均比率或平均速度1、简单几何平均数,,适用于计算未分组数列的平均比率或平均速度 1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度2、加权几何平均数,,对于分组数列,应该采用加权几何平均数计算其平均比率或平均速度 某投资银行25年的年利率分别是:1年3%,4年5%,8年8%,10年10%,2年15%,求平均年利率第二节 离散程度的测度,,,离散系数,异众比率,四分位差,全距,方差和标准差,,,一、异众比率,是非众数的次数与全部个案数目的比率,,,用 表示异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。

为众数的频数,,,为变量值的总频数二、四分位差,●,概念,,也称为内距或四分间距,它是上四分位数与下四分位数之差,是对定序及定序以上测量尺度的变量离散程度的测量指标●,计算方法,,,①,求出上四分位数和下四分位数的位置,,,②,计算这两个四分位数之差,,◆,,对原始资料,调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、22岁首先,求出Q1和Q3的位置:,Q1的位置=,,Q3的位置=,,其次,从数序中找出Q1=18,Q3=21,则四分位差Q= Q3—Q1=21—18=3,,◆,对单值分组资料,,如下表所示的学生学业成绩:,,等级,学生人数 向下累计 ↓ 向上累计↑,甲,,乙,,丙,,丁,5 5 80,,20 25 75,,30 55 55,,25 80 25,总数,80 - -,Q1位置=,,Q3位置=,,从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以:四分位差Q=乙—丁=两个等级。

◆,对组距分组资料,,Q1和Q3的计算公式为:,,其中,L1为Q1属组之真实下限;L3为Q3属组之真实下限;f1为Q1属组之次数;f3为 Q3属组之次数;cf1为低于Q1属组下限之累积次数;cf3为低于Q3属组下限之累积次数;w1为Q1属组之组距;w3为Q3属组之组距;n为全部个案数某企业100名职工收入的分布如下:,,收入(元) 职工数(人) 累计频数 组中值 Xf,,X f,100—199 10 10 150 1500,,200—299 10 20 250 2500,,300—399 40 60 350 14000,,400—499 20 80 450 9000,,500—599 20 100 550 11000,合计 100,,由上表知:Q1位置=,,,所以Q1在300—399组内;,,Q3位置=,,所以Q3在400—499组内。

所以四分位差Q=Q3-Q1=162.5,,三、全距,全距又称极差,它是一组数据中最大值与最小值之差全距是对定序及以上尺度的变量离散程度的测量极差越小,表明资料越集中,集中趋势统计量的代表性越高一般公式为:,,某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下:,,中文系:78、79、80、81、82,,数学系:65、72、80、88、95,,英语系:35、78、89、98、100,则三个代表队的全距分别为:中文系:82-78=4(分)数学系:95-65=30(分)英语系:100-35=65(分),对于组距分组数据,全距也可以近似表示为:,,四、方差及标准差,方差和标准差是衡量变异程度最常用的指标,方差通常用,表示标准差又称均方差,方差的平方根即为标准差,通常用,表示,分析定距变量的离散情况,最常用的方法是标准差对于未分组数据,公式为:,对于组距分组数据,公式为:,,1998年度,品牌,飞利浦,索尼,东芝,松下,LG,长虹,创维,海尔,康佳,TCL,,费用,2429,2054,1684,1611,1607,1430,1430,1355,1269,1175,1999年度,品牌,飞利浦,东芝,索尼,TCL,LG,松下,创维,海尔,康佳,海信,,费用,3415,1929,1818,1688,1440,1363,1234,1080,1075,1023,根据下表中1998年度和1999年度电视机广告前10名品牌广告费用统计情况,计算两个年度广告费用的标准差。

根据上表可以计算出1998年度和1999年度的平均广告费用额分别为:1604.4万元,1606.5万元1998年度的标准差为:,=361.7(万元),,同理可以计算1999年度的标准差为674.7万元五、离散系数,离散系数是标准差与平均数的比值,用百分比表示记离散系数为V,则公式为:,离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较一项调查的结果如下,某市人均月收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米试比较该市人均收入和人均住房情况哪一个差异程度比较大由题中数据得:,,人均收入的离散系数为,,人均住房面积的离散系数为,,可见人均住房面积的差异情况比人均收入的差异情况要大第三节 偏态与峰度的测度,一,. 偏态及其测度,,二. 峰度及其测度,,偏态与峰度分布的形状,扁平分布,尖峰分布,偏态,峰度,左偏分布,右偏分布,与标准正态分布比较!,,◆,,偏态,,1. 数据分布偏斜程度的测度,用 表示2. 偏态系数,=0,为,对称分布,,3. 偏态系数,> 0,为,右偏分布,,4. 偏态系数,< 0,为,左偏分布,,5. 计算公式为,,,α,3,=0,α,3,>0,α,3,<0,(对称分布),正偏态分布(右),负偏态分布(左),,,,偏度值,α,一般在-3,~,3之间。

3为极度右偏斜,,-3为极度左偏斜,,绝大多数变量分布偏斜程度在-1,~,1之间,,某管理局所属30个企业2005年3月份利润额统计资料如右侧表所示,要求计算该变量数列的偏斜状况利润额,,(万元),企业数,,f,组中值,,x,,,,10—30,,30—50,,50—70,,70—90,2,,10,,13,,5,20,,40,,60,,80,2312,,1960,,468,,3380,-78608,,-27440,,2808,,87880,2672672,,384160,,16848,,2284880,合 计,30,—,8120,-15360,5358560,,根据上表数据计算得,计算结果表明该管理局所属企业利润额的分布状况呈轻微负偏分布◆,,峰度,1. 数据分布扁平程度的测度,用 表示2. 峰度系数,=3,为,扁平程度适中,,3. 峰度系数,<3,为,扁平分布,,4. 峰度系数,>3,为,尖峰分布,,5. 计算公式为,f,(,X,),,根据偏度例题:某管理局所属30个企业2005年3月份利润额统计资料如右侧表所示,要求计算该变量数列的峰度利润额,,(万元),企业数,,f,组中值,,x,,,,10—30,,30—50,,50—70,,70—90,2,,10,,13,,5,20,,40,,60,,80,2312,,1960,,468,,3380,-78608,,-27440,,2808,,87880,2672672,,384160,,16848,,2284880,合 计,30,—,8120,-15360,5358560,根据表中有关数据计算峰度系数如下:,,计算结果表明,上述企业间利润额的分布呈平顶峰度,各变量值分布较为均匀。

下载提示
相似文档
正为您匹配相似的精品文档