统计学数据的概括性度量.ppt

上传人:re****.1 文档编号:570038013 上传时间:2024-08-01 格式:PPT 页数:75 大小:1.49MB
返回 下载 相关 举报
统计学数据的概括性度量.ppt_第1页
第1页 / 共75页
统计学数据的概括性度量.ppt_第2页
第2页 / 共75页
统计学数据的概括性度量.ppt_第3页
第3页 / 共75页
统计学数据的概括性度量.ppt_第4页
第4页 / 共75页
统计学数据的概括性度量.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《统计学数据的概括性度量.ppt》由会员分享,可在线阅读,更多相关《统计学数据的概括性度量.ppt(75页珍藏版)》请在金锄头文库上搜索。

1、第4章 数据的概括性度量1集中趋势的度量集中趋势的度量2离散程度的度量离散程度的度量3偏态与峰态的度量偏态与峰态的度量甲、乙两个班的统计学成绩甲、乙两个班的统计学成绩序号成绩序号成绩序号成绩序号成绩序号成绩1 73 10 81 19 88 28 80 37752 77 1179 20 90 29 85 38873 78 12 75 21 82 30 74 39514 61 13 71 22 95 31 74 40745 73 14 89 23 76 32 85 41966 92 15 84 24 89 33 74 42777 78 16 69 25 95 34 82 43918 81 17 8

2、6 26 86 35 82 44829 79 18 76 27 59 36 82 4572序号成绩序号成绩序号成绩序号成绩序号成绩186946 17 92 25 69 33 75264 10 79 18 90 26 89 34 96383 11 77 19 86 27 79 35 79474 12 73 20 98 28 74 36 88558 13 85 21 64 29 85 37 94693 14 81 22 92 30 67 38 71771 15 64 23 91 31 84 39 55869 16 75 24 87 32 82 40 95请对两个班的成绩进行对比分析,你会从哪几个方

3、面着手?两班成绩的对比分析指标数值平均79.66667标准误差1.378405中位数80众数82标准差9.246621方差85.5峰度1.31565偏度-0.70131最小值51最大值96求和3585观测数45指标数值平均79标准误差1.923872中位数80众数64标准差12.16763方差148.0513峰度0.037583偏度-0.62146最小值46最大值98求和3160观测数40甲班成绩的描述性指标乙班成绩的描述性指标学习目的和学习目的和重难点提示重难点提示 本章学习目的本章学习目的领会领会数据分布的各种特征:集中趋势、离散趋势、偏斜程度和峰度。掌握掌握数据分布特征各测定值的计算方法

4、、特点及其应用场合。本章重难点提示本章重难点提示 数据分布特征的描述方法,如何使用一些统计量来对数据进行概括性测定。数据分布特征各测定值的计算方法、特点及其应用场合。数据分布的特征和测度数据分布的特征和测度峰峰峰峰峰峰 度度度度度度偏偏偏偏偏偏 度度度度度度数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众

5、比率异众比率异众比率位置位置位置位置位置位置平均数平均数平均数平均数平均数平均数数值数值数值数值数值数值平均数平均数平均数平均数平均数平均数算术平均数算术平均数算术平均数算术平均数算术平均数算术平均数调和平均数调和平均数调和平均数调和平均数调和平均数调和平均数几何平均数几何平均数几何平均数几何平均数几何平均数几何平均数4.1集中趋势的度量1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据一般水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5.选用哪一个测

6、度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定集中趋势集中趋势 (位置位置)集中趋势指标的种类集中趋势指标的种类从总体各单位变量值中抽象出具有一般水平的量,这个量是根据各个单位的具体标志值计算出来的,有算术平均数、调和平均数、几何平均数等形式。数值平均数取得集中趋势代表值方法的不同,可分为数值平均数和位置平均数 。先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平。位置平均数有众数、中位数、四分位数等形式。位置平均数4.1.1众数众数1.定义:出现次数最多的变量值。是集中趋势的测定义:出现次数最多的变量值。是集中趋势的测度值之一,不受极端值的影响。

7、度值之一,不受极端值的影响。因而在实际工因而在实际工作中有时有它作中有时有它特殊的用途特殊的用途。诸如,要说明一个。诸如,要说明一个企业中工人最普遍的技术等级,说明消费者需企业中工人最普遍的技术等级,说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等,农贸市场上某种农副产品最普遍的成交价格等,都需要利用众数都需要利用众数 适用:主要用于定类数据,也可用于定序数据和适用:主要用于定类数据,也可用于定序数据和数数 值型数据值型数据注意注意:有些数据可能没有众数或有几个众数:有些数据可能没有众数或有几个众数众数众数(众

8、数的不唯一性)无众数无众数原始数据: 10 5 9 12 6 8一个众数一个众数原始数据: 6 5 9 8 5 5多于一个众数多于一个众数原始数据: 25 28 28 36 42 42众数的计算方法众数的计算方法 * *品质变量的众数品质变量的众数观察次数,出现次数最多的变量值就是众数。 例如:企业的所有制结构分布、人口的城乡分布。 * *数值变量的众数数值变量的众数 未分组资料未分组资料观察次数,出现次数最多的数据就是众数。 分组资料分组资料 (1)单项式数列直接观察,次数最多的组的变量值即为众数。 定类数据的众数定类数据的众数表表4-1 某城市居民关注广告类型的频数分布某城市居民关注广告类

9、型的频数分布 广告类型广告类型人数人数(人人)比例比例频率频率(%) 商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100【例例例例】根根根根据据据据表表表表4 4-1-1中中中中的的的的数数数数据据据据,计计计计算算算算众数众数众数众数解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“ “广广广广告告告告类类类类型型型型” ”,这这这这是是是是个个个个定定定定类类类类变变变变

10、量量量量,不不不不同同同同类类类类型型型型的的的的广广广广告告告告就就就就是是是是变变变变量量量量值值值值。我我我我们们们们看看看看到到到到,在在在在所所所所调调调调查查查查的的的的200200人人人人当当当当中中中中,关关关关注注注注商商商商品品品品广广广广告告告告的的的的人人人人数数数数最最最最多多多多,为为为为112112人人人人 , 占占占占 总总总总 被被被被 调调调调 查查查查 人人人人 数数数数 的的的的56%56%,因因因因此此此此众众众众数数数数为为为为“ “商商商商品品品品广广广广告告告告” ”这一类别,即这一类别,即这一类别,即这一类别,即 MMo o商品广告商品广告商品

11、广告商品广告定序数据的众数定序数据的众数【例例例例】根根根根据据据据表表表表4 4-2-2中中中中的的的的数数数数据据据据,计计计计算算算算众数众数众数众数解解解解:这这这这里里里里的的的的数数数数据据据据为为为为定定定定序序序序数数数数据据据据。变变变变量量量量为为为为“ “回回回回答答答答类类类类别别别别” ”。甲甲甲甲城城城城市市市市中中中中对对对对住住住住房房房房表表表表示示示示不不不不满满满满意意意意的的的的户户户户数数数数最最最最多多多多,为为为为108108户户户户,因因因因此此此此众众众众数数数数为为为为“ “不不不不满满满满意意意意” ”这一类别,即这一类别,即这一类别,即这

12、一类别,即 MMo o不满意不满意不满意不满意表表4-2 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.0 例例 单项式变量数列确定众数实例单项式变量数列确定众数实例 表4-3 某市居民家庭按家庭人口数分组 由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人人。数值型分组数据的众数数值型分组数据的众数1. 众数的值与相邻两组频数的分布有关众数的值

13、与相邻两组频数的分布有关该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2. 2. 2. 相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值即为众数即为众数即为众数即为众数即为众数即为众数M MMooo3. 3. 相邻两组的频数不相等时,众数采用下相邻两组的频数不相等时,众数采用下相邻两组的频数不相等时,众数采用下相邻两

14、组的频数不相等时,众数采用下列近似公式计算列近似公式计算列近似公式计算列近似公式计算M MMoooM MMooo算例算例某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计504.1.2 顺序数据:中位数和分位数1.中位数me集中趋势的测度值之一排序后处于中间位置上的值不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即MMe e50

15、%50%原始数据原始数据: 24 22 21 26 20位位 置置: 1 2 3 4 5中位数的计算中位数的计算排排 序序:20 21 22 24 26原始数据原始数据: 10 5 9 12 6 8位位 置置: 1 2 3 4 5 6排排 序序: 5 6 8 9 10 12中位数=(8+9)/2=8.5计算公式未分组数据的中位数数值型分组数据的中位数 例:某企业例:某企业5050名工人加工零件中位数计算表名工人加工零件中位数计算表, ,计算计算5050名工名工人日加工零件数的中位数人日加工零件数的中位数按零件数分组按零件数分组( (个个) )频数频数( (人人) )向上累计向上累计( (人人)

16、 )向下累计向下累计( (人人) )1051051101103 33 350501101101151155 58 847471151151201208 8161642421201201251251414303034341251251301301010404020201301301351356 6464610101351351401404 450504 4Sm-1Sm+12.四分位数人们经常会将数据划分为4个部分,每一个部分大约包含有1/4即25的数据项。QLQMQU25%25%25%25%1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也

17、可用于数值型数据,但不能用于定类数据四分位数四分位数(位置的确定位置的确定)未分组数据:未分组数据:组距分组数据:组距分组数据:下四分位数(QL)位置 =N+14上四分位数(QU)位置 =3(N+1)4下四分位数(QL)位置 =N4上四分位数(QL)位置 =3N4甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位

18、置为: QL位置(300)/475 上四分位数(QL)的位置为: QU位置(3300)/4225从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。因此 QL 不满意 QU 一般原始数据原始数据: 23 21 30 32 28 25 26排排 序序: 21 23 25 26 28 30 32位位 置置: 1 2 3 4 5 6 7 QL= 23N+17+1QL位置 =4=4= 2QU位置 =3(N+1)43(7+1)4 = 6QU = 30数值型未分组数据的四分位数原始数据原始数据: 23 21 30 28 25 26排排 序序: 21 23 25 26 28 30位位 置

19、置: 1 2 34 5 6QL= 21+0.75(23-21) = 22. 5QL位置 =N+14=6+14= 1.75QU位置 =3(N+1)43(6+1)4= 5.25QU = 28+0.25(30-28) = 28.5数值型分组数据的四分位数(计算公式)上四分位数上四分位数上四分位数上四分位数: : 下四分位数下四分位数下四分位数下四分位数: : 计算50 名工人日加工零件数的四分位数某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50QL位置

20、位置50/412.5QU位置位置350/437.54.1.3 数值型数据:均值1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据均值的种类及计算均值的种类及计算 1.1.算术平均数算术平均数* (1)(1)概念概念 算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数。 (2)(2)基本公式基本公式平均数计算公式设一组数据为:X1 ,X2 , ,XN 简单均值简单均值的计算公式为设分组后的数据为:X1 ,X2 , ,XK 相应的频数为: F1 , F2, ,FK加权均值加权均值的计算公式为简单均值(算

21、例)原始数据:10591368加权均值(算例4.7) (1 1)算术平均数的大小,不仅取决于研究对象的)算术平均数的大小,不仅取决于研究对象的变量值变量值(x)(x),而且受各变量值重复出现的频数,而且受各变量值重复出现的频数(f f)或频率或频率 (f fff)大小的影响,频数或频大小的影响,频数或频率较大,该组数据的大小对算术平均数的影响就率较大,该组数据的大小对算术平均数的影响就大,反之则小。大,反之则小。 (2 2)权数的表现形式问题:)权数的表现形式问题:绝对权数与相对权数绝对权数与相对权数注意事项是非标志的平均数是非标志的平均数是非标志是非标志: :如果按照某种标志把总体只能分为具

22、有某如果按照某种标志把总体只能分为具有某种特征的单位和不具有该种特征的单位两部分,这种特征的单位和不具有该种特征的单位两部分,这个标志就是是非标志。个标志就是是非标志。平均数的计算:把具有某种特征的用平均数的计算:把具有某种特征的用“1 1”表示,不具表示,不具有该种特征的用有该种特征的用“0 0”表示。表示。 是非标志是非标志 x x单位数单位数 f f比重比重 1 1 0 0 合合 计计 N N 1 1加权平均数(权数对平均数的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X):0 20 100 人数分布(F):1 1 8 乙组: 考试成绩(X ): 0

23、20 100 人数分布(F ):8 1 1X X甲甲01+201+100801+201+1008n n 1010i i=1=1 X Xi i 82828282(分)(分)(分)(分)X X乙乙08+201+100108+201+1001n n 1010i i=1=1 X Xi i 12121212(分)(分)(分)(分)平均数(数学性质)1.各变量值与均值的离差之和等于零 2. 各变量值与均值的离差平方和最小性质性质(3、4)3 3、给每个变量值增加或减少一个任意数、给每个变量值增加或减少一个任意数A A,则算,则算术平均数也相应增增加或减少这个任意数术平均数也相应增增加或减少这个任意数A A

24、。4 4、给每个变量值乘以或除以一个任意数、给每个变量值乘以或除以一个任意数A A,则算,则算术平均数也相应扩大或缩小术平均数也相应扩大或缩小A A倍。倍。2.2.调和平均数调和平均数(1 1)概念)概念: : 调和平均数调和平均数又称倒数平均数倒数平均数,是各个变量值倒数的算术平均数的倒数。 (2 2)计算)计算 简单调和平均数简单调和平均数:针对未分组资料。未分组资料。 计算公式为:2.2.调和平均数调和平均数 加权调和平均数加权调和平均数: :针对分组资料。分组资料。 计算公式计算公式为: 其中其中: 是一种特殊权数特殊权数,它不是各组变量值出现的次数,表示各组标志总量各组标志总量。 即

25、 例例 根据根据某商场职工月工资资料计算月平均某商场职工月工资资料计算月平均工资。工资。 某商场职工月工资资料某商场职工月工资资料3.3.几何平均数几何平均数(1)(1)概念概念:几何平均数(geometric mean)又称对称平均数,它是各变量值乘积的n次方根。(2)(2)计算计算 基本公式基本公式: : 对数公式对数公式: : 在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即 (3)(3)几何平均数的应用及特点几何平均数的应用及特点 应用条件应用条件现现象象的的总总比比率率是是若若干干项项变变量量的的乘乘积积,或或现现象象的的总总发发展展速速度度是是各各时时期期发发展展速速度

26、度的的连连乘乘积积时时,计计算算平平均均比比率率或或平平均均发展速度。发展速度。特点特点 a. a.如果数列中有一个标志值等于零或负值,则无法计算。如果数列中有一个标志值等于零或负值,则无法计算。 b. b.受极端值影响较小,故较稳健。受极端值影响较小,故较稳健。几何平均数(算例)【例例4.10】一位投资者持有一种股票,2001-2004年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。平均收益率108.0787%-1=8.0787%例1:某企业的一条生产流水线有四道工序,每一道工序完成的产品都要作一次质量检查,只有合格的中间件才进入下一道工序。工序C

27、工序A工序B工序D合格率98%合格率97%合格率94%合格率95%请问:平均合格率=?适用于连续作业的情况:例2:据网上报到,成都温江的兰花节(2006年2月27日)上,一盆兰花卖价是1100万元,这背后是迅速壮大的10万户成都养兰、炒兰户,不少人是在借高利贷炒兰,图谋暴利。红荷黄金海岸龙女彩蝶设某炒兰投资者从朋友处借得一笔高利贷,以季度为结算单位,每个季设某炒兰投资者从朋友处借得一笔高利贷,以季度为结算单位,每个季度生成的利息到期自动转为本金,一年连本带利付清。各季利率根据兰花价度生成的利息到期自动转为本金,一年连本带利付清。各季利率根据兰花价格变化适当调整。实际一年下来,第一季度的利率是格

28、变化适当调整。实际一年下来,第一季度的利率是3%,第二季度的利率,第二季度的利率是是3.2%,第三季度的利率是,第三季度的利率是3.6%,第四季度的利率是,第四季度的利率是2.8%。问:平均利率。问:平均利率是多少?是多少?解答:本题需要注意的是,不能够直接对利率进行几何平均,而应该通过连本带利计算,即若借款总额为L万元,则一年之后的付款额(本息和)为:如果平均利率为G,则应该有:1.算术平均数易受极端值影响;2.调和平均数也受极端值影响,但受极小值影响较大;3.几何平均数受极端值影响较小。 对同一资料来说:几何平均数大于调和平均数而小于算术平均数,即有:数字数字12345几何平均数几何平均数

29、2.61 算算术平均数平均数3调和平均数和平均数2.19 一般来说:一般来说:各种平均数的比较各种平均数的比较(一)各种平均数的特点及应用场合(一)各种平均数的特点及应用场合 是就全部数据计算的,具有优良的数学性质,是就全部数据计算的,具有优良的数学性质,实际中应用最为广泛。其主要缺点是易受极端值的实际中应用最为广泛。其主要缺点是易受极端值的影响,对偏态分布其代表性较差。影响,对偏态分布其代表性较差。 H主要用于不能直接计算主要用于不能直接计算 的数据易受极端值的数据易受极端值的影响。的影响。 G主要用于计算比率数据的平均数主要用于计算比率数据的平均数,易受极端值的易受极端值的影响。影响。 不

30、受极端值大小的影响,对偏态分布其代表性不受极端值大小的影响,对偏态分布其代表性较较 好。但不是根据所有的变量值计算的好。但不是根据所有的变量值计算的. 不受极端值的影响不受极端值的影响,对偏态分布其代表性较对偏态分布其代表性较 好好.但不是根据所有的变量值计算的但不是根据所有的变量值计算的. 左偏分布左偏分布左偏分布均值均值均值 中位数中位数中位数 众数众数众数对称分布对称分布对称分布 均值均值均值 = = = 中位数中位数中位数 = = 众数众数众数右偏分布右偏分布右偏分布众数众数众数 中位数中位数中位数均值均值均值中位数、众数和算术平均数的关系数据类型和所适用的集中趋势测度值数据类型和所适

31、用的集中趋势测度值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数4.2 离散程度的度量1.数据分布的另一个重要特征2.离中趋势的各测度值是对数据离散程度所作的描述3.反映各变量值远离其中心值的程度,因此也称为离中趋势4.从另一个侧面说明了集中趋势测度值的代表程度5.不同类型的数据有不同的离散程度测度值4.2.1 分类数据:异众比率1.离散程度的测度值之一2.非众数

32、组的频数占总频数的比率3.计算公式为 4. 用于衡量众数的代表性异众比率(算例)根据表中的数据,计算异众比率某城市居民关注广告类型的频数分布 广告类型人数(人)频率(%) 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告1125191610256.025.54.58.05.01.0合计200100解:解: 在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好 Vr = 200 - 112200 = 1 - 112 200 = 0.44 = 44%4.2.2 顺序数据:四分位差1.离散程

33、度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU - QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性四分位差(定序数据的算例)根据表中的数据,计算甲城市家庭对住房满意状况评价的四分位差甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2, QU = 一般 = 3四分位差: QD = QU - QL=

34、3 2 = 14.2.3 数值型数据:方差和标准差1.极差1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布7 8 9 107 8 9 10未分组数据未分组数据 R = max(Xi) - min(Xi).=组距分组数据组距分组数据 R 最高组上限 - 最低组下限5. 计算公式为第一组:第一组:6060,7070,8080,9090,100100第二组:第二组:7878,7979,8080,8181,8282很明显,两个小组的考试成绩平均分都是很明显,两个小组的考试成绩平均分都是8080分,但分,但是哪一组的分数比较集中呢?是哪一组的分数比

35、较集中呢?如果用全距指标来衡量,则有如果用全距指标来衡量,则有R R甲甲10010060604040(分)(分)R R乙乙828278784 4(分)(分)这说明第一组资料的标志变动度或离中趋势远这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。大于第二组资料的标志变动度。 例:有两个学习小组的统计学开始成绩分别为:2. 平均差1. 离散程度的测度值之一2. 各变量值与其均值离差绝对值的平均数3. 能全面反映一组数据的离散程度4. 数学性质较差,实际中应用较少5. 计算公式为未分组数据未分组数据组距分组数据组距分组数据平均差(计算过程及结果)某厂按月收入水平分组的组距数列如表

36、中前两列,计算平均差。3.方差和标准差离散程度的测度值之一最常用的测度值反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12X = X = 8.38.3总体方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式总体标准差(计算过程及结果)根据表中的数据,计算工人日加工零件数的标准差某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi- X )2(Xi- X )2Fi

37、105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计503100.5样本方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式注意:注意:样本方差用自样本方差用自由度由度n-1n-1去除去除!样本方差自由度1.一组数据中可以自由取值的数据的

38、个数2.当样本数据的个数为 n n 时,若样本均值x x 确定后,只有n n-1-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则 x x = = 5 5。当 x x = = 5 5 确定后,x x1 1,x x2 2和x x3 3有两个数据可以自由取值,另一个则不能自由取值,比如x x1 1=6=6,x x2 2=7=7,那么x x3 3则必然取2 2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2 2时,它是2 2

39、的无偏估计量样本方差与标准差(算例)原始数据: 10 5 9 13 6 8方差(简化计算公式)样本方差总体方差方差(数学性质)各变量值对均值的方差小于对任意值的方差设X0为不等于X的任意数,D2为对X0的方差,则是非标志的标准差是非标志的标准差如前:是非标志的平均数为如前:是非标志的平均数为P。标志值标志值x x单位数单位数f f1 10 0合计合计N N由于标准差有良好的数学性质,相比较而言,由于标准差有良好的数学性质,相比较而言,它的应用最为广泛。它的应用最为广泛。4.2.4 相对离散程度:离散系数1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程

40、度4.用于对不同组别数据离散程度的比较5. 计算公式为离散系数主要是用于对不同组别数据的离散程度进行比较,系数大,说明数据的离散程度大,其平均数的代表系数大,说明数据的离散程度大,其平均数的代表性就差;离散系数小,说明数据的离散程度小,其平均性就差;离散系数小,说明数据的离散程度小,其平均数的代表性就大数的代表性就大.离散系数(实例和计算过程)例4.14数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据或定比数据定距数据或定比数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异

41、众比率 离散系数(比较时用)离散系数(比较时用) 平均差平均差 极差极差 四分位差四分位差 异众比率异众比率4.3 偏态与峰态的度量偏态与峰度分布的形状偏态与峰度分布的形状扁平分布尖峰分布偏态偏态峰度峰度左偏分布右偏分布与标准正态与标准正态分布比较!分布比较!4.3.1 偏态及其测度数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数 0为右偏分布偏态系数 0为左偏分布计算公式为例4.154.3.2 峰态及其测度1.数据分布扁平程度的测度2.峰度系数=0扁平程度适中3.偏态系数0为尖峰分布5. 计算公式为平均184.5666667标准误差1.97915373中位数182众数196标准差21.6

42、8054285方差470.0459384峰度-0.224356161偏度0.405284783区域96最小值141最大值237求和22148观测数120最大(1)237最小(1)141置信度(95.0%)3.918922009由Excel输出的描述统计量本章小结本章小结 1.1.数数据据集集中中趋趋势势的的测测定定介绍了各种均值、中位数、众数的概念和特点,比较了均值、中位数、众数的特点,重点介绍其计算方法和应用场合。 2.2.数数据据离离散散程程度度的的测测定定介绍了极差、平均差、方差、标准差、离散系数的概念和计算方法。重点是方差、标准差及标准差系数的计算。 3.3.数据偏态与峰态的测定数据偏态与峰态的测定简单介绍了偏态和峰态的基本概念及测定方法。 练习:甲、乙两厂生产同种电子元件,抽查其耐用时间的分组资料如下:耐用时间(小时)抽查元件数(只)甲 厂乙 厂1000以下10001200120014001400以上430115311315合 计5050(1)计算并比较哪个厂电子元件平均耐用时间长?(2)计算并比较哪个厂电子元件平均耐用时间差异较大?(3)分别计算两个厂电子元件平均耐用时间的众数和中位数,并判断两个厂电子元件耐用时间分布属于何种分布?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号