数据的概括性度量统计学

上传人:枫** 文档编号:569449609 上传时间:2024-07-29 格式:PPT 页数:76 大小:354.50KB
返回 下载 相关 举报
数据的概括性度量统计学_第1页
第1页 / 共76页
数据的概括性度量统计学_第2页
第2页 / 共76页
数据的概括性度量统计学_第3页
第3页 / 共76页
数据的概括性度量统计学_第4页
第4页 / 共76页
数据的概括性度量统计学_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《数据的概括性度量统计学》由会员分享,可在线阅读,更多相关《数据的概括性度量统计学(76页珍藏版)》请在金锄头文库上搜索。

1、第第 4 章章 数据的概括性度量数据的概括性度量4.1 集中趋势的集中趋势的度量度量4.2 离散程度的离散程度的度量度量4.3 偏态与峰度的偏态与峰度的度量度量数据分布的特征数据分布的特征集中趋势集中趋势 (位置位置)离中趋势离中趋势 (分散程度分散程度)偏态和峰态偏态和峰态(形状)(形状)数据分布特征的测度数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众 数数数数中位数中位数中位数中位数均均均均 值值值值离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰 态态态态四分位差四分位差四分位差四分位差异

2、众比率异众比率异众比率异众比率偏偏偏偏 态态态态4.1 集中趋势的集中趋势的度量度量一一. 分类数据:众数分类数据:众数二二. 顺序数据:中位数和分位数顺序数据:中位数和分位数三三. 数值型数据:均值数值型数据:均值四四. 众数、中位数和均值的比较众数、中位数和均值的比较集中趋势集中趋势(Central tendency)1.一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的

3、测量数据,但低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据高层次数据的测度值并不适用于低层次的测量数据众数众数(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.不受极端值的影响不受极端值的影响3.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数4.主要用于分类数据,也可用于顺序数据和数主要用于分类数据,也可用于顺序数据和数值型数据值型数据5.适合于数据量较多时使用适合于数据量较多时使用众数众数(不唯一性不唯一性)无众数无众数无众数无众数原始数据原始数据原始数据原始数据: 10 5 9 12 6 8: 10

4、5 9 12 6 8一个众数一个众数一个众数一个众数原始数据原始数据原始数据原始数据: 6 : 6 5 5 9 8 9 8 5 55 5多于一个众数多于一个众数多于一个众数多于一个众数原始数据原始数据原始数据原始数据: 25 : 25 28 2828 28 36 36 42 4242 42分类数据的众数分类数据的众数 (例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.

5、180.120.183022181218合计合计501100解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“ “饮饮饮饮料料料料品品品品牌牌牌牌” ”,这这这这是是是是个个个个分分分分类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就就就就是是是是变变变变量量量量值值值值 在在在在所所所所调调调调查查查查的的的的5050人人人人中中中中,购购购购买买买买可可可可口口口口可可可可乐乐乐乐的的的的人人人人数数数数最最最最多多多多,为为为为1515人人人人,占占占占总总总总被被被被调调调调查查查查人人人人数数数数的的的的30%30%,因因因因此此此此众众

6、众众数数数数为为为为“ “可可可可口可乐口可乐口可乐口可乐” ”这一品牌,即这一品牌,即这一品牌,即这一品牌,即 Mo Mo可口可乐可口可乐可口可乐可口可乐顺序数据的众数顺序数据的众数 (例题分析例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.0解解解解:这这这这里里里里的的的的数数数数据据据据为为

7、为为顺顺顺顺序序序序数数数数据据据据。变变变变量量量量为为为为“ “回回回回答类别答类别答类别答类别” ” 甲甲甲甲城城城城市市市市中中中中对对对对住住住住房房房房表表表表示示示示不不不不满满满满意意意意的的的的户户户户数数数数最最最最多多多多,为为为为108108户户户户,因因因因此此此此众众众众数数数数为为为为“ “不不不不满满满满意意意意” ”这这这这一一一一类类类类别别别别,即即即即 Mo Mo不满意不满意不满意不满意问题问题数值型组距分组数据如何求众数数值型组距分组数据如何求众数?中位数中位数(median)1.排序后处于中间位置上的值排序后处于中间位置上的值2.不受极端值的影响不受

8、极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用主要用于顺序数据,也可用数值型数据,但不能用于分类数据于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即MMe e50%50%中位数中位数(位置和数值的确定位置和数值的确定)位置确定:位置确定:数值确定:数值确定:顺序数据的中位数顺序数据的中位数 (例题分析例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意

9、不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300 解解解解:中中中中位位位位数数数数的的的的位位位位置置置置为为为为 (300+1300+1)/2/2 从从从从累累累累计计计计频频频频数数数数看看看看,中中中中位位位位数数数数在在在在“ “一一一一 般般般般 ” ”这这这这 一一一一组别中。因此组别中。因此组别中。因此组别中。因此 Me= Me=一般一般一般一般数值型数据的中位数数值型数据的中位数 (9个数据的算例个数据的算例)【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数

10、据原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序: : 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置: : 1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数 = 1080数值型数据的中位数数值型数据的中位数 (10个数据的算例个数据的算例)【例】:【例】:10

11、10个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据排排排排 序序序序: : 660660 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置: : 1 2 3 4 1 2 3 4 5 5 6 6 7 8 9 10 7 8 9 10 问题问题数值型组距分组数据如何求中位数数值型组距分组数据如何求中位数?四分位数四分位数(quartile)1.排序后处于排序后处于25%和和75%位置上的值位置上的值2.不受极端值的影响不受极端值的

12、影响3.主主要要用用于于顺顺序序数数据据,也也可可用用于于数数值值型型数数据据,但不能用于分类数据但不能用于分类数据QQL LQQMMQQU U25%25%25%25%四分位数四分位数(位置的确定位置的确定)原始数据:原始数据:顺序数据:顺序数据:顺序数据的四分位数顺序数据的四分位数 (例题分析例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530

13、24132225270300合计合计300解:解:解:解:QQL L位置位置位置位置= (300)/4 =75= (300)/4 =75 Q QU U位置位置位置位置 =(3300)/4 =(3300)/4 =225 =225 从从从从累累累累计计计计频频频频数数数数看看看看, QQL L在在在在“ “不不不不满满满满意意意意” ”这这这这一一一一组组组组别别别别中中中中; QQU U在在在在“ “一一一一般般般般” ”这这这这一一一一组组组组别别别别中中中中。因此因此因此因此 Q QL L = = 不满意不满意不满意不满意 Q QU U = = 一般一般一般一般数值型数据的四分位数数值型数据

14、的四分位数 (9个数据的算例个数据的算例)【例】:【例】:【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序: : 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置: : 1 1 2 32 3

15、 4 4 5 5 6 6 7 87 8 9 9数值型数据的四分位数数值型数据的四分位数 (10个数据的算例个数据的算例)【例】:【例】:【例】:【例】:1010个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据排排排排 序序序序: : 660660 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置: : 1 1 2 32 3 4 4 5 65 6 7 7 8 98 9 10 10 均值均值(mean)1.集中趋势的最常用测度值集

16、中趋势的最常用测度值2.一组数据的均衡点所在一组数据的均衡点所在3.体现了数据的必然性特征体现了数据的必然性特征4.易受极端值的影响易受极端值的影响5.用于数值型数据,不能用于分类数据和用于数值型数据,不能用于分类数据和顺序数据顺序数据简单均值与加权均值简单均值与加权均值(simple mean / weighted mean)设一组数据为:设一组数据为: x1 ,x2 , ,xn各组的组中值为:各组的组中值为:M1 ,M2 , ,Mk 相应的频数为:相应的频数为: f1 , f2 , ,fk简单均值简单均值加权均值加权均值加权均值加权均值 (例题分析例题分析)某电脑公司销售量数据分组表某电脑

17、公司销售量数据分组表某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计合计12022200均值均值(数学性质数学性质)1. 各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零 2. 各变量值与均值的离差平方和最小各变量值与均值

18、的离差平方和最小调和平均数调和平均数(harmonic mean)1.均值的另一种表现形式均值的另一种表现形式2.易受极端值的影响易受极端值的影响3.计算公式为计算公式为调和平均数调和平均数 (例题分析例题分析)【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格算三种蔬菜该日的平均批发价格算三种蔬菜该日的平均批发价格算三种蔬菜该日的平均批发价格某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三

19、种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元) Mi成交额成交额(元元) Mi fi成交量成交量(公斤公斤)fi甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计3690048000几何平均数几何平均数(geometric mean)1.1.n n 个变量值乘积的个变量值乘积的个变量值乘积的个变量值乘积的 n n 次方根次方根次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均适用于对比率数据的平均适用于对比率数据的平均3.3.主要用于计算平均增长率主要用于计算平均增长率主要用于计算平均增长率主要用于计算平均增长率4.

20、4.计算公式为计算公式为计算公式为计算公式为5.5.5. 5. 可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形几何平均数几何平均数 (例题分析例题分析)【例例例例】某某某某水水水水泥泥泥泥生生生生产产产产企企企企业业业业19991999年年年年的的的的水水水水泥泥泥泥产产产产量量量量为为为为100100万万万万吨吨吨吨,20002000年年年年与与与与19991999年年年年相相相相比比比比增增增增长长长长率率率率为为为为9%9%,20012001年年年年与与与与20002000年年年年相相相相比比比比增增增增长长长长率率率率为为为为16%16%,20

21、022002年年年年与与与与20012001年年年年相相相相比比比比增增增增长长长长率率率率为为为为20%20%。求各年的年平均增长率。求各年的年平均增长率。求各年的年平均增长率。求各年的年平均增长率。年平均增长率年平均增长率年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%几何平均数几何平均数 (例题分析例题分析)【例例例例】一一一一位位位位投投投投资资资资者者者者购购购购持持持持有有有有一一一一种种种种股股股股票票票票,在在在在20002000、20012001、20022002和和和和20032003年年年年收收收收益益益益率率率率分分分分别别别别为

22、为为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计计计计算算算算该该该该投投投投资资资资者者者者在在在在这这这这四四四四年内的平均收益率年内的平均收益率年内的平均收益率年内的平均收益率 几何平均:几何平均:众数、中位数和均值的关系众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右

23、偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数和均值的众数、中位数和均值的特点和应用场合特点和应用场合1.众数众数不受极端值影响不受极端值影响具有不唯一性具有不唯一性数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用2.中位数中位数不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.平均数平均数易受极端值影响易受极端值影响数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用数据类型与集中趋势测度值数据类型与集中趋势测度值

24、数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类数据类型型分类数据分类数据 顺序数据顺序数据间隔数据间隔数据比率数据比率数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数4.2 离散程度的离散程度的度量度量1.分类数据:异众比率分类数据:异众比率2.顺序数据:四分位差顺序数据:四分位差3.数值型数据:方差及标准差数值型数据:方差及标准差4.相对离散程度:离散系

25、数相对离散程度:离散系数离中趋势离中趋势1.1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离

26、散程度测度值不同类型的数据有不同的离散程度测度值异众比率异众比率(variation ratio)1.1.对分类数据离散程度的测度对分类数据离散程度的测度对分类数据离散程度的测度对分类数据离散程度的测度2.2.非众数组的频数占总频数的比率非众数组的频数占总频数的比率非众数组的频数占总频数的比率非众数组的频数占总频数的比率3.计算公式为计算公式为计算公式为计算公式为4.4. 4. 用于衡量众数的代表性用于衡量众数的代表性用于衡量众数的代表性用于衡量众数的代表性异众比率异众比率 (例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮

27、料品牌频数频数 比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100解:解: 在在所所调调查查的的50人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其其代代表性不是很好表性不是很好四分位差四分位差(quartile deviation)1.对顺序数据离散程度的测度对顺序数据离散程度的测度对顺序数据离

28、散程度的测度对顺序数据离散程度的测度2.也称为内距或四分间距也称为内距或四分间距也称为内距或四分间距也称为内距或四分间距3.上四分位数与下四分位数之差上四分位数与下四分位数之差上四分位数与下四分位数之差上四分位数与下四分位数之差 Q QD D = = Q QU U Q QL L4. 4. 反映了中间反映了中间反映了中间反映了中间50%50%数据的离散程度数据的离散程度数据的离散程度数据的离散程度5. 5. 不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响6. 6. 用于衡量中位数的代表性用于衡量中位数的代表性用于衡量中位数的代表性用于衡量中位数的代表性极差极差(range)1.

29、一组数据的最大值与最小值之差一组数据的最大值与最小值之差一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.离散程度的最简单测度值离散程度的最简单测度值离散程度的最简单测度值离散程度的最简单测度值3.易受极端值影响易受极端值影响易受极端值影响易受极端值影响4.未考虑数据的分布未考虑数据的分布未考虑数据的分布未考虑数据的分布5.计算公式为计算公式为计算公式为计算公式为6. R = max(R = max(x xi i) - min() - min(x xi i) )问题问题数值型组距分组数据如何求极差数值型组距分组数据如何求极差?平均差平均差(mean deviation)1.各变量值与

30、其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.计算公式为计算公式为计算公式为计算公式为5.5.未分组数据未分组数据未分组数据未分组数据6. 6.组距分组数据组距分组数据组距分组数据组距分组数据平均差平均差 (例题分析例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差

31、计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计合计1202040平均差平均差 (例题分析例题分析)含义:每一天的销售量平均数相比,平均相含义:每一天的销售量平均数相比,平均相含义:每一天的销售量平均数相比,

32、平均相含义:每一天的销售量平均数相比,平均相 差差差差1717台台台台方差和标准差方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值数据离散程度的最常用测度值数据离散程度的最常用测度值数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或差;根据样本数

33、据计算的,称为样本方差或差;根据样本数据计算的,称为样本方差或差;根据样本数据计算的,称为样本方差或标准差标准差标准差标准差总体方差和标准差总体方差和标准差 (Population variance and Standard deviation)方差的计算公式方差的计算公式未分组数据未分组数据组距分组数据组距分组数据标准差的计算公式标准差的计算公式未分组数据组距分组数据组距分组数据样本方差和标准差样本方差和标准差 (simple variance and standard deviation)(simple variance and standard deviation)方差的计算公式方差的计

34、算公式方差的计算公式方差的计算公式未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:自由度自由度(degree of freedom)1.自自由由度度是是指指数数据据个个数数与与附附加加给给独独立立的的观观测测值值的的约约束束或或限制的个数之差限制的个数之差2.从从字字面面涵涵义义来来看看,自自由由度度是是指指一一组组数数据据中中可可以以自自由由取取值的个数值的个数3.当当样

35、样本本数数据据的的个个数数为为n时时,若若样样本本平平均均数数确确定定后后,则则附附加加给给n个个观观测测值值的的约约束束个个数数就就是是1个个,因因此此只只有有n-1个个数数据可以自由取值,其中必有一个数据不能自由取值据可以自由取值,其中必有一个数据不能自由取值4.按按着着这这一一逻逻辑辑,如如果果对对n个个观观测测值值附附加加的的约约束束个个数数为为k个,自由度则为个,自由度则为n-k自由度自由度(degree of freedom)1.样样本本有有3个个数数值值,即即x1=2,x2=4,x3=9,则则 x = 5。当当 x = 5 确确定定后后,x1,x2和和x3有有两两个个数数据据可可

36、以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x1=6,x2=7,那那么么x3则则必必然取然取2,而不能取其他值,而不能取其他值2.样样本本方方差差的的自自由由度度为为什什么么是是n-1呢呢?因因为为在在计计算算离离差差平平方方和和时时,必必须须先先求求出出样样本本均均值值 x ,而而 x则则是是附附加加给给离离差差平平方方和和的的一一个个约约束束,因因此此,计计算算离离差差平平方方和和时时只只有有n-1个独立的观测值,而不是个独立的观测值,而不是n个个3.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面来来解解释释,从从实实际际应应用用角角

37、度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差去去估估计计总体方差总体方差2时,它是时,它是2的无偏估计量的无偏估计量样本标准差样本标准差 (例题分析例题分析)某电脑公司销售量数据标准差计算表某电脑公司销售量数据标准差计算表某电脑公司销售量数据标准差计算表某电脑公司销售量数据标准差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)1401501501601601701701801801901902002002102102202202302302401451551651751851952052152252354916272017108451600900400100

38、01004009001600250064008100640027000170040007200640012500合计合计12055400样本标准差样本标准差 (例题分析例题分析)含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比, 平均相差台平均相差台平均相差台平均相差台标准分数标准分数(standard score)1. 1. 也称标准化值也称标准化值也称标准化值也称标准化值2.2. 对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量对某一个值在一组数

39、据中相对位置的度量3.3. 可用于判断一组数据是否有离群点可用于判断一组数据是否有离群点可用于判断一组数据是否有离群点可用于判断一组数据是否有离群点4.4. 用于对变量的标准化处理用于对变量的标准化处理用于对变量的标准化处理用于对变量的标准化处理5. 5. 计算公式为计算公式为计算公式为计算公式为标准分数标准分数(性质性质)1.均值等于均值等于均值等于均值等于0 02. 2. 方差等于方差等于方差等于方差等于1 1标准分数标准分数(性质性质) z分数只是将原始数据进行了线性变换,它并没分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改有改变一个数据在改组数据中的

40、位置,也没有改变该组数分布的形状,而只是将该组数据变为均变该组数分布的形状,而只是将该组数据变为均值为值为0,标准差为,标准差为1。 标准化值标准化值 (例题分析例题分析)9 9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元) 标准化值标准化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996经验法则经验法则经验法则表明:当一组数据对称分

41、布时经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时约有约有约有约有68%68%的数据在平均数加减的数据在平均数加减的数据在平均数加减的数据在平均数加减1 1个标准差的范个标准差的范个标准差的范个标准差的范围之内围之内围之内围之内约有约有约有约有95%95%的数据在平均数加减的数据在平均数加减的数据在平均数加减的数据在平均数加减2 2个标准差的范个标准差的范个标准差的范个标准差的范围之内围之内围之内围之内约有约有约有约有99%99%的数据在平均数加减的数据在平均数加减的数据在平均数加减的数据在平均数加减3 3个标准差的范个标准差的范个标准差

42、的范个标准差的范围之内围之内围之内围之内 切比雪夫不等式切比雪夫不等式(Chebyshevs inequality )如果一组数据不是对称分布,经验法则就不再使用,如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数这时可使用切比雪夫不等式,它对任何分布形状的数据都适用据都适用切比雪夫不等式提供的是切比雪夫不等式提供的是“下界下界”,也就是,也就是“所占比所占比例至少和多少例至少和多少”对于任意分布形态的数据,根据切比雪夫不等式,至对于任意分布形态的数据,根据切比雪夫不等式,至少有少有 (1-1/k2 )的数据落在的数据落在k个标准差之内。其中个标准差之

43、内。其中k是是大于大于1的任意值,但不一定是整数的任意值,但不一定是整数切比雪夫不等式切比雪夫不等式(Chebyshevs inequality )对于对于对于对于k=2k=2,3 3,4 4,该不等式的含义是,该不等式的含义是,该不等式的含义是,该不等式的含义是至少有至少有至少有至少有75%75%的数据落在平均数加减的数据落在平均数加减的数据落在平均数加减的数据落在平均数加减2 2个标准差个标准差个标准差个标准差的范围之内的范围之内的范围之内的范围之内至少有至少有至少有至少有89%89%的数据落在平均数加减的数据落在平均数加减的数据落在平均数加减的数据落在平均数加减3 3个标准差个标准差个标

44、准差个标准差的范围之内的范围之内的范围之内的范围之内至少有至少有至少有至少有94%94%的数据落在平均数加减的数据落在平均数加减的数据落在平均数加减的数据落在平均数加减4 4个标准差个标准差个标准差个标准差的范围之内的范围之内的范围之内的范围之内离散系数离散系数(coefficient of variation)1.1.标准差与其相应的均值之比标准差与其相应的均值之比标准差与其相应的均值之比标准差与其相应的均值之比2.对数据相对离散程度的测度对数据相对离散程度的测度对数据相对离散程度的测度对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响消除了数据

45、水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5. 5. 计算公式为计算公式为计算公式为计算公式为离散系数离散系数 (例题分析例题分析)【 例例例例 】某管理局抽查了所属的某管理局抽查了所属的8 8家企业,其产品销售数据如表。家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度试比较产品销售额与销售利润的离散程度某管理局所属某管理局所属8 8家企业的产品家企业的产品销售数据销售数据销售数据销售数据企业编号企业编号产品销售额(万元)产品销

46、售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0离散系数离散系数 (例题分析例题分析)v v1 1= =536.25536.25309.19309.19= =0.5770.577v v2 2= =32.521532.521523.0923.09= =0.7100.710结结论论: 计计算算结结果果表表明明,v1 10 为右偏分布为右偏分布3.偏态系数偏态系数SK0 为左偏分布为左偏分布4.偏态系数大于偏态系数大于1或小于或小于-1,被称为高度,被称为高度偏态分布;

47、偏态系数在偏态分布;偏态系数在1或或-1之间,之间,被认为是中等偏态分布;偏态系数越接被认为是中等偏态分布;偏态系数越接近近0,偏斜程度就越低,偏斜程度就越低偏态系数偏态系数 (例题分析例题分析) 某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台) 组中值组中值(Mi)频数频数 fi140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710

48、845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计合计120540000 70100000 偏态系数偏态系数 (例题分析例题分析)结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与 0 0 的差异不大,说的差异不大,说的差异不大,说的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的明电脑销售量为轻微右偏分布,即销售量较少的明电脑销售量为

49、轻微右偏分布,即销售量较少的明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数天数占据多数,而销售量较多的天数则占少数天数占据多数,而销售量较多的天数则占少数天数占据多数,而销售量较多的天数则占少数偏态与峰态偏态与峰态(从直方图上观察从直方图上观察)频频频频数数数数(天天天天)25201510530结论:结论:结论:结论:1. 1. 为右偏分布为右偏分布为右偏分布为右偏分布 2. 2. 峰态适中峰态适中峰态适中峰态适中某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图按销售量分组按销售量分组按销售量分

50、组按销售量分组(台台台台)140 150 160 170 180190200 210 220 230240峰态峰态(kurtosis)1.统计学家统计学家统计学家统计学家PearsonPearson于于于于19051905年首次提出年首次提出年首次提出年首次提出2.数据分布扁平程度的测度数据分布扁平程度的测度数据分布扁平程度的测度数据分布扁平程度的测度: :峰态系数峰态系数峰态系数峰态系数( (K)K) 根据原始数据计算根据原始数据计算根据原始数据计算根据原始数据计算 根据分组数据计算根据分组数据计算根据分组数据计算根据分组数据计算峰态系数峰态系数 (kurtosis coefficient)

51、峰态系数峰态系数K=0 为峰度适中为峰度适中峰态系数峰态系数K0 为尖峰分布为尖峰分布峰态系数峰态系数 (例题分析例题分析)结论:偏态系数为负值,但与结论:偏态系数为负值,但与结论:偏态系数为负值,但与结论:偏态系数为负值,但与0 0的差异不大,说明的差异不大,说明的差异不大,说明的差异不大,说明电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布用用Excel计算描述统计量计算描述统计量将将120天的销售量的数据输入到天的销售量的数据输入到Excel工作表中,然后按下列步骤操作:工作表中,然后按下列步骤操作:第第1步:选择步:选择“工具工具”下拉菜

52、单下拉菜单第第2步:选择步:选择“数据分析数据分析”选项选项第第3步:在分析工具中选择步:在分析工具中选择“描述统计描述统计”,然后选择,然后选择“确定确定”第第4步:当对话框出现时步:当对话框出现时在在“输入区域输入区域”方框内键入数据区域方框内键入数据区域在在“输出选项输出选项”中选择输出区域中选择输出区域选择选择“汇总统计汇总统计” 选择选择“确定确定”实例计算实例计算实例计算实例计算数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征数据分布特征集中趋势集中趋势离散程度离散程度分布形状分布形状中位数中位数中位数中位数平均数平均数平均数平均数异众比率异众比率异众比率异众比率四分位差四分位差四分位差四分位差极差极差极差极差偏态系数偏态系数偏态系数偏态系数平均差平均差平均差平均差方差或标准差方差或标准差方差或标准差方差或标准差峰态系数峰态系数峰态系数峰态系数众数众数众数众数离散系数离散系数离散系数离散系数本章小节本章小节1.数据水平的概括性度量数据水平的概括性度量2.数据离散程度的概括性度量数据离散程度的概括性度量3.数据分布形状的测度数据分布形状的测度4.用用Excel计算描述统计量计算描述统计量

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号