用统计量描述数据

上传人:工**** 文档编号:568704010 上传时间:2024-07-26 格式:PPT 页数:79 大小:1.36MB
返回 下载 相关 举报
用统计量描述数据_第1页
第1页 / 共79页
用统计量描述数据_第2页
第2页 / 共79页
用统计量描述数据_第3页
第3页 / 共79页
用统计量描述数据_第4页
第4页 / 共79页
用统计量描述数据_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《用统计量描述数据》由会员分享,可在线阅读,更多相关《用统计量描述数据(79页珍藏版)》请在金锄头文库上搜索。

1、第第 3 章章 用统计数据描述数据用统计数据描述数据统计学第第 3章章 用统计数据描述数据用统计数据描述数据3.1 水平水平 (集中趋势集中趋势)的测度的测度 3.2 差异差异 (离散程度离散程度)的测度的测度3.3 分布形状分布形状(偏态与峰态偏态与峰态)的测度的测度学习目标学习目标1. 集中趋势各测度值的计算方法集中趋势各测度值的计算方法2. 集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3. 离散程度各测度值的计算方法离散程度各测度值的计算方法4. 离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合5. 偏态与峰态的测度方法偏态与峰态的测度方法用用Exce

2、l计算描述统计量并进行分析计算描述统计量并进行分析数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 ( (位置位置位置位置) )偏态和峰态偏态和峰态偏态和峰态偏态和峰态(分布形状)(分布形状)(分布形状)(分布形状)离中趋势离中趋势离中趋势离中趋势 ( (分散程度分散程度分散程度分散程度) )数据分布特征的测度数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和

3、标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态3.1 集中趋势的测度集中趋势的测度3.1.1 众数众数3.1.2 中位数和分位数中位数和分位数3.1.3 均值均值3.1.4 众数、中位数和均值的比较众数、中位数和均值的比较集中趋势集中趋势(Central tendency) 一一一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋

4、势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值 低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不

5、适用于低层次的测量数据众数众数众数(mode)出现次数最多的变量值出现次数最多的变量值不受极端值的影响不受极端值的影响一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据众数众数(不唯一性不唯一性)无众数无众数原始数据: 10 5 9 12 6 8一个众数一个众数原始数据: 6 5 9 8 5 5多于一个众数多于一个众数原始数据: 25 28 28 36 42 42分类数据的众数分类数据的众数 (例题分析例题分析)例例1:不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数

6、比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰旭日升冰茶茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“ “饮饮饮饮料料料料品品品品牌牌牌牌” ”,这这这这是是是是个个个个分分分分类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就就就就是是是是变变变变量量量量值值值值 在在在在所所所所调调调调查查查查的的的的5050人人人人中中中中,购购购购买买买买可可可可口口口口可可可可乐乐乐乐的的的的人人人人数数

7、数数最最最最多多多多,为为为为1515人人人人,占占占占总总总总被被被被调调调调查查查查人人人人数数数数的的的的30%30%,因因因因此此此此众众众众数数数数为为为为“ “可口可乐可口可乐可口可乐可口可乐” ”这一品牌,即这一品牌,即这一品牌,即这一品牌,即 MMo o可口可乐可口可乐可口可乐可口可乐中位数和分位数中位数和分位数中位数(median)排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型

8、数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据用于分类数据用于分类数据各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即中位数的计算n为奇数为奇数n为偶数为偶数数值型数据的中位数数值型数据的中位数 (9个数据的算例个数据的算例)【例【例2】:】:9个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2

9、000位位 置置: 1 2 3 4 5 6 7 8 9中位数中位数 1080数值型数据的中位数数值型数据的中位数 (10个数据的算例个数据的算例)【例【例3】:】:10个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 四分位数四分位数(quartile)排序后处于25%和75%位置上的值不受极端值的影响不受极端值的影响主主要要用用于于顺顺序序数数据据,也也可可用用于于数数值值型型数数据据,但不能用于分类数据但不能用于分类数据QQL LQQMMQQU U25%25%2

10、5%25%四分位数四分位数(位置的确定位置的确定)数值型数据的四分位数数值型数据的四分位数 (9个数据的算例个数据的算例)【例【例4】:】:9个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9数值型数据的四分位数数值型数据的四分位数 (10个数据的算例个数据的算例)【例【例5】:】:10个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1

11、500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 数值型数据:平均数数值型数据:平均数(均值均值)均值均值(mean)集中趋势的最常用测度值集中趋势的最常用测度值一组数据的均衡点所在一组数据的均衡点所在体现了数据的必然性特征体现了数据的必然性特征易受极端值的影响易受极端值的影响用于数值型数据,不能用于分类数据和顺用于数值型数据,不能用于分类数据和顺序数据序数据简单均值与加权均值简单均值与加权均值(simple mean / weighted mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为: x x1 1 ,x x2 2 , ,x xn n各组的

12、组中值为:各组的组中值为:各组的组中值为:各组的组中值为:MM1 1 ,MM2 2 , ,MMk k 相应的频数为:相应的频数为:相应的频数为:相应的频数为: f f1 1 , f f2 2 , ,f fk k简单均值简单均值简单均值简单均值加权均值加权均值加权均值加权均值已改至此!已改至此!例例6:某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225

13、235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数 (例题分析例题分析)几何平均数几何平均数(geometric mean) n 个变量值乘积的个变量值乘积的 n 次方根次方根适用于对比率数据的平均适用于对比率数据的平均主要用于计算平均增长率主要用于计算平均增长率计算公式为计算公式为5. 5. 可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形几何平均数几何平均数 (例题分析例题分析) 【例例】某某水水泥泥生生产产企企业业1999年年的的

14、水水泥泥产产量量为为100万万吨吨,2000年年与与1999年年相相比比增增长长率率为为9%,2001年年与与2000年年相相比比增增长长率率为为16%,2002年年与与2001年年相相比比增增长长率率为为20%。求求各各年年的的年年平平均均增增长率。长率。年平均增长率年平均增长率年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%几何平均数 (例题分析) 【例例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均

15、: 几何平均:几何平均:几何平均:几何平均:众数、中位数和均值的比较众数、中位数和均值的比较众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数和均值的特点和应用众数、中位数和均值的特点和

16、应用众数众数不受极端值影响不受极端值影响具有不唯一性具有不唯一性数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用中位数中位数不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用均值均值易受极端值影响易受极端值影响数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据间隔数据间隔数据比率数据比率数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和

17、平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数3.2 差异(离散程度)的测度3.2.1 极差和四分位差极差和四分位差3.2.2 方差及标准差方差及标准差3.2.3 相对位置的测量:标准分数相对位置的测量:标准分数3.2.4 相对离散程度:离散系数相对离散程度:离散系数数据的特征和测度(本节位置)数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和

18、标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 度度度度度度四分位差四分位差四分位差四分位差四分位差四分位差偏偏偏偏偏偏 态态态态态态离中趋势离中趋势数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度不同类型的

19、数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值极差极差极差极差(range)一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简单测度值离散程度的最简单测度值易受极端值影响易受极端值影响未考虑数据的分布未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R = max(xi) - min(xi)计算公式为计算公式为计算公式为计算公式为四分位差四分位差四分位差四分位差(quartile deviation)对顺序数据离散程度的测度对顺序数据离散程度的测度也称为内距

20、或四分间距也称为内距或四分间距上四分位数与下四分位数之差上四分位数与下四分位数之差 QD = QU QL反映了中间反映了中间50%数据的离散程度数据的离散程度不受极端值的影响不受极端值的影响用于衡量中位数的代表性用于衡量中位数的代表性如根据例如根据例5, 计算这计算这10个家庭的人均月收入个家庭的人均月收入数据的四分位差为数据的四分位差为: Q QD D = Q= QU U Q QL = L = 1532.5-772.5=760 (1532.5-772.5=760 (元元) )方差和标准差方差和标准差方差和标准差方差和标准差(variance and standard deviation)数据

21、离散程度的最常用测度值数据离散程度的最常用测度值反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方准差;根据样本数据计算的,称为样本方差或标准差差或标准差4 6 8 10 124 6 8 10 12 x x = = 8.38.3样本方差和标准差样本方差和标准差 (simple (simple variancevariance and and standard deviationstandard deviation) )未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数

22、据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自由度由度由度由度由度由度n-1n-1n-1去除去除去除去除去除去除! !样本方差样本方差自由度自由度(degree of freedom)一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数当当样样本本数数据据的的个个数数为为 n 时时,若若样样本本均均值值 x 确确定定后后,只只有有n-1个个数数据据可可以以自自由由取取

23、值值,其其中中必必有有一一个个数数据据则则不能自由取值不能自由取值例例如如,样样本本有有3个个数数值值,即即x1=2,x2=4,x3=9,则则 x = 5。当当 x = 5 确确定定后后,x1,x2和和x3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x1=6,x2=7,那么,那么x3则必然取则必然取2,而不能取其他值,而不能取其他值样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面来来解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差s2去估计总体方差去估计总体方差2时,时,

24、 s2是是2的无偏估计量的无偏估计量样本标准差样本标准差 ( (例题分析例题分析) )某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845160090040010001004009001600250064008100640027000170040007200640012500合计合计12055400样本标准差 (例

25、题分析) 含义:含义:每一天的销售量与平均数相比, 平均相差21.58台相对位置的测量:标准分数相对位置的测量:标准分数标准分数(standard score)1. 也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5. 计算公式为标准分数标准分数(性质性质)均值等于02. 方差等于1标准分数(性质) z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。 标准化值 (例题分析)例例7:9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值

26、计算表 家庭编号家庭编号人均月收入(元)人均月收入(元) 标准化值标准化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996经验法则经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时约有约有68%的数据在平均数加减的数据在平均数加减1个标准差的个标准差的范围之内范围之内约有约有95%的数据在平均数加减的数据在平均数加减2个标准差的个标准差的范围之内范围之内约有约有99%的数据在平均数加减的数据在平均数加减3个标准差的个标准差的范围之内范围之

27、内 切比雪夫不等式(Chebyshevs inequality )如果一组数据不是对称分布,经验法则就不如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用任何分布形状的数据都适用切比雪夫不等式提供的是切比雪夫不等式提供的是“下界下界”,也就是,也就是“所占比例至少和多少所占比例至少和多少”对于任意分布形态的数据,根据切比雪夫不对于任意分布形态的数据,根据切比雪夫不等式,至少有等式,至少有 的数据落在的数据落在k个标准差个标准差之内。其中之内。其中k是大于是大于1的任意值,但不一定是的任意值,但不一定是整数整

28、数切比雪夫不等式切比雪夫不等式(Chebyshevs inequality )对于对于k=2,3,4,该不等式的含义是,该不等式的含义是至少有至少有75%的数据落在平均数加减的数据落在平均数加减2个标个标准差的范围之内准差的范围之内至少有至少有89%的数据落在平均数加减的数据落在平均数加减3个标个标准差的范围之内准差的范围之内至少有至少有94%的数据落在平均数加减的数据落在平均数加减4个标个标准差的范围之内准差的范围之内相对离散程度:离散系数相对离散程度:离散系数离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除

29、了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5. 计算公式为离散系数离散系数 (例题分析例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【 例例例例 8 8】某某某某管管管管理理理理局局局局抽抽抽抽查查查查了了了了所所所所属属属属的的的的8 8家家家家企企企企业业业业,其其其其产产产产品品品品销销销销售售售售数数数数据如表。试比

30、较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数 (例题分析)结论: 计算结果表明,v1 0为右偏分布4.偏态系数 0为左偏分布偏态系数 (skewness coefficient)根据原始数据计算根据分组数据计算偏态系数 (例题分析) 例例8:某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台) 组中值组中值(Mi)频数频数 fi140150150160160170170180180190190200200210210220

31、220230230240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计合计120540000 70100000 偏态系数 (例题分析)结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售

32、量较少的天数占据多数,而销售量较多的天数则占少数数占据多数,而销售量较多的天数则占少数偏态与峰态(从直方图上观察)按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组( (台台台台台台) )结论结论结论结论:1. 1. 为右偏分布为右偏分布 2. 2. 峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数( (天天天天天天) )25252020151510105 530302

33、20220 230230240240峰 态峰态(kurtosis)统计学家Pearson于1905年首次提出数据分布扁平程度的测度峰态系数=0扁平峰度适中峰态系数0为尖峰分布峰态系数 (kurtosis coefficient)根据原始数据计算根据分组数据计算峰态系数 (例题分析)结论:结论:结论:结论:偏态系数为负值,但与偏态系数为负值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布用Excel计算描述统计量用Excel计算描述统计量将120的销售量的数据输入到Excel工作表中,然后按下列步骤操作:第第1步:步:选择“工具工具”下拉菜单第第2步:步:选择“数据分析数据分析”选项第第3步步:在分析工具中选择“描描述述统统计计”,然后选择“确确定定”第第4步:步:当对话框出现时 在“输入区域输入区域”方框内键入数据区域 在“输出选项输出选项”中选择输出区域 选择“汇总统计汇总统计” 选择“确定确定”实例计算实例计算本章小节1. 数据水平的概括性度量数据水平的概括性度量2. 数据离散程度的概括性度量数据离散程度的概括性度量3. 数据分布形状的测度数据分布形状的测度4. 用用Excel计算描述统计量计算描述统计量结结 束束

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 文学/艺术/历史 > 人文/社科

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号