第3章 用统计量描述数据(2011年)课件

上传人:我*** 文档编号:141291571 上传时间:2020-08-06 格式:PPT 页数:66 大小:649KB
返回 下载 相关 举报
第3章 用统计量描述数据(2011年)课件_第1页
第1页 / 共66页
第3章 用统计量描述数据(2011年)课件_第2页
第2页 / 共66页
第3章 用统计量描述数据(2011年)课件_第3页
第3页 / 共66页
第3章 用统计量描述数据(2011年)课件_第4页
第4页 / 共66页
第3章 用统计量描述数据(2011年)课件_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《第3章 用统计量描述数据(2011年)课件》由会员分享,可在线阅读,更多相关《第3章 用统计量描述数据(2011年)课件(66页珍藏版)》请在金锄头文库上搜索。

1、一些人使用统计就像喝醉酒的人使用街灯柱支撑的功能多于照明。 Andrew Lang,统计名言,第 3 章 用统计量描述数据,3.1 水平的度量 3.2 差异的度量 3.3 分布形状的度量,Statistic,学习目标,度量水平的统计量 度量差异的统计量 度量分布形状的统计量 各统计量的的特点及应用场合 用Excel和SPSS计算描述统计量,哪名运动员的发挥更稳定?,在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10抢共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次 在2008年8月10日举行的第29届北京

2、奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表,哪名运动员的发挥更稳定?,最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫蒙赫珠勒仅以479.6环的成绩名列第8名 由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题,数据分布

3、的特征,3.1 水平的度量 3.1.1 平均数 3.1.2 中位数和分位数 3.1.3 用哪个值代表一组数据?,第 3 章 用统计量描述数据,3.1.1 平均数,3.1 水平的度量,平均数(mean),也称为均值,常用的统计量之一 消除了观测值的随机波动 易受极端值的影响 根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,简单算数平均(Simple mean),设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,总体平均数,统计函数AVERAGE,Excel,加权平均数 (Weighted mean),设各组的组中值为:M1 ,M2 , ,Mk

4、 相应的频数为: f1 , f2 , ,fk,样本加权平均:,总体加权平均:,加权平均数 (例题分析),加权平均数(权数对均值的影响),【例】甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1,3.1.2 中位数和分位数,3.1 水平的度量,中位数(median),排序后处于中间位置上的值。不受极端值影响,2. 位置确定,3. 数值确定,中位数的计算 (数据个数为奇数),【例3-3】 9个家庭的人均月收入数据 原始数据: 1500 750 7

5、80 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,中位数的计算 (数据个数为偶数),【例3-3】 10个家庭的人均月收入数据 排 序: 750 780 850 960 1080 1250 1500 1630 2000 2800 位 置: 1 2 3 4 5 6 7 8 9 10,统计函数MEDIAN,Excel,四分位数用3个点等分数据(quartile),排序后处于25%和75%位置上的值,不受极端值的影响,四分位数的计算(位

6、置的确定),方法2:较准确算法 (SPSS的算法),方法1:定义算法,四分位数的计算(位置的确定),方法3: 其中 表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上 方法4: Excel给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值,四分位数的计算 (数据个数为奇数),【例3-4】 9个家庭的人均月收入数据(4种方法计算) 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1

7、 2 3 4 5 6 7 8 9,方法1定义公式,四分位数的计算 (数据个数为奇数),【例3-4】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,方法2SPSS公式,四分位数的计算 (数据个数为奇数),【例3-4】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080

8、1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,方法34分数公式,四分位数的计算 (数据个数为奇数),【例3-4】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,方法4Excel公式,统计函数QUARTILE,Excel,众数(mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数,统

9、计函数MODE,Excel,3.1.3 用哪个值代表一组数据?,3.1 水平的度量,众数、中位数和平均数的关系,众数、中位数、平均数的特点和应用,平均数 易受极端值影响 数学性质优良,实际中最常用 数据对称分布或接近对称分布时代表性较好 中位数 不受极端值影响 数据分布偏斜程度较大时代表性接好 众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时代表性较好,3.2 差异的度量 3.2.1 极差和四分位差 3.2.2 方差和标准差 3.2.3 比较几组数据的离散程度: 离散系数,第 3 章 用统计量描述数据,怎样评价水平代表值?,假定有两个地区每人的平均收入数据,其中甲地区的平

10、均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况? 如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢? 要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区,怎样评价水平代表值?, 仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说

11、就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越,甲,乙,3.2.1 极差和四分位差,3.2 差异的度量,极差(range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为:R = max(xi) - min(xi),四分位差(quartile deviation),也称为内距或四分间距 上四分位数与下四分位数之差:Qd = QU QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性,25%,75%,3.2.2 方差和标准差,3.2 差异的度量,方差和标准差(v

12、ariance and standard deviation),数据离散程度的最常用测度值 反映各变量值与均值的平均差异 根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s),样本方差和标准差 (sample variance and standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,总体方差和标准差 (Population variance and Standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,

13、标准差的计算公式,自由度 (degree of freedom),自由度的概念由统计学家R.A Fisher提出 是指数据个数与附加给独立的观测值的约束或限制的个数之差 从字面涵义来看,自由度是指一组数据中可以自由取值的个数 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值 按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k,自由度 (degree of freedom),样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个

14、数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量,样本标准差 (例题分析),【例3-5】计算计算9名员工的月工资收入的方差和标准差 1500 750 780 1080 850 960 2000 1250 1630,方差,标准差,统计函

15、数STDEV,Excel,标准分数(standard score),1. 也称标准化值 2.对某一个值在一组数据中相对位置的度量 3.可用于判断一组数据是否有离群点(outlier) 用于对变量的标准化处理 均值等于0,方差等于1 计算公式为,标准分数(用于数据变换),z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1,用SPSS对数据进行标准化,第1步:选择【Analyze】下拉菜单,并选择 【Descriptive statistics - Descriptive 】 选项进入主对话框 第2步:在主对

16、话框中将变量选入【Variables】, 然后选中【Save standardized values as variables】。点击【OK】(SPSS会将标准化 后的变量以“Z”开头存放在原始变量工作表中),对数据标准化,SPSS,标准分数 (例题分析),经验法则,经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内,经验法则(例题分析), 9名员工月工资收入的经验法则,切比雪夫不等式(Chebyshevs inequality),如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号