计算机数据库(经济会计类)数据概括性度量随堂讲义

上传人:第*** 文档编号:62016937 上传时间:2018-12-16 格式:PPT 页数:76 大小:1.92MB
返回 下载 相关 举报
计算机数据库(经济会计类)数据概括性度量随堂讲义_第1页
第1页 / 共76页
计算机数据库(经济会计类)数据概括性度量随堂讲义_第2页
第2页 / 共76页
计算机数据库(经济会计类)数据概括性度量随堂讲义_第3页
第3页 / 共76页
计算机数据库(经济会计类)数据概括性度量随堂讲义_第4页
第4页 / 共76页
计算机数据库(经济会计类)数据概括性度量随堂讲义_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《计算机数据库(经济会计类)数据概括性度量随堂讲义》由会员分享,可在线阅读,更多相关《计算机数据库(经济会计类)数据概括性度量随堂讲义(76页珍藏版)》请在金锄头文库上搜索。

1、第 4 章 数据的概括性度量,PowerPoint,第 4 章 数据的概括性度量,4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量,学习目标,1. 集中趋势各测度值的计算方法 2. 集中趋势各测度值的特点及应用场合 3. 离散程度各测度值的计算方法 4. 离散程度各测度值的特点及应用场合 偏态与峰态的测度方法 用Excel计算描述统计量并进行分析,集中趋势 (central tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测

2、度值并不适用于低层次的测量数据,4.1 集中趋势的度量,4.1.1 分类数据:众数 4.1.2 顺序数据:中位数和分位数 4.1.3 数值型数据:平均数 4.1.4 众数、中位数和平均数的比较,分类数据:众数,众数 (mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,众数 (不惟一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,分类数据的众数 (例题分析),解:这里

3、的变量为“饮料类型”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买碳酸饮料的人数最多,为15人因此众数为“碳酸饮料”这一类型,即 Mo碳酸饮料,顺序数据的众数 (例题分析),解:这里的数据为顺序数据。变量为“回答类别” 甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,eg4.2,顺序数据:中位数和分位数,中位数 (median),排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,中位数 (位置和数值的确定),位置确定,数值确定,顺序数据的

4、中位数 (例题分析),解:中位数的位置为 (300+1)/2150.5 从累计频数看,中位数在“一般”这一组别中 中位数为 Me=一般,数值型数据的中位数 (9个数据的算例),【例4.5】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,数值型数据的中位数 (10个数据的算例),【例4.5】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960

5、1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,四分位数 (quartile),排序后处于25%和75%位置上的值,不受极端值的影响 计算公式,顺序数据的四分位数 (例题分析),解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 从累计频数看, QL在“不 满意”这一组别中; QU在 “一般”这一组别中 四分位数为 QL = 不满意 QU = 一般,数值型数据的四分位数 (9个数据的算例),【例4.6】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250

6、1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,数值型数据:平均数,平均数 (mean),也称为均值 集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 有简单平均数和加权平均数之分 根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,简单平均数 (Simple mean),设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,总体平均数,加权平均数 (Weighted mean),设各组的组中值为:M1 ,M2

7、, ,Mk 相应的频数为: f1 , f2 , ,fk,样本加权平均,总体加权平均,加权平均数 (例题分析),几何平均数 (geometric mean),n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为,5. 可看作是平均数的一种变形,几何平均数 (例题分析),【例】一位投资者持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,众数、中位数和平均数的比较,众数、中位数和平均数的关系,众数、中位数、平均数的特点和应用,众数 不受极端值影

8、响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,离中趋势4.2 离散程度的度量,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,4.2 离散程度的度量,4.2.1 分类数据:异众比率 4.2.2 顺序数据:四分位差 4.2.3 数值型数据:方差和标准差 4.2.4 相对离散程度:离散系数,分类数据:异众比率,异众比率 (variation ratio),1.

9、对分类数据离散程度的测度 2. 非众数组的频数占总频数的比例 3. 计算公式为,4. 用于衡量众数的代表性,异众比率 (例题分析),解: 在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“碳酸饮料”代表消费者购买饮料品牌的状况,其代表性不是很好,顺序数据:四分位差,四分位差 (quartile deviation),内距或四分间距 上四分位数与下四分位数之差 Qd = QU QL 3. 反映了中间50%数据的离散程度,其数值越小(大),说明中间的数据越集中(分散)。 不受极端值的影响 用于衡量中位数的代表性,四分位差为 Qd = QU - QL = 1437.5

10、797.5 =640,四分位差 (例题分析),数值型数据: 极差、平均差、方差和标准差,极差 (range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 不能反映中间数据的分布状况,因而不能正确描述数据的分散程度。,R = max(xi) - min(xi),计算公式为,平均差平均绝对离差 (mean deviation),各变量值与其平均数离差绝对值的平均数 能全面反映一组数据的离散程度。Md越大,说明数据的离散程度越大。但实际中应用较少。,计算公式为,未分组数据,组距分组数据,平均差 (例题分析),平均差 (例题分析),含义:每一天的销售量平均数相比, 平均相差1

11、7台,方差和标准差 (variance and standard deviation),数据离散程度的最常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s),样本方差和标准差 (sample variance and standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,自由度 (degree of freedom),指一组数据中可以自由取值的个数 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个

12、数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值 样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,自由度 (degree of freedom),为什么样本方差的自由度为什么是n-1呢? 因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 。,样本标准差 (例题分析),样本标准差 (例题分析),含义:每一天的销售量与平

13、均数相比, 平均相差21.58台,总体方差和标准差 (Population variance and Standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,相对位置的度量:标准分数,标准分数 (standard score),1. 也称标准化值(Z分数) 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点(outlier) 4. 用于对变量的标准化处理 5. 计算公式为,标准分数 (性质),z分数只是将原始数据进行了线性变换, 它并没有改变一个数据在该组数据中的位置, 也没有改变该组数分布的形

14、状。 原始数据均值为34,标准差为6; 标准化后该组数据的均值为0,标准差为1 。,标准分数 (例题分析),经验法则,经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内,离群点:3个标准差以外的数据,经验法则 (例题分析),1200431.68= (768.32,1631.68) 7个家庭,77.78%,12002*431.68= (336.64,2063.36) 9个家庭,100%,切比雪夫不等式 (Chebyshevs inequality ),如果一组数据

15、不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数,切比雪夫不等式 (Chebyshevs inequality ),对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内,相对离散程度:离散系数,离散系数 (coef

16、ficient of variation),1. 标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为,离散系数 (例题分析),【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数 (例题分析),结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,离散系数 例题分析P89,请问哪名运动员发挥最稳定?,4.3 偏态与峰态的度量,4.3.1 偏态及其测度 4.3.2 峰态及其测度,偏 态,偏态 (skewness),1. 数据分布偏斜程度的测度 2. 偏态系数=0为

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号