数据的描述性分析(袁军

上传人:san****019 文档编号:70239426 上传时间:2019-01-16 格式:PPT 页数:41 大小:488.01KB
返回 下载 相关 举报
数据的描述性分析(袁军_第1页
第1页 / 共41页
数据的描述性分析(袁军_第2页
第2页 / 共41页
数据的描述性分析(袁军_第3页
第3页 / 共41页
数据的描述性分析(袁军_第4页
第4页 / 共41页
数据的描述性分析(袁军_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《数据的描述性分析(袁军》由会员分享,可在线阅读,更多相关《数据的描述性分析(袁军(41页珍藏版)》请在金锄头文库上搜索。

1、本章内容概述,1 本章内容是关于:单变量截面数据的特征描述 2 为了对统计分组和简单整理后的数据的进一步认识,借助于下面的四类指标进行深入讨论: 集中趋势、离散程度、偏态与峰度 3 统计指标的作用,1 集中趋势的描述,集中趋势(central tendency)反映的是一组数据向某一中心值靠拢的倾向。 数据的集中趋势通常用平均指标来反映。 集中趋势指标(平均指标)按计算方法不同分为:, 算术平均数 调和平均数 几何平均数 中位数 众数,83名女生的身高,分布的集中趋势、中心数值,1-1算术平均数(arithmetic mean),1 概念: 算术平均数是分析社会经济现象一般水平和典型特征的最基

2、本指标,是统计中计算平均数最常用的方法。 2 基本公式: 注意: 公式中分子和分母在经济内容上的从属关系: 公式中分子和分母在范围上是一致的,否则不是平均数 例:劳动生产率=粮食产量/种粮农民人数; 全国平均每人拥有的粮食产量=粮食产量/全国人口数。,简单算术平均数与加权算术平均数,简单算术平均数(simple arithmetic mean) 特点:适于未分组数列;每个变量值出现的次数都是1。 加权算术平均数(weighted arithmetic mean) 特点:适于分组数列;平均数的值受权数的影响。 计算公式: 其中:原始数据分为 组,第 组变量值为 对应的次数为,注意:对变量值 的说

3、明 单项变量数列直接对变量值进行加权平均计算; 组距变量数列先求出该组变量值的组中值,作为 进行计算。,权数(weight),1 概念 我们把变量数列中的次数看作变量值的权数。 原因在于: 影响平均数大小的两个因素:变量值大小和权数。 2 形式 权数有两种形式:绝对数形式(频数)、相对数形式(频率) 同一总体资料,用权数的两种形式计算的平均数完全相同。,起到权衡轻重的作用,权数对算术平均数的影响,决定平均数的变动范围,组距数列加权算术平均数计算举例,工人平均日产量=13550/164=82.62(千克),算术平均数的数学性质,1 算术平均数与总体单位数的乘积等于总体各单位标志值的总和。 2 各

4、变量值与算术平均数的离差之和等于零。 3 各变量值与算术平均数的离差平方之和最小。 优点:1 容易理解,便于计算 2 灵敏度高 缺点:1 容易受极端变量值的影响 2 在开口组中,代表性变差,1-2调和平均数(harmonic mean),概念: 由于在社会经济统计中缺乏资料,计算平均数时就需要采用间接的方式,于是产生了调和平均数。,购买3次该蔬菜的平均价格是多少?,调和平均数与算术平均数的关系,调和平均数在实际应用中一般是作为算术平均数的变形使用,区别在于两者所掌握的原始资料不同。 对于相同的总体,两者计算得到的结果完全相同。,调和平均数的特点,优点: 1 灵敏度高 2 在某些情况下,代替简单

5、平均数进行计算 缺点: 1 不容易理解 2 容易受极值影响 3 有标志值为0时,不能计算,1-3 几何平均数(geometric mean),1 概念: 若干项变量值连乘积开其项数次方的算术根。 当各项变量值的连乘积等于总比率或总速度时,适宜使用他计算平均比率或平均速度。 2 计算: 简单几何平均数: 加权几何平均数: 3 优点: 受极端变量值影响小;适宜计算平均比率和平均速度。 缺点: 有变量值为0或负值不能计算;应用范围较窄。,1-4 中位数与分位数,1 概念 总体单位标志值按大小顺序排列,处于中间位置的那个标志值就是中位数(median)Me。 意义:总体标志值中一半比中位数小,一半比它

6、大。 人口普查中应用年龄中位数;产品质量控制中取中位数 2 计算: 先对数据进行排序; 未分组数据确定中位数: 单项数列确定中位数: 先求 ;计算各组的累积次数(向上或向下累计);根据中位数的位置找到中位数。,分位数,中位数的特点: 优点:容易理解;不受极端值影响;某些不具有数学特点或不能用数字测定的现象可以用中位数求其一般水平。 缺点:灵敏度差,不宜计算 分位数概念: 四分位数(Quartiles): 把一个变量数列分为四等分,形成三个分割点Q1、Q2、Q3,这三个分割点的数值就是四分位数。Q2=Me 计算:略 十分位数(dectile) 百分位数(percentile),1-5 众数,1

7、概念: 众数(mode)是总体中出现次数最多的标志值。 它能直观的说明客观现象分配中的集中趋势。 2 应用举例: 有时常用众数代替算术平均数来说明社会经济现象的一般水平 例:市场上某种商品一天的价格变动,成交量最多的那个价格 大批服装(鞋)规格不同,市场需求最多的那个规格 3 计算: 单项数列:直接观察法出现次数最多的 组距数列:(仅考虑等距数列) 先观察众数所在组;然后按照公式近似推算。,1-6 各种平均指标之间的关系,1. 三类数值平均数之间: 算术平均数、几何平均数、调和平均数,2. 数据的分布与众数、中位数、算术平均数,1-7 对各平均指标需要说明的问题,1. 数据的非对称状态越强,

8、之间的差别就越大。 Karl Pearson:当分布为适当偏态时,三者关系:,2. 正确应用平均指标的原则 (1)平均指标只能用于同质总体; (2)需要用组平均数补充总平均数;例子 (3)需要用分配数列补充说明平均数;例子,组平均数补充总平均数,某地区两个县的农业生产情况表,分配数列补充说明平均数,某集团下属企业计划完成情况表,3.五值概括法与盒须图 Xmin Q1 Me Q3 Xmax 利用上面的5个数可以确定数据的分布形状; 五值概括法的图形表现就是盒须图。,盒须图的例子,甲班 13个同学的体育测试成绩: 39 32 20 34 40 33 31 29 25 30 31 32 22 乙班

9、12个同学的体育测试成绩: 33 30 36 45 34 28 25 32 29 34 35 31,a,b,a(c),data1,data3,两供货商的供货计划完成情况,0 1 2 3 月份,0 1 2 3 月份,供货计划 完成百分比 %,供货商甲,供货商乙,概念:,离散程度指标又称标志变异指标,离中趋势指标等,它反映变量分布离散趋势;常与平均指标匹配使用。,(1)评价平均数的代表性;,(2)是对事物发展均衡性的量度: 供货计划完成的均衡性,协调性;产品质量的稳定性,作用:,2 离散程度的描述,种类,离散程度的绝对指标,离散程度的相对指标,2-1 极差、四分位差、平均差,概念: 极差(Rang

10、e)也叫全距,是一组数据的最大值与最小值之离差,即: 四分位差(Interquartile range)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用Qr表示。 平均差(Mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用AD、MD表示。 注意: 1 极差和四分位差的特点 2 平均差由于采用绝对值的离差形式加以数学假定,在应用上有较大的局限性。,2-2 标准差与方差,概念: 标准差是个单位标志值与其算术平均数的离差平方的算术平均数的平方根。 计算: 未分组资料: 分组资料: 标准差于平均差之间的关系:AD,例题1:计算5、7、11、8、9的标

11、准差。 例题2,2-3 离散程度的相对指标:离散系数,例:从学校大一学生中抽取100人,测得他们的身高和体重的平均值分别为168cm,52kg;相应的标准差为9cm,5kg。问身高和体重的差异哪一个大?,离散系数:把算术平均数与离散程度绝对指标联系起来的一个相对测度。,身高的离散系数=9/168*100%=5.36% 体重的离散系数=5/52*100%=9.62%,为研究是非标志总体的数量特征,令,2-5是非标志及其统计指标,是非标志成数,具有某种标志表现的 单位数所占的成数,不具有某种标志表现的单位数所占的成数,是非标志的均值与标准差,均 值,标 准 差,是非标志的方差与标准差系数,方差,标

12、准差系数,例:某厂某月份生产了400件产品,其中合格品380件,不合格品20件。求产品质量分布的集中趋势与离散程度。,是非标志指标的计算,解:,3 分布的偏度与峰度,3-1 原点距与中心距 k阶原点距 k阶中心距,3-2 分布的偏态,概念: 偏态(Skewness)是对分布偏斜方向和程度的测度。 变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。 计算: 偏态系数的数值一般在0与3之间,越接近0,分布的偏斜度越小;越接近3,分布的偏斜度越大,3-3 分布的峰度,概念: 峰度(Kurtosis)是分布集中趋势高峰的形状。在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度测度。 如果分布的形状比正态分布更高更瘦,则称为尖峰分布,见图4.4(a);如果分布的形状比正态分布更矮更胖,则称为平峰分布,见图4.4(b)。,4 计算工具的使用,1 Excel关于集中趋势的函数: AVERAGE HARMEAN GEOMEAN MEDIAN QUARTILE PERCENTILE MODE 2 Excel关于离散程度的函数 AVEDEV STDEV VAR SKEW KURT Excel描述性统计工具: 3 数据分析工具描述统计,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号