集中和离散趋势

上传人:小** 文档编号:90531725 上传时间:2019-06-13 格式:PPT 页数:43 大小:596KB
返回 下载 相关 举报
集中和离散趋势_第1页
第1页 / 共43页
集中和离散趋势_第2页
第2页 / 共43页
集中和离散趋势_第3页
第3页 / 共43页
集中和离散趋势_第4页
第4页 / 共43页
集中和离散趋势_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《集中和离散趋势》由会员分享,可在线阅读,更多相关《集中和离散趋势(43页珍藏版)》请在金锄头文库上搜索。

1、人 性,大多数人坚持走自己选择的路,但很少的人坚持追随自己选择的目标。,两湾似蹙非蹙罥烟眉, 一双似喜非喜含情目。,两湾似蹙非蹙罥烟眉, 一双似泣非泣含露目。,第三章 数据的集中和离散趋势,三、峰度、偏度 四、数据标准化,1 众数(Mode),概念:一组数据中出现次数最多的变量值,特别注意:变量值可能是定类、定序、定距、定比中的 任意一种! 变量值可能是数值,也可能是字符!,定类数据的众数,频数最大的变量值即众数,表1 在美国名列前10位的外国语种 单位:人,资料来源:U. S. Bureau of the Census, Statistical Abstract of the United

2、States: 1997, 117th edition (Washington, DC: GPO,1997),定量数据的众数,表2 社会学生的年龄分布,频数最大的变量值即众数,例1,某企业一车间有30名职工,他们的工资收入情况如下表所示,请计算工资众数 表4 30名职工工资收入的频数分布表,众数出现的可能性,双众数,无众数,多众数,单众数,2 异众比例(Variation ratio),表1 学生自我评定生存欲望情况 单位:人,表2 学生来源地 单位:人,众数的代表性,异众比例(Variation ratio),定义 非众数组的频数占总频数的比例 公式 取值范围:0,1 异众比例,众数代表性

3、异众比例,众数代表性,例1 计算异众比例,表1 学生自我评定生存欲望情况 单位:人,表2 学生来源地 单位:人,V=33.3%,V=78.9%,3 中位数(Median),概念:一个分布的中间点,案例和计算步骤 两个组同学年龄 甲组:19、20、23、22、21 乙组:17、23、18、19、32、23,排序 甲组:19、20、21、22、23 乙组:17、18、19、23、23、32,找到中间位置的值 奇数为中间位置的值 甲班:21 偶数为中间两个数的平均值 乙班:21,分位数,中位数 50%的数大于这个数,50%的数小于这个数 四分位数 下四分位数:25%的数小于这个数 上四分位数:75%

4、的数小于这个数 例:75%的财富集中在25%的人手中 十分位数,箱线图,用途 可表示一组数据的最大值、上四分位数、中位数、下四分位数、最小值,图1 11位同学的英语和统计成绩的箱线图,比较不同受教育程度成人收入分布的箱线图,图2 美国不同受教育程度的成人收入情况 注:每一个箱线图的两端,是分布的5%和95%的点。,4 极差/全距(range),M=5 M=5,R=4 R=8,极差(range)是变量观测值中最大值与最小值之差,中位数的代表性,极差的代表性,极端值的影响 10,20,30,80 R=70 10,20,30,40 R=30,极差的代表性,四分位差(quartile deviatio

5、n) Q=Q3Q1,Q=2 Q=6,5 平均数/均值(Mean),是统计数据高低相互抵消的结果 是集中趋势的最主要的测度指标 适用于定距数据和定比数据,不适用于定类和定序数据,例3,例题 甲班:19、20、21、22、23 乙班:17、18、19、23、23、32 中位数: 甲班:21 乙班:21,简单算术平均数: 甲班:21 乙班:22,算术平均数(Arithmetic mean),定义 全部数据的算术平均 公式 简单算术均值 加权算术均值,加权算术平均数(Weighted mean),计算平均受教育年限 数据: 某公司员工:未上学10人,小学24人,初中83人,高中68人,大专及以上34人

6、。 解:,(年),三个重要的数学性质,各个变量值之和是均值的n倍(共n个数据) 各个变量值与均值的离差之和为零 各变量值与其均值的离差平方和最小,缺陷,易受极端值的影响 开口式分组条件下计算加权均值,假设性比较大,也会影响均值的代表性,几何平均数(Geometric mean),通常用于计算比率平均或速度平均 公式 若将变量值取对数,几何平均数就变成均值形式,例4,某人持有一种股票,20032006年每年的收益率分别为4.5%、2.0%、3.5%、5.4%。计算四年内的平均收益率。 (1.0384-1)100=3.84% EXCEL:X(1/N) =POWER(X,1/N),平均数的代表性,A

7、、B两组成绩,孰好孰坏?,A、B两组学生成绩,6 方差和标准差,方差(Variance) 各变量值与其平均数离差平方的平均数 标准差(Standard deviation,S.D.) 方差的平方根 标准差越大,变量值越分散,平均数解释力越低,方差的计算公式,总体方差 样本方差,自由度,概念 一组数据中可以自由取值的个数 当样本数据的个数为n时,若样本均值 确定后,只有n1个数据可以自由取值,其中必有一个数据不能自由取值,所以自由度为n1,例2 方差计算步骤,表3 A组同学身高,7 标准误,8离散系数/变异系数,概念 一组数据的标准差与其均值之比 公式 主要用于比较不同样本数据的离散程度 离散系

8、数,数据的离散程度 离散系数,数据的离散程度 例题 A组: 9.600/36.0=0.267 B组: 9.013/29.5=0.306,小结,集中离散 众数异众比例 中位数极差 四分位数四分位差 平均数方差、标准差、标准误、离散系数 选用哪组测度指标要根据掌握的数据的类型和分析目的来确定,小结,众数,中位数,平均数,表1 不同层次数据的集中趋势测量指标,变量值 变量值 组中值 计算,简单算术平均数 加权算术平均数 几何平均数,中间位置的变量值,平均数、中位数、众数的优缺点,平均数、中位数、众数的比较,对称分布 左偏分布 右偏分布,是否还有其他可能?,三、数据分布形状的描述,偏态 峰度,偏态及其

9、测度,偏态(skewness) 数据分布的不对称性 判断方向:可用众数、中位数、均值三者之间的大小关系大致判断数据分布是对称、左偏还是右偏 测度偏斜程度:偏态系数 未分组 分组,偏态系数,SK=0,数据分布是对称的 SK0,数据分布是右偏的 SK0,数据分布是左偏的 SK的绝对值越大,说明偏斜的程度越大,右偏/正偏,左偏/负偏,峰度及其测度,峰度(kurtosis) 与标准正态相比数据分布是平峰还是尖峰的特征 度量值:峰度系数k 未分组 分组,峰度系数,K=0,数据服从标准正态分布 KO,数据呈尖峰分布 K0,数据呈平峰分布,四、数据的标准化,用途 将具有不同量纲,或是不同分布形状是数据转化为标准化得分 方法 Z分数 01 0100,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号