应用统计学总复习

上传人:宝路 文档编号:47004238 上传时间:2018-06-29 格式:PPTX 页数:53 大小:983.03KB
返回 下载 相关 举报
应用统计学总复习_第1页
第1页 / 共53页
应用统计学总复习_第2页
第2页 / 共53页
应用统计学总复习_第3页
第3页 / 共53页
应用统计学总复习_第4页
第4页 / 共53页
应用统计学总复习_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《应用统计学总复习》由会员分享,可在线阅读,更多相关《应用统计学总复习(53页珍藏版)》请在金锄头文库上搜索。

1、应用统计学(1)总复习课程主要内容1. 为什么要学习统计学用数据说话2. 描述性统计(可视化)3. 汇总统计 (集中趋势、离散趋势)4. 相关分析与回归分析初步5. 时间序列分析6. 指数一、数据的分布中心 (集中趋势)1. 中位数 (Median): x1 x2 xn处于中间的位置观测值。2. 众数( Mode):出现频次最多的观测值3. 均值 (Mean):第一章 统计数据的汇总统计比较:均值、中位数、众数应用建议:(1)对于名义变量,描述集中趋势的办法 是:(2)对于顺序变量,描述集中趋势的最常 用的办法是:(3)对于定量变量,一般使用平均值。但当数据的直方图显示出是非对称(偏斜)分布时

2、,常常使用中位数。众数中位数二、数据离散程度的测量 1、极差( Rang)2、 方差 ( Variance )总体方差:样本方差:3、标准差 (Standard Deviation) Excel是用样本方差例题: 某车间有甲、乙两人,加工某零件质量质量数据:直径(mm)甲: 0.7,0.7,0.8,0.8,0.8,0.8,1.0,1.1 众数 = 0.8, 中位数= 0.8, 均值 = 0.8375乙:0.4,0.5,0.7,0.8,0.8,0.9,1.2,1.4众数 = 0.8, 中位数 = 0.8, 均值 = 0.8375问题: 谁是师傅?Excel 计算过程:平均值总体方差样本方差另一种

3、方差计算方法方差计算方法其他扩展内容2、离散系数 (Coefficient of Variation)1. 四分位极差( Interquartile Rang)3、异众比异众比(Variation Ratio):四分位极差 = Q3 - Q1定性数据离散程度的度量三、数据的标准化处理:1. 中心化压缩性质: 均值为0 方差等于1 2. 消除均值的作用性质: 均值恒等于13. Max-min 标准化 离散系数四. 数据的标准得分 (改成要求内容)Chebyshev 定理:令c 为任意大于1的数值。对于任意分布的数 据集合, 在(- c, +c) 区间内,所包含 的观测值比例至少是(1- 1/c2

4、 ) 。当 : c=2 : (1- 1/c2 ) = 75%c=3: (1- 1/c2 ) = 89%c=4: (1- 1/c2 ) = 93%经验规则:对于近似钟形分布的总体或样本分布,在(- , + )区间,有 68%在(- 2, +2 )区间,有 95% (75%)在(- 3, +3)区间,有 99.7% (89%)的观测值将落入该区间内。如果员工工资呈钟形对称分布,至少95% 的员工 工资在以下的区间内:(1266.47, 1986.91)数据的标准得分:Z score :对于总体数据: Z= (X - )/例:某中学高三年级连续两次考试的平均成绩分别为78.53分 和70.19分,标

5、准差分别为9.43分和7分。某学生两次考试的 成绩分别为90分和82分。问他在年级的排名退步了吗?( 9078.53)/ 9.43=1.22(82 70.19)/7=1.69问题:如果年级共有500人,可否大致判断他的排名不低于多少?拓展内容:拓展内容: 数据分布的偏度与峰度数据分布的偏度与峰度偏态系数(偏态系数(coefficient of skewness):coefficient of skewness): 基本思想:使用数据集合的“三阶中心矩”峰度系数(峰度系数(coefficient of kurtosis) coefficient of kurtosis) Ku: : 某一数据分布

6、与正态分布相比与正态分布相比的尖峰程度或平坦程度Sk = 0 对称分布Sk 0 右偏Sk 0 尖峰Ku 0 扁平第四章 相关分析与回归分析初步一、Pearson 相关系数记(1) -1 r 1(2) 0 r 1: 正线性相关(3) -1 r 0: 负线性相关(4) r = 0: 线性无关(5) r =1: 完全正线性相关(6) r= -1: 完全负线性相关二、 Spearman 秩相关系数(拓展内容)三、线性回归模型一、最小二乘法1、多元回归方程残差平方和(Sum of Squares for Error)2、 模型的评价复测定系数(Coefficient of Multiple Determ

7、ination)问题:测定系数是否越大越好?当增加变量个数,而样本容量过小时,会出现过 度拟和现象。 线性回归模型预测点Oyx多项式模型预测点新数据点调整的测定系数(Adjusted Coefficient of Determination) 3、假设检验 (1) F-test :在 Y 与 X1 , X2 , Xk 之 间是否存在线性关系(2) t 检验 Xj 在解释 Y 时是否是一个有用的变量? 当 Significance F 0.05时, F检验通过。当P-value 0.05时, t检验通过例题: 某商业银行25家分行2002年的主要业务数据4、 变量筛选方法向后筛选法 (Backw

8、ard Elimination)1)起始:所有自变量X1 Xk 均包含 在模型中;如果 t-test都显著,则X1 Xk 均包含在模型中;如果 存在若干 t-test不通过的参数,则先把 P值 最大的变量删除。2)对剩余的(k-1) 个变量做回归方程, 删除t-test不 通过中,P 值最大的变量;3)重复以上步骤。直到模型中所以变量均通过 t- test。曲线回归(拓展问题)可以对方程做变换:原方程变换为多元线性模型:(一) 时间数列的概念将某一统计指标按时间顺序排列起来,用于分 析社会经济现象发展变动的数量规律。例1 : 19901998国内生产总值等时间序列绝对数绝对数相对数平均数时期数

9、时点数第五章 时间序列分析5.2 时间数列的分析指标在利用时间数列描述现象动态发展过程时,可以运用一系列分析指标:发展水平 、平均发展水平增长量 、 平均增长量发展速度 、平均发展速度增长率、 平均增长率水平速度一、发展水平例如:各时期工业增加值a0, a1 , a2 , , an 年份工业增加值 (亿元)200025394.9200128329.4200232994.8200341990.2200454805.1200572187.0200691075.72007117048.42008129112.0反映社会经济现象在不同时期的规模水平基期水平:在动态对比时作为基准期的水平( a0)报告期

10、水平:所要分析时期的水平(an )n = 8 一共有9个数二. 平均发展水平:1. 1. 时期数列时期数列其中: 序时平均数n+1 时期数at t 时期的发展水平例:计算19901998年各年度的平均国内生产总值a0, a1 , a2 , , an 对不同时期的发展水平求平均数(序时平均数)2、时点数列:计算1994-1998年中国第三产业GDP占全部GDP的平均比重.3. 相对数或平均数的序时平均数案例:中航工业规划建设公司 技术人员占公司人员总数的平均比重(相对数的平均值)计算111月技术人员占公司人员总数的平均比重。问题问题:(1)能否直接计算 “比重(%)” 的平均值 ?(2)如何计算

11、 “平均比重” ?(3) “公司的人员数” 是时期数还是时点数 ?计算全公司的人均产值(平均数的平均值)51.56=(49.98+73.74+69.46+63.76+ 33.66+70.26+10.46+41.20)/850.51=44886/888.68u 对于平均数,不能在每个单位人均数的基础上 直接求总数平均,而是要把产值和人数分别相加 再求总数的平均。三增长量增长量 报告期水平基期水平描述现象在观察期内增长的绝对数量由于采用的基期不同,可以分成逐期增长量报告期水平前期水平累计增长量报告期水平固定基期水平逐期增长量 累计增长量累计增长量 逐期增长量之和平均增长量 现象在观察期内平均增长的

12、数量例: 中国19831987年粮食产量a0, a1 , , an四. 发展速度用于描述现象在观察期内相对的发展变化程度.由于采用的基期不同,可以分为:1.定基发展速度: 在 n 期内总的发展变化情况2. 环比发展速度: 与上期相比,发展变化的程度3. 同比发展速度: 与上年同期相比,发展变化情况a0, a1 , , an年份 不变价GDP (19901990年亿元)年亿元)环比速度 at/at-1定基速度定基速度 an/a0不变价 GDP199018547.9 ( a0 )10010018547.9199120250.4109.18109.18109.1820250.4199223134.2

13、114.24124.73124.7323134.2199326364.7113.96142.14142.1426364.73199429813.4113.08160.74160.7429813.42199533070.5110.92178.3178.333070.53199636380.4110.01196.14196.1436380.4199739762.7109.3214.38214.3839762.7199842877.4107.83231.17231.1742877.45199946144.6107.62248.79248.7946144.64200050035.2108.43269.

14、76269.7650035.22环比速度、定基速度、不变价GDP之间的换算换算关系:当期定基速度 = 当期环比速度 上期定基速当期不变价GDP(1990年亿元)=当期定基速度 1990现价GDP五.增长率说明社会经济现象的增长程度2. 环比增长率1. 定基增长率3. 同比增长率a0, a1 , , an六.平均发展速度表示在一段较长时间内,平均发展变化的程度.发展速度的平均值以 a0 为基期水平,以平均发展速度发展到 n 期后的水 平,正好等于 an。七. 平均增长率说明某种社会经济现象在一个较长时期内, 逐期递增的平均速度.计算公式: 平均增长率 = 平均发展速度 - 1(类比:增长率 =发

15、展速度 - 1)练习某企业2005年的销售额为2000万元。计划2010年的销售额达到5000万元。求:(1)每年应按怎样的增长速度进行生产,才能达到预定的计划指标?(2)若希望提前两年完成计划,则每年增长速度应较原来提高多少?(3)如果按新的增长速度持续生产,到2010年该企业的销售额应为多少?6.1 指数的概念指数(index number):用于测量社会经济现象总体在不同时间和空间综合变动的一种相对数。 相对性:指数是一种相对数,可以用于在不同的时间和空间,对总体情况进行对比。 综合性:指数可以在不同时间和空间,反映一组变量的综合变动水平。 平均性:指数可以代表总体的平均水平。第六章 指数概述p 个体指数(simple index):是反映个体个体社会经济现象变动的相对数。例如:一种商品的价格指数、一种产品的产量指数、一种商品 的成本指数。通常是建立在一个一个时间序列变量变量基础上的指数,反映了一个时间序列变量相对于基期的百分变动。 计算方法计算方法: 选择基期(t0):计算价格指数时,通常经济学家选择价格水平“正常”时期为基期。 计算第 t 期时间序列变量的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号