统计基础三:统计描述

上传人:ji****n 文档编号:54813154 上传时间:2018-09-19 格式:PPTX 页数:37 大小:227.97KB
返回 下载 相关 举报
统计基础三:统计描述_第1页
第1页 / 共37页
统计基础三:统计描述_第2页
第2页 / 共37页
统计基础三:统计描述_第3页
第3页 / 共37页
统计基础三:统计描述_第4页
第4页 / 共37页
统计基础三:统计描述_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《统计基础三:统计描述》由会员分享,可在线阅读,更多相关《统计基础三:统计描述(37页珍藏版)》请在金锄头文库上搜索。

1、统计描述,统计描述与统计推断,统计描述- 对数据进行收集和描述的一些方法,以得出有意义的信息 统计推断- 对部分样本数据进行分析的方法,以得出对总体的预测或推断,统计描述-概要,数字量度,描述数据的特性主要的数字量度: 1、位置量度 (中心)-分布集中趋势的测度 2、离散量度 (变化)-分布离散程度的测度 3、形状量度 (分布)-分布偏态与峰度的测度,1、位置量度(Measures of Location),平均值 算术平均(Mean或Xbar) 几何平均(G) 调和平均(H) 取舍平均(TrMean)中位数(Median)众数(Mode)四分位数(Quartiles),平均值,设有n个观察样

2、本 x1, x2, . . . , xn, 则样本均值为平均值是最常用的衡量位置或数据中心的量.,平均值,设观察的总体中有N 个个体, 现从中抽取n个个体进行观察, 则样本均值(sample mean)为而总体均值(population mean) (记为)则为通常总体均值是未知的, 可用样本均值来估计总体均值.,例,在1991年海湾战争的“沙漠风暴”行动中, 美国空军(USAF)的 F-117A战机共出动了1270次战斗, 持续时间共6905小时. 因此, 在这次行动中一次F-117A 任务的平均持续时间为,中位数(Median),把样本x1, x2, . . . , xn 从小到大重新排列

3、得 x (1), x(2), . . . , x(n) , 则样本中位数(sample median)定义为中位数的一个优点是具有稳健性, 受极值的影响不大.,如果n是奇数,如果n是偶数,例,设样本观察值为1 3 4 2 7 8 6则样本均值和样本中位数分别为4.4和 4. 它们都可以合理地反映这些数据的中心位置. 如果最后一个观察值改为1 3 4 2 7 8 2450则样本均值为 353.6 而样本中位数保持不变.,众数(Mode),众数是指样本中出现次数最多的观察值.众数可以是唯一的, 也可以有多个, 也可以不存在.,例,设观察值为3 6 9 3 5 8 3 4 6 3 1 10则样本众数

4、是 3. (出现了4次)设观察值为3 6 9 3 5 8 3 4 6 3 1 10 6 2 5 6则样本众数有两个: 3和6.(各出现了4次)设观察值为1 3 4 2 7 6 8则样本众数不存在.,众数、中位数和均值的特点及应用场合,众数、中位数和均值的关系,四分位数(Quartiles),当一个有序数据集被划分为四个相等的部分, 则划分点就称为四分位点(quartiles).第一分位点(或下分位点)q1 指小于它的观察值约占25%的点.第二分位点(或中位数) q2 指小于它的观察值约占50%的点. 第三分位点(或上分位点)q3 指小于它的观察值约占75%的点.,例,把20个绝缘材料的失效时间

5、(单位:小时)的观察值由小到大排列如下204 228 252 300 324 444 624 720 816 9121176 1296 1392 1488 1512 2520 2856 3192 3528 3710则,2、离散量度(Measures of Dispersion),极差(Range)方差(Variance)标准差(Standard Deviation)内分位极差(Inter-Quartile Range)离散系数,极差(Range),样本极差是指最大样本与最小样本之差.r = x(max) x(min)样本极差是反映数据离散或变化的最简单的统计量, 但它忽视了中间样本的所有信息.

6、,例,考虑两组样本: 1, 3, 5, 8, 9 和 1, 5, 5, 5, 9. 它们有相同的极差 (r=8). 但很明显第二组样本只有头尾两个样本有变化,其余不变. 因此用极差来反映离散的大小会损失许多信息.,方差 (Variance) 和 标准差 (Standard Deviation),设 x1, x2, . . . , xn 是 n 个样本观察值, 则样本方差(sample variance)定义为而样本标准差( sample standard deviation)则定义为样本方差的开方根, 即,例,设有两组样本Sample A : 1, 3, 5, 8, 9 Sample B :

7、1, 5, 5, 5, 9,Sample A,Sample B,Range,8,8,Inter-Quartile Range,5,0,Variance,11.20,8.00,Standard Deviation,3.35,2.83,方差的计算,方法 1 :方法 2 :设有观察值: 90 128 205 140 165 160 (psi),例(方法1),i xi 1 90 - 58 3364 2 128 - 20 400 3 205 57 3249 4 140 - 8 64 5 165 17 289 6 160 12 144= 888 = 0 = 7510= 888 6 = 148= 7510

8、(6 - 1) = 1502 psi,例 (方法2),i xi xi 1 90 8,100 2 128 16,384 3 205 42,025 4 140 19,600 5 165 27,225 6 160 25,600 xi = 888 xi =138,934,总体方差和总体标准差,类似于样本方差 s, 我们可定义总体方差 (population variance)来衡量总体的变化的大小 .而总体标准差 (population standard deviation) 亦类似定义为总体方差的开方根.对于有限总体,设有N个个体,则,标准化值,有了均值和标准差之后,就可以计算一组数据中各个数值的标

9、准化值,设标准化值为Z,则有Zi=(Xi-Xbar)/在对多个具有不同量纲的指标进行处理时,常常需要对各指标进行标准化处理.此外,标准化值也给出了一组数据中各数值的相对位置.,内四分位点极差(Inter-Quartile Range),内四分位点极差是另外一个用于衡量离散程度的一个统计量, 其定义为IQR = q3 - q1显然,内四分位点极差对极值的敏感性要比极差弱. 例如对样本 (1, 3, 5, 8, 9 和 1, 5, 5, 5, 9), 它们的内四分位点极差分别为 5 和 0.,离散系数,为了消除变量值水平高低和计量单位不同对离散程度测量值的影响,需要计算离散系数.它是一组数据的标准

10、差与其相应的均值之比,是测度数据离散程度的相对指标,起计算公式为:V = /Xbar (表示总体离散系数)或 Vs = S/Xbar (表示样本离散系数)离散系数要是用于对不同组别数据的离散程度进行比较,离散系数大的说明该组数据的离散程度也就大,反之,离散系数例题,某集团抽查了所属的8家企业,其产品销售数据如下,试比较产品销售额与销售利润的离散程度.企业编号: 1 2 3 4 5 6 7 8产品销售额(万元)X1: 170 220 390 430 480 650 950 1000销售润(万元) X2: 8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0,通过计算得到:

11、V1=0.577 平均值,峰度(Kurtosis),峰度是刻画一个分布相对于正态分布而言是尖峰的还是平坦的一个度量指标。.峰度为正表示该分布的峰度高于正态分布,称为高峰态 (mesokurtic)。 峰度为负表示该分布的峰度低于正态分布,称为低峰态 (platykurtic)。峰度仅对对称分布而言。,Kurtosis,常峰态分布,高峰态分布,低峰态分布,峰度和偏度的计算,Excel 的描述统计量,Numerical Measure Excel 的内置函数 Mean =AVERAGE(data set) Median =MEDIAN(data set) Mode =MODE(data set) Quartile =QUARTILE(data set, quartile) Range =MAX(data set) MIN(data set) Variance =VAR(data set) Standard Deviation =STDEV(data set) Inter-Quartile Range =QUARTILE(data set, 3) QUARTILE(data set, 1) Skewness =SKEW(data set) Kurtosis =KURT(data set),

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号