Excel应用实例之六——统计分析

上传人:ni****g 文档编号:513899425 上传时间:2023-03-08 格式:DOC 页数:24 大小:700.50KB
返回 下载 相关 举报
Excel应用实例之六——统计分析_第1页
第1页 / 共24页
Excel应用实例之六——统计分析_第2页
第2页 / 共24页
Excel应用实例之六——统计分析_第3页
第3页 / 共24页
Excel应用实例之六——统计分析_第4页
第4页 / 共24页
Excel应用实例之六——统计分析_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《Excel应用实例之六——统计分析》由会员分享,可在线阅读,更多相关《Excel应用实例之六——统计分析(24页珍藏版)》请在金锄头文库上搜索。

1、5-16 Excel应用实例之六统计分析本节提要本节主要介绍了描述统计分析以及基于成对数据的t检验、双样本假设检验和样本率差异检验,并对其他的假设检验问题进行了概要的说明。统计分析就是以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律作出种种合理的估计和判断。统计分析的内容十分丰富,本章主要介绍如何利用Excel 2000提供的数据分析工具进行描述统计和假设检验。 6.1 描述统计描述统计的任务就是描述随机变量的统计规律性。要完整地描述随机变量的统计特性需要分布函数。但在实际问题中,求随机变量的分布函数并不是一件容易的事,另一方面对于一些问题也不需要去全面考察随

2、机变量的变化规律,而只需知道随机变量的某些特征。例如,在研究某一地区居民的消费水平时,在许多场合只需知道该地区的平均消费水平;又如在分析某个年龄段儿童的生长发育情况时,常常关心的是该年龄段儿童的平均身高、平均体重;再如检查一批灯泡的质量时,既需要注意灯泡的平均寿命,又需要注意灯泡寿命与平均寿命的偏离程度,平均寿命较大、偏离程度较小,质量就较好。尽管这些数值不能完整地描述随机变量,但能描述随机变量在某些方面的重要特征。这些数字特征在理论和实践上都具有重要的意义。6.1.1 常用描述统计量随机变量的常用数字特征有:数学期望、方差、协方差、相关系数、矩等。其中,数学期望又称为均值描述了随机变量的集中

3、程度,方差描述了随机变量的离散程度,是最常用的两个数字特征。 在统计分析中,样本是进行统计推断的依据,利用样本的函数就可以进行统计推断。若X1,X2,Xn是来自总体X的一个样本,则由样本所构成的不含任何未知参数的连续函数就称为一个统计量。下面是一些常用的统计量。1. 常用统计量 设X1,X2,Xn是来自总体X的一个样本,x1, ,x2,xn是这一样本的观察值或试验值,则常用统计量定义如下。(1)样本均值 (2) 样本方差 (3) 样本标准差 (4) 样本k阶(原点)矩 (5) 样本k阶中心矩 2. 偏度、峰度系数根据中心极限定理可知,正态分布随机变量广泛地存在于客观世界,因此,当研究一连续型总

4、体时,人们往往先考虑它是否服从正态分布。用来检验总体正态性的方法较多,但“偏度、峰度检验法”及“夏皮罗-威尔克法”较为有效,在此仅简单介绍偏度、峰度检验法,目的是引出偏态系数和峰度系数。所谓随机变量x的偏度和峰度是指x的标准化变量的三阶中心矩和四阶中心矩,其中E(x)、D(x)分别是随机变量x的均值和方差。偏度和峰度的计算公式定义如下:(1)偏度 (2)峰度 偏度描述了随机变量分布相对其均值的不对称程度。峰度反映了与正态分布相比,随机变量分布的尖锐度或平坦度。当随机变量x服从正态分布时,其偏度v1=0、峰度v2=3。 设 是来自总体X的一个样本, 是这一样本的观察值或试验值,则 的矩估计分别为

5、:(1)样本偏度 (2)样本峰度其中 是样本k阶中心矩。若总体x为正态变量, 是来自总体x的样本,则可以证明当n充分大时,样本偏度g1、样本峰度g2分别依概率收敛于总体偏度 和总体峰度 。即,当总体x为正态变量且n充分大时,g1与 的偏离不应太大,而g2与 的偏离也不应太大。需要说明的是,在Excel 2000中,将样本偏度称为偏斜度,将样本峰度称为峰值,其计算公式分别为:(1)偏斜度 (2)峰值 比较偏度、样本偏度和偏斜度以及峰度、样本峰度和峰值的计算公式可以看出,偏斜度就是样本偏度的估计值,峰值约等于样本峰度减去3。因此,若一组观察数据的偏斜度、峰值都接近于0,则可以认为这组数据是来自正态

6、总体的。若其峰值为正,则表示与正态分布相比,其分布相对尖锐;若其峰值为负,则表示与正态分布相比,其分布相对平坦。5.16.1.2 描述统计工具 对于一组数据(即样本观察值),要想获得它们的一些常用统计量,可以使用Excel 2000提供的统计函数来实现。例如AVERAGE(平均值)、STDEV(样本标准差)、VAR(样本方差)、KURT(峰度系数)、SKEW(偏度系数)、MEDIAN(中位数,即在一组数据中居于中间的数)、MODE(众数,即在一组数据中出现频率最高的数值)等。但最方便快捷的方法是利用Excel 2000提供的描述统计工具,它可以给出一组数据的许多常用统计量,包括: 平均值 标准

7、差 区域 计数 标准误差 样本方差 最大值 第K个最大值 中值(中位数) 峰值(样本峰度)最小值第K个最小值模式(众数)偏斜度(样本偏度)总和置信度 例如,下面列出了84个成年男子头颅的最大宽度(mm),试给出这些数据的均值、方差、标准差等统计量,并判断是否来自正态总体(取 =0.05)。 141148132138154 142 150 146 155 158 150 140 147 148 144 150 149 145 149 158 143 141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140 146 142 13

8、7 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 147 146 150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144 146 147 140 142 140 137 152 145 利用描述统计工具对这些成年男子头颅的最大宽度进行基本统计分析的具体操作步骤如下: 将所有的测试数据输入工作表中,本例存放在A1:A85区域中。 选择工具菜单中的数据分析命令。这时将弹出数据分析对话框,如图61所示。 图61在分析工具列表中,选择

9、描述统计工具,单击确定按钮。这时将弹出描述统计对话框,如图62所示。 图62在输入框内指定输入数据的有关参数。 输入区域:指定要分析的数据所在的单元格区域。本例输入A1:A85。 分组方式:指定输入数据是以行还是以列方式排列的。这里选定逐列,因为给定的成年男子头颅的最大宽度是按列排列的。 标志位于第一行复选框:若输入区域包括列标志行,则必须选中此复选框。否则,不能选中该复选框,此时Excel自动以列 1、列 2、列 3 作为数据的列标志。本例选中此复选框。 在输出选项框内指定有关输出选项。 指定存放结果的位置:根据需要可以指定输出到当前工作表的某个单元格区域,这时需在输出区域框键入输出单元格区

10、域的左上角单元格地址;也可以指定输出到新工作表组,这时需要输入工作表名称;还可以指定输出到新工作簿。本例选中将结果输出到输出区域,并输入左上角单元格地址C1。 汇总统计复选框:若选中,则显示描述统计结果,否则不显示结果。本例选中汇总统计复选框。 平均数置信度复选框:如果需要输出包含均值的置信度,则选中此复选框,并输入所要使用的置信度。本例键入95%,表明要计算在显著性水平为5%时的均值置信度。 第K大值复选框:根据需要指定要输出数据中的第几个最大值。本例选中第K大值复选框,并输入3,表示要求输出第3大的数值。 第K小值复选框:根据需要指定要输出数据中的第几个最小值。本例选中第K小值复选框,并输

11、入3,表示要求输出第3小的数值。 单击确定按钮。这时Excel 2000将描述统计结果存放在当前工作表的C1:D18区域中。如图63所示。 图63 分析结果可知,这些成年男子头颅的最大宽度的样本均值为143.7738、样本方差为35.6470、中值为143.5(即在这组数据中居于中间的数)、模式为142(即在这组数据中出现频率最高的数)、最小值为126、最大值为158,且偏斜度(= -0.1386)与峰值(=0.4685)都非常接近于0,因此可以认为这些数据是来自正态总体的。 5.16.2 假设检验所谓假设检验就是根据样本的信息来判断总体分布是否具有指定的特征。例如,已知样本来自正态总体,那么

12、是否能说明它是来自均值等于0的正态分布呢?又如,已知两个相对独立的样本分别来自两个正态分布,那么是否能说这两个总体的均值相同,或方差相同?,这些都属于假设检验问题。处理假设检验问题的一般步骤是:根据实际问题的要求,提出原假设H0及备择假设H1。给定显著性水平和样本容量n( 的值视具体情况而定,通常取0.1、0.05、0.01及0.005等值)。确定检验统计量和拒绝域的形式。按P拒绝H0/H0为真=,求出拒绝域。根据样本观测值所求出的统计量确定是接受还是拒绝原假设H0。 5.16.2.1 基于成对数据的t检验有时为了比较两种产品、两种仪器、两种方法等的差异,常在相同的条件下作对比试验,得到一批成

13、对的观察值,然后分析观察数据做出推断。这种方法被称为逐对比较法。在假设检验中利用t统计量进行检验,因而称为基于成对数据的t检验或成对观测值t检验。1. 成对数据t检验的基本理论例如,要分析一种新体育疗法是否对减肥具有显著作用。现随机抽取了12位病人进行试验,试验前后测得体重如下:治疗前x133145100156127122142110 136 166 138 110 治疗后y120122 105 133 108 110 135 105 122 145 128 108 假设治疗前后,除参加了这种新体育疗法外,其余的一切条件都尽可能做到相同。问根据试验结果,能否判断这种新体育疗法对减肥具有显著作用?本例就属于成对观测值t检验问题。对于这类假设检验,理论上是这样处理的。先由n对观测值之差构成成对观测样本 ,其中 , 为试验前的观测样本, 为试验后的观测样本。 假设 来自正态总体 ,这里 均属未知。若新体育疗法对体重没有什么影响,则治疗前后各对数据的差异 属随机误差。而随机误差可以认为服从均值为0的正态分布。因此检验新体育疗法是否对减肥具有显著作用,就归结为在显著性水平 下,检验假设: : (即 ) : (即 ) 检验统计量为服从t分布的统计量: 检验的拒绝域:对于给定的 ,当 时拒绝假设 其中:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 商业计划书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号