统计学及统计学软件使用教程(最新编写-修订版)

上传人:黯然****空 文档编号:145749748 上传时间:2020-09-23 格式:PPT 页数:257 大小:3.70MB
返回 下载 相关 举报
统计学及统计学软件使用教程(最新编写-修订版)_第1页
第1页 / 共257页
亲,该文档总共257页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《统计学及统计学软件使用教程(最新编写-修订版)》由会员分享,可在线阅读,更多相关《统计学及统计学软件使用教程(最新编写-修订版)(257页珍藏版)》请在金锄头文库上搜索。

1、统计学及统计学软件使用教程,1 统计学简介,2 方差分析,3 回归分析,4 正交设计,5 统计分析软件SAS,6 统计分析软件SPSS,系统分析室制作,前言:统计学简介,什么是统计学: 统计学是关于数理统计的收获、整理、分析和推断的一门科学,他可以分为描述性统计学和推断性统计学两大类。描述性统计学给出的是将原始数据资料加工成有用的图表的方法(例如:南阳汉冶特钢11月份不合格品综合判定统计分析),这些方法包括数据的收集、整理、概括和描述等。如果在研究中可以得到整个整体,那么描述性统计学就足够了,但是,实际中往往只能得到总体的一小部分(成样本),这就需要通过这些样本的有限的、不确定的信息来确定有关

2、总体的信息,这就是推断统计的研究领域。,统计学的理论基础是数理统计学,数理统计学是数学的一个分支,有一系列的公理、定理以及严格证明来组成,它还涉及到助学的其他领域,例如微积分、概率论合高等代数等。为了使这些理论也适用于一般的研究者,人们将其简单化,变的非数学化,由此产生了一般统计学。不同的专业领域(如建筑学,人类学、生物学、经济学等等)与一般统计学结合,就产生了相应的专业统计学。,08【全美经典】统计学原理(上).pdf,08【全美经典】统计学原理(下).pdf,统计学经典教材:,描述性统计学知识章节,推断性统计学知识章节,第一节 方差分析,一、几个概念 二、单因子方差分析,一、几个概念,在试

3、验中改变状态的因素称为因子,常用大写英文字母A、B、C、等表示。 因子在试验中所处的状态称为因子的水平。用代表因子的字母加下标表示,记为A1,A2,Ak。 试验中所考察的指标(可以是质量特性也可以是产量特性或其它)用Y表示。Y是一个随机变量。 单因子试验: 若试验中所考察的因子只有一个。,例2.1-1 现有甲、乙、丙三个工厂生产同一种零件,为了了解不同工厂的零件的强度有无明显的差异,现分别从每一个工厂随机抽取四个零件测定其强度,数据如表所示,试问三个工厂的零件的平均强度是否相同?,三个工厂的零件强度,在这一例子中,考察一个因子: 因子A:工厂 该因子有三个水平:甲、乙、丙 试验指标是:零件强度

4、,这是一个单因子试验的问题。每一水平下的试验结果构成一个总体,现在需要比较三个总体均值是否一致。如果每一个总体的分布都是正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析方法来解决。,二、单因子方差分析,假定因子A有r个水平,在Ai水平下指标服从正态分布,其均值为 ,方差为 ,i=1,2, , r。每一水平下的指标全体便构成一个总体,共有r个总体,这时比较各个总体的问题就变成比较各个总体的均值是否相同的问题了,即要检验如下假设是否为真:,当 不真时,表示不同水平下的指标的均值有显著差异,此时称因子A是显著的,否则称因子A不显著。检验这一假设的分析方法便是方差分析

5、。, 方差分析的三个基本假定,1. 在水平 下,指标服从正态分布 ;,2. 在不同水平下,各方差相等;,3. 各数据 相互独立。,设在一个试验中只考察一个因子A,它有r个水平,在每一水平下进行m次重复试验,其结果用 表示,i=1,2, , r。 常常把数据列成如下表格形式:,单因子试验数据表,记第i水平下的数据均值为 ,总均值为 。此时共有n=rm个数据,这n个数据不全相同,它们的波动(差异)可以用总离差平方和ST去表示,记第i 水平下的数据和为Ti, ;,引起数据波动(差异)的原因不外如下两个:,一是由于因子A的水平不同,当假设H0不真时,各个水平下指标的均值不同,这必然会使试验结果不同,我

6、们可以用组间离差平方和来表示,也称因子A的离差平方和:,这里乘以m是因为每一水平下进行了m次试验。,二是由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子A的水平外的一切原因引起的,我们将它们归结为随机误差,可以用组内离差平方和表示:,Se:也称为误差的离差平方和,可以证明有如下平方和分解式:,ST、SA、Se 的自由度分别用 、 、 表示,它们也有分解式: ,其中:,因子或误差的离差平方和与相应的自由度之比称为因子或误差的均方和,并分别记为:,两者的比记为:,当 时认为在显著性水平 上因子A是显著的。其中 是自由度为 的F分布的1-分位数。,单因子方差分析表,各个离差平方和

7、的计算:,其中 是第i个水平下的数据和;T表示所有n=rm个数据的总和。,进行方差分析的步骤如下:,(1)计算因子A的每一水平下数据的和T1,T2,Tr及总和T;,(2)计算各类数据的平方和 ;,(3)依次计算ST,SA,Se;,(4)填写方差分析表;,(5)对于给定的显著性水平,将求得的F值与F分布表中的临界值 比较,当 时认为因子A是显著的,否则认为因子A是不显著的。,对上例的分析,(1)计算各类和:,每一水平下的数据和为:,数据的总和为T=1200,(2)计算各类平方和:,原始数据的平方和为:,每一水平下数据和的平方和为,(3)计算各离差平方和:,ST=121492-12002/12=1

8、492, fT=34-1=11 SA=485216/4-12002/12=1304, fA=3-1=2 Se= 1492-1304=188, fe=11-2=9,(4)列方差分析表:,例2.1-1的方差分析表,(5) 如果给定 =0.05,从F分布表查得,由于F4.26,所以在 =0.05水平上结论是因子A是显著的。这表明不同的工厂生产的零件强度有明显的差异。,当因子A是显著时,我们还可以给出每一水平下指标均值的估计,以便找出最好的水平。在单因子试验的场合,第i个水平指标均值的估计为:,,,在本例中,三个工厂生产的零件的平均强度的的估计分别为:,由此可见,乙厂生产的零件的强度的均值最大,如果我

9、们需要强度大的零件,那么购买乙厂的为好;而从工厂来讲,甲厂与丙厂应该设法提高零件的强度。,误差方差的估计:这里方差 的估计是MSe。在本例中: 的估计是20.9。,的估计是,例2.1-2 略(见教材P92),三、重复数不等的情况,若在每一水平下重复试验次数不同,假定在Ai水平下进行 次试验,那么进行方差分析的步骤仍然同上,只是在计算中有两个改动:,例2.1-3 某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进方案以降低油耗。油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如表所列,试问中小喉管的结构(记为因子A)对平均比油油耗的影响是否

10、显著。(这里假定每一种结构下的油耗服从等方差的正态分布),例2.1-3的试验结果,(为简化计算,这里一切数据均减去220,不影响F比的计算及最后分析因子的显著性),(1)各水平下的重复试验次数及数据和分别为:,A1:m1=8,T1=69.5 A2:m2=4,T2=6.0 A3:m3=4,T3=15.4,总的试验次数n=16,数据的总和为T=90.9,(2)计算各类平方和:,(3)计算各离差平方和:,ST=757.41-516.43=240.98, fT=16-1=15 SA=672.07-516.43=155.64, fA=3-1=2 Se= 240.98-155.64=85.34, fe=1

11、5-2=13,(4)列方差分析表:,例2.1-3方差分析表,(5) 如果给定 =0.05,从F分布表查得,由于F3.81,所以在=0.05水平上我们的结论是因子A是显著的。这表明不同的中小喉管结构生产的化油器的平均比油耗有明显的差异。,我们还可以给出不同结构生产的化油器的平均比油耗的估计:,这里加上220是因为在原数据中减去了220的缘故。,由此可见,从比油耗的角度看,两种改进结构都比原来的好,特别是改进结构1。,在本例中误差方差的估计为6.56,标准差的估计为2.56。,第二节 回归分析,例2.2-1 合金的强度y与合金中的碳含量x有关。为了生产出强度满足顾客需要的合金,在冶炼时应该如何控制

12、碳含量?如果在冶炼过程中通过化验得到了碳含量,能否预测合金的强度?,这时需要研究两个变量间的关系。首先是收集数据(xi,yi),i=1,2, ,n。现从生产中收集到表2.2-1所示的数据。,表2.2-1 数据表,一、散布图,例2.2-1的散布图,二、相关系数,1相关系数的定义,在散布图上 n 个点在一条直线附近,但又不全在一条直线上,称为两个变量有线性相关关系,可以用相关系数 r 去描述它们线性关系的密切程度,其中,性质:,表示n个点在一条直线上,这时两个变量间完全线性相关。,r0表示当x增加时y也增大,称为正相关,r0表示当x增加时y减小,称为负相关,r=0表示两个变量间没有线性相关关系,但

13、并不排斥两者间有其它函数关系。,2相关系数的检验,若记两个变量x和y理论的相关系数为 ,其中x为一般变量,y服从等方差的正态分布,则,对给定的显著性水平 ,当 可以认为两者间存在一定的线性相关关系, 可以从表2.2-2中查出。(其中n为样本量)。,3具体计算,求上例的相关系数:,步骤如下:,(1)计算变量x与y的数据和:,Tx= =1.90, Ty= =590.5,(2)计算各变量的平方和与乘积和:,(3)计算Lxx,Lyy,Lxy:,Lxy =95.9250-1.90590.5/12=2.4292,Lxx =0.3194-1.902/12=0.0186,Lyy =29392.75-590.5

14、2/12=335.2292,(4)计算r:,在 =0.05时, ,由于r0.576,说明两个变量间有(正)线性相关关系。,四、一元线性回归方程,1. 一元线性回归方程的求法:,一元线性回归方程的表达式为,其中a与b使下列离差平方和达到最小:,通过微分学原理,可知,,,称这种估计为最小二乘估计。,b 称为回归系数;a一般称为常数项。, 求一元线性回归方程的步骤如下:,(1)计算变量x与y的数据和Tx,Ty; (2)计算各变量的平方和与乘积和; (3)计算Lxx,Lxy; (4)求出b与a;,利用前面的数据,可得:,b=2.4392/0.0186=130.6022,a=590.5/12-130.6

15、022 1.90/12=28.5297,(5)写出回归方程:,画出的回归直线一定通过(0,a)与 两点,上例:,或,2. 回归方程的显著性检验,有两种方法:,一是用上述的相关系数;,二是用方差分析方法(为便于推广到多元线性回归的场合),将总的离差平方和分解成两个部分:回归平方和与离差平方和。,总的离差平方和:,回归平方和:,离差平方和:,且有ST=SR+SE,其中,它们的自由度分别为:,fT=n-1,fR=1,fE=n-2=fT-fR,计算F比,,对给定的显著性水平 ,当 时认为回归方程是显著的,即回归方程是有意义的。一般也列成方差分析表。,对上面的例子,作方差分析的步骤如下:,根据前面的计算

16、,(1)计算各类平方和:,ST=Lyy=335.2292, fT=12-1=11 SR=bLxy=130.60222.4292=317.2589,fR=1 SE=335.2292-317.2589=17.9703, fE=11-1=10,(2)列方差分析表:,例2.2-1的方差分析表,对给定的显著性水平 =0.05,有,F0.95(1,10)=4.96,由于F4.96,所以在0.05水平上认为回归方程是显著的(有意义的)。,3利用回归方程进行预测,对给定的 ,y的预测值为,概率为 的y的预测区间是,其中,当n较大, 与 相差不大,那么可给出近似的预测区间,此时,进行预测的步骤如下:,(1)对给出的x0求预测值,上例,设x0 =0.16,则,(2)求 的估计,上例有,(3)求,上例n=12,如果求概率为95%的预测区间,那么t0.975(10)=2.228

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号