SAS假设检验(公选)

上传人:cl****1 文档编号:567934755 上传时间:2024-07-22 格式:PPT 页数:80 大小:3.76MB
返回 下载 相关 举报
SAS假设检验(公选)_第1页
第1页 / 共80页
SAS假设检验(公选)_第2页
第2页 / 共80页
SAS假设检验(公选)_第3页
第3页 / 共80页
SAS假设检验(公选)_第4页
第4页 / 共80页
SAS假设检验(公选)_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《SAS假设检验(公选)》由会员分享,可在线阅读,更多相关《SAS假设检验(公选)(80页珍藏版)》请在金锄头文库上搜索。

1、第第4 4章章 假设检验假设检验4.14.1参数估计与假设检验的基本概念参数估计与假设检验的基本概念4.1.14.1.1 参数估计参数估计4.1.24.1.2 假设检验假设检验4.1.14.1.1参数估计参数估计从总体中抽取样本,以样本统计量(即样本数字特征)作为未知总体参数(即总体数字特征)的估计量,并通过对样本观察值分析来估计和推断,即根据样本来推断总体分布的未知参数,称为参数估计(parameter estimation)。参数估计有两种基本形式:点估计和区间估计。1.点估计点估计是用样本统计量估计总体分布中所含的未知参数。因为样本统计量为数轴上某一点,估计的结果也以一个点的数值表示,所

2、以称为点估计。通常它们是总体的某个特征值,如均值、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。2.区间估计区间估计是通过从总体中抽取的样本,根据一定的正确度与精确度的要求,以一定可靠程度推断总体参数所在的区间范围,作为总体分布的未知参数或参数的函数的真值所在范围的估计。区间估计是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level),指总体参数值落在样本统计值某一区内的概率。这个建立起来的包含待估计参数的区间称为置信区间(confidence inte

3、rval),表示总体参数的可能范围。置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间置信区间双侧:双侧:置信区间置信区间置信下限置信下限置信上限置信上限置信水平置信水平或置信度或置信度( 称为显著性水平称为显著性水平)单侧:单侧:或或置信区间置信区间 正态分布正态分布(Normal Distribution)Normal Distribution)实践中,许多频率分布形状如此实践中,许多频率分布形状如此: : 中间高中间高, , 两侧低、对称两侧低、对称计算中心正态分布的实例正态分布的实例如果数据来自正态分布总体,则:如果数据来自正态分布总体,则:68%68%的值落在距

4、均值的值落在距均值1 1个标准差的范围之内个标准差的范围之内95%95%的值落在距均值的值落在距均值2 2个标准差的范围之内个标准差的范围之内99%99%的值落在距均值的值落在距均值3 3个标准差的范围之内个标准差的范围之内 例例如如:由由1212岁岁女女孩孩体体重重组组成成一一个个总总体体,这这个个总总体体服从均值为服从均值为3939公斤,标准差公斤,标准差4.54.5公斤,则:公斤,则: 68%68%的值落在的值落在34.543.534.543.5公斤之间公斤之间 95%95%的值落在的值落在30483048公斤之间公斤之间 99%99%的值落在的值落在25.552.525.552.5公斤

5、之间公斤之间正正态态分分布布描描述述落落入入不不同同范范围围的的概概率率. .例例如如, ,近近似似地地有有(“3(“3 ” ”原则原则): ):68%68%的的数数据据落落入入以以均均值值为为中中心心一一倍倍标标准准差差的的范范围内围内; ;95%95%的的数数据据落落入入以以均均值值为为中中心心两两倍倍标标准准差差的的范范围内;围内;99%99%的的数数据据落落入入以以均均值值为为中中心心三三倍倍标标准准差差的的范范围围内;内; 若若样样本本均均值值的的分分布布为为正正态态的的, ,当当构构造造置置信信区区间间时时就就可可用用正正态态分分布布给给定定的的概概率率, ,这这一一概概率率对对应

6、应于于置置信信水水平平. .所所以以, ,构构造造一一个个95%95%的的置置信信区区间间, ,这这个个置置信信区区间间就就有有95%95%的的概概率率包包括括总总体体均均值值.95%.95%就就为为置置信信水水平平. .小概率事件的含义小概率事件的含义小概率事件的含义小概率事件的含义: :发发生生概概率率一一般般不不超超过过5 5的的事事件件,即即事事件件在在一一次次试试验验中中几几乎不可能发生乎不可能发生 区区 间间取值概率取值概率(,)68.3%(22,22)95.4%(33,33)99.7%4.1.24.1.2假设检验假设检验假设检验是抽样推断中的一项重要内容,是一种基本的统计推断形式

7、,用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先依据原资料对总体的参数或分布作出某种假设,然后再利用样本对总体提供的信息,用适当的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来对假设作出应该拒绝或不拒绝推断。对对总总体体参参数数进进行行假假设设检检验验时时,首首先先要要给给定定一一个个原原假假设设H H0 0,H H0 0是是关关于于总总体体参参数数的的表表述述,与与此此同同时时存存在在一一个个与与H H0 0相相对对立立的的备备择择假假设设H H1 1,H H0 0与与H H1 1有有且且仅仅有有一一个个成成立立;经经过

8、过一一次次抽抽样样,若若发发生生了了小小概概率率事事件件(通通常常把把概概率率小小于于0.050.05的的事事件件称称为为小小概概率率事事件件),可可以以依依据据“小小概概率率事事件件在在一一次次实实验验中中几几乎乎不不可可能能发发生生”的的理理由由,怀怀疑疑原原假假设设不不真真,作作出出拒拒绝绝原原假假设设H H0 0,接接受受H H1 1的的决决定定;反反之之,若若小小概概率率事事件件没没有有发发生生,就就没没有有理理由由拒拒绝绝H H0 0,从从而而应应作作出出拒拒绝绝H H1 1的决定。的决定。1.1.假设检验的基本思想假设检验的基本思想根据问题确立根据问题确立原假设原假设H H0 0

9、和和备择假设备择假设H H1 1;确确定定一一个个显显著著性性水水平平 ,它它是是衡衡量量稀稀有有性性(小概率事件)的标准,常取为(小概率事件)的标准,常取为0.050.05;选选定定合合适适的的检检验验用用统统计计量量WW(通通常常在在原原假假设设中中相相等等成成立立时时,WW的的分分布布是是已已知知的的),根根据据WW的分布及的分布及 的值,确定的值,确定H H0 0的拒绝域。的拒绝域。由由样样本本观观测测值值计计算算出出统统计计量量WW的的观观测测值值WW0 0,如如果果WW0 0落落入入H H0 0的的拒拒绝绝域域,则则拒拒绝绝H H0 0;否否则则,不能拒绝原假设不能拒绝原假设H H

10、0 0。2.2.假设检验的基本步骤假设检验的基本步骤概率p值是SAS系统根据样本分布和样本数据自动计算一个实际的显著性水平,在SAS系统中进行假设检验,p值提供了一个直观的判断依据:当p,说明实际计算的显著性水平比理论的显著性水平更小,小概率事件在一次实验中发生的几率更小(比理论设定的概率还小)。此时在p值的显著性水平条件下,如果还能够观测到小概率事件发生,则说明假设更加不可靠,应拒绝原假设;当p,在p值的显著性水平条件下,如果能够观测到小概率事件发生,则说明假设可能没有任何问题。因为观测一个概率比较大的事件,其发生的可能性本来就比较大,故不能对假设做出否定的判断。3. 假设检验的数学模型T检

11、验是用于两组数据均数间差异的显著性检验,亦称学生T检验(Students t test),主要用于样本含量较小(例如n30),总体标准差未知的正态分布资料。 T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。(1)单样本T检验单样本T检验所采用的方法是,抽取一组数据作为一个样本,对样本均数与理论上的总体均数的差别作显著性检验,检验所测得的一组连续资料是否抽样于均数已知的总体。根据大量实验调查的结果或一般规律,可以得到某一事物的平均数,以此作总体均数看待。t统计量的计算公式如下:如果用程序方法作单样本T检

12、验,可在SAS系统中采用MEANS过程,计算出观察与总体均数的差值,再对该差值的均数进行T 检验。(2)两配对样本的T检验两配对样本T检验包括两种情况,即配对资料差异的显著性检验(配对比较检验)和同一组对象实验前后差异的显著性检验(自身对照比较)。t统计量的计算公式如下:SAS系统中采用MEANS过程,计算出两样本观察的差值(如服药前、后实验数据的差值),再对该差值的均数进行T检验。(3)两独立样本的T检验两独立样本的t检验是指对两样本均数的差异作显著性检验。作为两样本均数差异比较的两组数据,它是分别取自两个独立样本,没有成对关系,两组的数据个数可以相等,也可以不一样。t统计量的计算公式如下:

13、方差齐时, 方差不齐时,方差齐性检验用F检验,F统计量的计算公式如下:SAS系统中采用TTEST过程,先作方差齐性检验(f检验)。当方差齐性时,f应接近于1,f特大或特小都是极端情况。同时f的分布不依赖未知参数。统计上称它为自由度(n1 1-1,n2 2-1)的分布。n1 1,n2 2分别对应独立样本的两个样本个数。利用f分布,对统计量f的观测值可以得到它的p值并由此对原假设作出判断。然后根据方差齐(equal)和方差不齐(unequal)输出t值和p值以及基本统计量。4. TTEST过程T过程是专门进行T检验的SAS过程,它可以做单样本均值的T检验、两配对样本均值的T检验和两独立样本均值的T

14、检验。其语句格式为:PROC TTEST ; CLASS 分组变量名; PAIRED 变量名列表; BY 分组变量名; VAR 分析变量名列表; FREQ 变量名列表; WEIGHT 变量名列表; RUN;语句说明:(1)PROC TTEST语句后可跟的选项及其表示的含义如表4-1所示。选项选项代表的含义代表的含义data =data =等等号号后后为为SASSAS数数据据集集名名,指指定定TTESTTTEST过过程程所所要要处处理理的的数数据据集,集,默认值为最近处理的数据集默认值为最近处理的数据集alpha =alpha =等号后为等号后为0101之间的任何值,指定置信水平,之间的任何值,

15、指定置信水平,默认为默认为0.050.05ci =ci =等等号号后后为为“equal, equal, umpu, umpu, none”none”中中的的一一个个,表表示示标标准准差差的置信区间的显示形式,的置信区间的显示形式,默认为默认为ci = equalci = equalcochran cochran 有有此此选选项项时时,TTESTTTEST过过程程对对方方差差不不齐齐时时的的近近似似t t检检验验增增加加cochrancochran近似法近似法h0 =h0 =等等号号后后为为任任意意实实数数,表表示示检检验验假假设设中中对对两两均均值值差差值值的的设设定,默认值为定,默认值为0

16、0 (2)CLASS语句所指定的分组变量是用来进行组间比较的;(3)PAIRED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果如表4-2所示。变量名列表形式变量名列表形式产生的效果产生的效果a*ba*ba a b ba*b c*da*b c*da a b, c b, c d d(a b)*(c d)(a b)*(c d)a a c, a c, a d, b d, b c, b c, b d d(a b)*(c b)(a b)*(c b)a a c, a c, a b, b b, b c c(4)BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以

17、便SAS分别在各小样本内进行各自独立的处理;(5)VAR语句引导要检验的所有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验;(6)FREQ指定作为频数的变量; (7)WEIGHT指定作为权数的变量。4.24.2单样本正态总体的参数估计与单样本正态总体的参数估计与假设检验假设检验4.2.14.2.1单样本的参数估计单样本的参数估计4.2.24.2.2单样本的假设检验单样本的假设检验4.2.14.2.1单样本正态总体的参数估计单样本正态总体的参数估计1. 单样本正态总体均值的置信区间2. 单样本正态总体比例的置信区间3. 单样本正态总体方差的置信区间1. 单样本正态总体

18、均值的置信区间【例4-1】 某小学要对各年级的学生健康状况进行评测,其中一项评测需要对五年级男生的平均体重进行估计,五年级男生体重的总体方差未知,现随机抽取20名男生的体重数据如表4-3所示。假定男生体重数据存放在数据集mylib.boy_w中,重量变量名为weight,求该校五年级男生的平均体重在95%置信水平下的置信区间。3238342835293841313338393744303639503631(1)INSIGHT模块求单样本正态总体均值的置信区间,其步骤如下:打开数据集mylib.boy_w。选择菜单“分析”“分布”命令。 在“分布”对话框中选择变量weight作为分析变量填入“Y

19、” 框中。单击“输出”按钮,打开输出结果控制对话框,在“描述性统计量”选项中选择“基本置信区间” 。单击“确定”按钮,返回到“分布”对话框,再次单击“确定”按钮,得到置信区间的输出结果如图4-3所示。图中显示了在95%的置信水平下,分别对均值、标准偏差和方差这3个总体参数进行参数估计的结果。估计值是对总体参数的点估计,置信下限和置信上限是对总体参数的区间估计。因此结果表明,该校五年级男生平均体重在95%置信水平下的置信区间为33.4435kg38.4565kg。此外,在结果输出窗口中,还可以选择“表”菜单重新设置不同的置信水平。(2)用分析家模块求单样本正态总体均值的置信区间,其步骤如下:在“

20、分析家”模块中打开数据集mylib.boy_w。选择菜单“统计”“假设检验”“均值的单样本t-检验”命令。在“One Sample t-test for a Mean”对话框中,选择变量weight作为分析变量。单击“tests”按钮,在对话框的“Confidence Intervals”选项卡中可以设置置信区间类型和置信水平。单击“OK”按钮,返回到“One Sample t-test for a Mean”对话框,再次单击“OK”按钮,得到置信区间的输出结果如图4-8所示。结果表明,单样本均值的95%置信区间的下限是33.44,上限是38.46,因此该校五年级男生平均体 重 在 95%置

21、信 水 平 下 的 置 信 区 间 为33.44kg38.46kg。(3)用TTEST过程步求单样本正态总体均值的置信区间,程序如下:proc ttest data=mylib.boy_w alpha=0.05;/*alpha =0.05用于指定显著性水平为0.05*/var weight;run;2. 单样本正态总体比例的置信区间【例4-2】 某大学要对其1000名在校学生的月支出进行调查,随机抽取16名学生调查后结果如表4-4所示。设月支出数据存放于数据集mylib.outgo中,其中月支出变量名为exp。在95%置信水平下推断该校学生月支出在1000元以上的人占有的比例。10009601

22、200800750150011009009509701150900135012008501250用分析家模块求单样本正态总体比例的置信区间,步骤如下:在“分析家”模块中打开数据集mylib.outgo。根 据 原 变 量 exp生 成 一 个 新 的 分 类 变 量exp_recoded。选择菜单“统计”“假设检验”“比例的单样本检验”命令。在“One-Sample Test for a Proportion”对话框中,选择分析变量,设置置信区间类型和置信水平,得到输出结果如图4-13所示。结果表明,在95%置信水平下变量exp_recoded取值为“1000”的比例的置信区间是(0.194,

23、0.681),即在95%置信水平下估计该校学生月支出在1000元以上的人所占比例在19.4%68.1%之间。3.单样本正态总体方差的置信区间【例4-3】已知某股票在2014年3月的22个交易日的收益率如表4-5所示,求该股票收益率的方差在99%置信水平下的置信区间。设数据存放于数据集mylib.stock中,其中股票收益率变量名为yield。0.0078-0.002-0.01360.00250.01380.04020.01690.0225-0.0213-0.117-0.00790.0157-0.01230.0314-0.0401-0.0070.01060.003-0.02540.00410.0

24、052-0.0478用分析家模块求单样本正态总体方差的置信区间,步骤如下:在“分析家”模块中打开数据集mylib.stock。选择菜单“统计”“假设检验”“方差的单样本检验”命令。在“One-Sample Test for a Variance”对话框中选择变量yield作为分析变量。在“Var=”右侧文本框中输入任意正数,单击“Intervals”按钮,设置置信水平为99%。单击“OK”按钮,返回到“One-Sample Test for a Variance”对话框,再次单击“OK”按钮,得到分析结果如图4-16所示。结果显示,该股票收益率的方差在99%置信水平下的置信区间为(0.0005

25、,0.0028)。4.2.2 4.2.2 单样本正态总体的假设检验单样本正态总体的假设检验1. 单样本正态总体均值的假设检验2. 单样本正态总体比例的假设检验3. 单样本正态总体方差的假设检验1. 单样本正态总体均值的假设检验【例4-4】市质监部门对超市袋装大米的净含量准确性进行抽检,随机从几家抽取了20袋大米,每袋标示的重量都是5公斤。工作人员对这些大米进行了称重测试。测试过程为:先把每袋大米连包装一起称重,记录下大米的毛重以后,再把大米倒出来,称包装袋的重量。最后根据两项称重值的差得出大米的实际净重为多少。测试结果如表4-6所示。假定大米重量数据存放在数据集mylib.dmzl中,重量变量

26、名为weight,试从检验的样本数据出发,检验变量weight的均值与5公斤是否有显著差异。5.0055.0225.0304.9845.0505.0435.0055.0295.0125.0244.9925.0165.0315.0184.9805.0455.0205.0364.9905.048设变量weight的均值为,根据题意作如下假设:H0:=5 H1:5(1)用INSIGHT模块对单样本正态总体均值进行假设检验,其步骤如下:在INSIGHT模块中打开数据集mylib.dmzl。选择菜单“分析”“分布”命令。在“分布”对话框中选择变量weight作为分析变量。单击“确定”按钮,得到变量的描述

27、性统计量。选择菜单“表”“位置检验”命令,在弹出的“位置检验”对话框中输入5,得到输出结果如图4-18所示。 结果显示,观测值不等于5公斤的观测有20个,其中16个观测值大于5公斤。 图中还显示出学生T检验、符号检验和符号轶检验的结果,如果分析变量是正态分布的,那么只需看T检验的结果;否则只需看符号检验的结果;而在没有具体数值,仅有两两比较大小的结果时看符号轶检验的结果。由于这三个检验的结论都是p值小于0.05,所以拒绝原假设,即总体的均值与5公斤有显著差异。 (2)用分析家模块对单样本正态总体均值进行假设检验,其步骤如下:启动分析家模块,并打开数据集mylib.dmzl。选择菜单“统计”“假

28、设检验”“均值的单样本t-检验” 命令。选择变量weight作为分析变量填入Variable框中,在假设框中设置原假设的均值Mean=5。单击“Plots”按钮,在打开的对话框中选中t distribution plot复选框。单击“OK”按钮,返回到“One-Sample t-test for a Mean”对话框,再次单击“OK”按钮,得到分析结果如图4-20所示。 结果的第一部分是变量weight的简单描述统计量。第二部分显示了原假设条件与对立假设条件,显示了t统计量的观测值为4.015,p值为0.0007小于0.05,所以拒绝原假设,即总体的均值与5公斤有显著差异。结果的图形部分显示出

29、t统计量抽样分布的密度曲线图形,两侧的阴影区域为拒绝域,占总面积的5%,竖线显示t统计量的观测值的位置落在阴影区域,因此拒绝总体的均值为5公斤的原假设。(3)用TTEST过程步对单样本正态总体均值进行假设检验,程序如下:proc ttest h0=5 data=mylib.dmzl ;var weight;run;2. 单样本正态总体比例的假设检验【例4-5】 某大学要对其1000名在校学生的月支出进行调查,随机抽取16名学生的调查数据如例4-2表4-4所示。设月支出数据存放于数据集Mylib.outgo中,其中月支出变量名为exp。在95%置信水平下推断该校学生月支出在1000元以上的人所占

30、比例是否超过40%。设学生月支出在1000元以上的人所占比例为,根据题意作如下假设:H0: =0.4 H1:1000。在Hypotheses栏设置原假设的值0.4,选择备择假设Prop 0.05,所以不能拒绝原假设,该校学生月支出在1000元以上的人所占比例在0.05的显著性水平下超过40%。3.单样本正态总体方差的假设检验【例4-6】 某工厂生产的人造纤维强度服从标准差为5的正态分布,为检测生产的人造纤维强度是否符合要求,某日随机抽取12根人造纤维进行试验,测得纤维强度如下: 278 285 284 282 285 286 290 292289 280 275 293设测量数据存放于数据集M

31、ylib.strength中,其中纤维强度变量名为str。这是一个单样本正态总体方差的假设检验,根据题意,设置假设:H0:2=25H1:225用分析家作单样本正态总体方差的假设检验,步骤如下:选择菜单“统计”“假设检验”“方差的单样本检验”命令。在“One-Sample Test for a Variance”对话框中选择变量str作为分析变量。在Hypotheses栏设置原假设的值Var=25,选择备择假设Var =25。单击“Plots”按钮,在打开的对话框中选择Probability distribution plot。单击“OK”按钮,返回到“One-Sample Test for a

32、 Variance”对话框,再次单击“OK”按钮,得到分析结果如图4-25所示。结 果 显 示 , 样 本 方 差 为 30.811, 由 于 p值 为0.5170,所以不能拒绝原假设,即生产的人造纤维强度是符合要求的。4.34.3两样本正态总体的两样本正态总体的参数估计与假设检验参数估计与假设检验4.3.14.3.1两独立样本两独立样本4.3.24.3.2两配对样本两配对样本4.3.14.3.1两独立样本正态总体的参数估计与假两独立样本正态总体的参数估计与假设检验设检验1.两独立样本正态总体均值的比较2.两独立样本正态总体比例的比较3.两独立样本正态总体方差的比较1.两独立样本正态总体均值的

33、比较【例4-7 】为比较大一新生男女生身高有无明显差别,分别抽取10名男生和8名女生为两个样本,数据如表4-7所示。建立数据集mylib.height,男女生身高数据记录在同一分析变量A下,分类变量B的值用以区分两个样本,试以0.05的显著性水平推断男女生身高是否存在明显差别。根据题意,设置假设:H0:男生平均身高与女生平均身高无显著差异,1-2=0H1:男生平均身高与女生平均身高有显著差异,1-20男生男生172176169183174178165187170172女生女生165163160170169159173167(1)用分析家模块对两独立样本正态总体均值进行比较,其步骤如下:在分析家

34、模块中打开数据集mylib. height。选择菜单“统计”“假设检验”“均值的双样本t-检验”命令。在“Two-Sample t-test for Means”对话框中选择变量A填入Dependent框中,选择变量B填入Group框中,如图4-27a所示。单击“Plots”按钮,在打开的对话框中选中t distribution plot复选框,如图4-27b所示。单击“OK”按钮,返回到“Two-Sample t-test for Means”对话框,再次单击“OK”按钮,得到分析结果如图4-28所示。结果显示,t统计量的P值=0.00640.05 所以在0.05的显著性水平下拒绝原假设,男

35、女生身高存在明显差别。图形中表示t统计量观测值位置竖线落在拒绝域,所以拒绝原假设,在0.05的显著性水平下男女生身高存在明显差别。(2)用TTEST过程步对两独立样本正态总体均值进行假设检验,程序如下:PROC TTEST DATA = ; CLASS ; VAR ;RUN; 使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分类变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。proc ttest data=mylib.height;class B;var A;run;从检验结果来看,关于方差齐性的检验结果,相应的p值=0.44240.05

36、所以不能拒绝方差相等的假设。在方差相等的前提下,检验t均值,相应的P值=0.00640.05 所以在0.05的显著性水平下不能拒绝原假设,两种教学法的考试成绩的平均值没有显著差异,即两种教学法没有显著差异。2.两独立样本正态总体比例的比较【例4-9】为调查男女生语文学习情况,在小学一年级随机抽取了27名男生和20名女生,记录下他们语文考试的成绩如表4-9所示。试以0.05的显著性水平推断考试成绩在90分以上的男女生所占比例是否有显著差异?设考试成绩存放于数据集Mylib.chinese中,其中语文成绩变量名为chinese。这是一个两独立样本比例检测的问题,若1和2分别表示男生和女生语文成绩9

37、0分以上的人所占比例,根据题意作如下假设:H0:1-2=0 H1:1-20用分析家模块作两样本正态总体比例的假设检验,步骤如下:在分析家中打开数据集mylib.chinese。将变量chinese重编码得到新变量chinese_recoded。选择菜单“统计”“假设检验”“比例的双样本检验”命令,选择分析变量chinese_recoded,sex作为分组变量。单击“Level of interest”右侧下拉按钮,选择90。在Hypotheses栏设置原假设的值prop 1-prop2=0,选择备择假设prop 1-prop2 0,如图4-34a所示。单击“Plots”按钮,在打开的对话框中选

38、择Normal distribution plot。单击“OK”按钮,得到分析结果如图4-35所示。结果显示,z统计量的p值为0.3138,所以在0.05的显著性水平下不能拒绝原假设,考试成绩在90分以上的男女生所占比例没有显著差异。3.两独立样本正态总体方差的比较【例4-10】 一家机床厂以生产某种圆形零件为主,每天的产量大约是8000个,每个零件的尺寸规格为直径21.5mm。生产厂家现购进一台新的机床进行生产,为了分析新机床生产的零件的尺寸是否比旧机床生产的零件尺寸偏差更小,现从某天新旧机床生产的零件中各随机抽取了10个,测得每个零件尺寸如表4-10所示。由于两样本大小一致,所以在数据集m

39、ylib.size中分别用变量A和变量B存储两个样本,如果12和22分别表示旧机床生产的零件的尺寸和新机床生产的零件尺寸的方差,根据题意,设置假设:H0:1 2 2 2H1:1 2 2 2 用分析家模块作单样本正态总体方差的假设检验,步骤如下:选择菜单“统计”“假设检验”“方差的双样本检验”命令。在打开的“Two-Sample Test for Variances”对话框中,选择“Groups are in”中的Two variables,选择分析变量A和B分别填入Group1和Group2中,如图4-36所示。在 Hypotheses栏 设 置 选 择 备 择 假 设Variance1/Va

40、riance2 0.05,因此在0.05的显著性水平下不能拒绝原假设,两种公式还原魔方所需时间无显著差异。(3)用TTEST过程步对两配对样本正态总体均值进行比较,程序如下:proc ttest data=mylib.time;paired A*B;run;4.44.4分布检验分布检验4.4.1 4.4.1 正态分布正态分布4.4.24.4.2 正态性检验正态性检验4.4.1 4.4.1 正态分布正态分布正态分布(Normal distribution)又名高斯分布(Gaussian distribution),该分布由两个参数平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布

41、越集中在均值附近。1.正态分布的概率密度函数则称X服从正态分布,记作XN(,2)。其中为X的总体均数,2为总体方差。(1)曲线在x轴上方,与x轴不相交。(2)曲线关于直线x=对称。(3)在x=时位于最高点。(4)当x时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。(5)当一定时, 曲线的形状由确定。越大,曲线越“扁平”,表示总体的分布越分散;越小,曲线越“尖陡”,表示总体的分布越集中2.正态分布曲线的性质3.标准正态分布当0,1时,正态总体称为标准正态总体;其相应的曲线称为标准正态曲线。标准正态总体N(0,1)在正态总体的研究中占有重要地位。任何正态分布的问题均可

42、转化成标准总体分布的概率问题。4.4.24.4.2正态性检验正态性检验正态分布是连续型变量的理论分布,有些统计方法只适用于正态分布或近似正态分布资料,因此在用这些方法前,需考虑进行正态性检验。进行正态性检验的方法有非参数检验中的K-S检验,探索性描述统计中的P-P图,Q-Q图。对于正态性检验,原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布。使用UNIVARIATE过程对变量进行正态分布检验,其一般格式为:PROC UNIVARIATE DATA=数据集 NORMAL;VAR 变量;RUN;【例4-12】 随机抽取某班22名学生3门功课的成绩如表4-12所示。将数据集保存在my

43、lib.exam中,分析该班3门功课的成绩分布是否符合正态分布。1.用INSIGHT模块进行正态性检验,其步骤如下:在INSIGHT模块中打开数据集mylib.exam。选择菜单“分析”“分布”命令。在 “分 布 ”对 话 框 中 选 择 分 析 变 量 Subjects1, Subjects2, Subjects3。单击“输出”按钮,在打开的对话框中选中正态性检验复选框。单击“确定”按钮得到分析结果如图4-46所示。用分析家模块进行正态性检验,其步骤如下:在“分析家”模块中打开数据集mylib. exam。选择菜单“统计”“描述性统计”“分布”命令,在打开的“分布”对话框中选择分析变量Sub

44、jects1, Subjects2, Subjects3。单 击 “Fit”按 钮 , 在 打 开 的 对 话 框 中 选 择“normal”复选框。单击“OK”按钮,返回到“分布”对话框,再次单击“OK”按钮。在 分 析 家 窗 口 的 项 目 管 理 器 中 双 击 “Fitted Distributions of Exam”,查看检验结果如图4-48所示。3.用univariate过程步进行正态性检验,程序如下:proc univariate data=mylib.exam normal;var Subjects1 Subjects2 Subjects3;run;本章小结本章小结本章主要介绍了参数估计的基本概念、假设检验的基本原理和总体的正态性检验方法,并从INSIGHT模块、分析家模块和TTEST过程步三个方面,结合具体实例演示了SAS系统的统计推断功能。通过本章的学习,能掌握如何使用SAS系统实现单样本正态总体的参数估计与假设检验、两独立样本正态总体的参数估计与假设检验,以及两配对样本正态总体的参数估计与假设检验。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 文学/艺术/历史 > 人文/社科

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号