[理学]统计2章教材.doc

上传人:枫** 文档编号:547611273 上传时间:2023-12-27 格式:DOC 页数:28 大小:1.26MB
返回 下载 相关 举报
[理学]统计2章教材.doc_第1页
第1页 / 共28页
[理学]统计2章教材.doc_第2页
第2页 / 共28页
[理学]统计2章教材.doc_第3页
第3页 / 共28页
[理学]统计2章教材.doc_第4页
第4页 / 共28页
[理学]统计2章教材.doc_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《[理学]统计2章教材.doc》由会员分享,可在线阅读,更多相关《[理学]统计2章教材.doc(28页珍藏版)》请在金锄头文库上搜索。

1、2 计量资料分析连续变量总体的样本资料,一般是计量资料。正态总体的计量资料分析,包括统计描述和统计推断。统计描述,主要是用样本数字特征、S2作总体数字特征、2的点估计。统计推断,主要是用样本数字特征、S2作总体数字特征、2的区间估计或假设检验。2.1 计量资料的区间估计2.1.1 随机抽样统计工作一般经过统计设计、搜集资料、整理资料、分析资料四个步骤。统计设计是对全过程进行全面设想、规划,选用区间估计、假设检验、回归分析、试验设计等具体统计方法。搜集资料是根据研究目的,按试验设计的要求进行抽样,或搜集报表,或进行试验,搜集准确的、完整的、充满信息的原始资料。整理资料是按设计要求对搜集到的原始数

2、据进行分组和归纳,使资料系统化、条理化,以便进行统计分析。分析资料是按设计要求对经过整理的原始资料进行计算和统计处理,得出科学、合理的统计结论。不同的统计资料采用的统计方法也会不一样。统计资料的类型一般分为计量资料、分类资料两大类型。计量资料是对观察对象用定量方法测得的某项指标的值,分为定量(有大小和单位)与循环(有单位无大小,如角度、时间等)两种,一般是连续变量总体的样本资料。分类资料是把观察对象按不同属性或类别分组计数所得的资料,分为无序分类(计数资料)与有序分类(等级资料)两种,一般是离散变量总体的样本资料。资料的类型,可以根据需要进行转化。如:每个人的血红蛋白量是计量资料,按血红蛋白量

3、分为正常与异常两组的人数是计数资料。以6 g/dl、9 g/dl、12 g/dl、16 g/dl为分组的端点值,按血红蛋白量分为重度贫血、中度贫血、轻度贫血、正常血红蛋白量、增高血红蛋白量,五组的人数是等级资料。总体是根据一定的研究目的和要求所确定的研究对象的全体,构成总体的每一个对象称为个体。从总体中抽取的部分个体称为样本,从总体中抽取样本的过程称为抽样,样本所包含的个体的数目称为样本容量。从总体X中随机抽取容量为n的样本,记为X1、X2、Xn,可看成是n个随机变量。抽样的目的是通过对样本的考察和分析,从而根据该样本所提供的信息对总体的分布特性或某些特征做出估计和推断。因此,通常要求样本具有

4、代表性(Xi与总体X同分布)与独立性(X1、X2、Xn独立),并称这样的样本为简单随机样本。在抽取样本时,要求方法简单易行,并且对抽取的数据便于用统计方法进行处理和推断。抽样的方法很多,对于有限总体,一般采用有放回的抽样,在总体的研究对象数量相对于样本大得多时,可近似采用无放回的抽样。总体中的每一个研究对象以相等的概率被抽取,这种等概率抽样称为单纯随机抽样,常用抽签或查随机数表等方法实施。若采用机械抽样(按一定的间隔抽取,如取4号、24号、44号、),分层抽样(把研究对象分为互不重叠的层,在各层随机抽样),整群抽样(把研究对象分为互不重迭的群,随机抽取若干群的全体),则可以得到非简单随机样本。

5、2.1.2 无偏点估计统计描述,主要是用样本数字特征、S2作总体数字特征、2的点估计。定义1 设X1,X2,Xn是从总体X中抽取的一个容量为n的简单随机样本,则分别定义样本均数(mean)、样本方差(variance)为(2-1)(2-2)并称S为样本标准差(standard deviation,SD),称S/为样本变异系数。反映集中趋势的样本数字特征,有样本均数、中位数(median,居中位置的值)、众数(mode,频率最大的值)等。反映离散程度的样本数字特征,有样本方差、样本标准差、样本变异系数、样本标准误(standard error,SE)、极差(range,最大与最小值之差)、四分位

6、数(25%及75%位置值)等。样本均数与标准差、标准误常合写在一起,记为或(2-3)或(2-4)用样本构成的不含总体任何未知参数的函数,称为一个统计量(statistic)。用来估计总体参数的统计量,记为。这种用样本统计量直接作为总体未知参数估计值的方法,称为点估计。在时,称为的无偏估计量。的一个具体值,称为总体参数的一个点估计。无偏性、有效性、一致性,是评价估计量好坏的三条标准。定理1 设X1,X2,Xn为总体X的简单随机样本,则(2-5)(2-6)(2-7)证 X1,X2,Xn与总体X独立同分布,EXiEX,DXiDX,由定理1的2-5、2-7可知,样本均数、样本方差S2分别是总体均数EX

7、、总体方差DX的一个无偏点估计。函数计算器的SD(标准差)模式,用Data键输入数据,用、S键,可以计算样本均数、样本标准差S。类似地,用作为总体M阶原点矩的估计量,称为矩估计;用密度函数f构成似然函数f(Xi)求最大值确定总体参数的估计量,称为最大似然估计。样本方差定义为S2,是总体方差DX的一个矩估计。例1 某药厂生产的开胸顺气丸,崩解时间X。今随机抽取5丸测得崩解时间为:36、40、32、41、36(min),计算及2的无偏点估计。解 分别计算样本均数、样本方差,得到37S213故及2的点估计分别为,。2.1.3 的u估计点估计只给出了总体参数的一个近似值,没有反映出近似的精确程度,而且

8、不同的样本观察值所得出的估计值不尽相同。因此,在实际问题中,常常需要用区间形式估计总体参数所在的范围,不仅给出范围,还要给出这个范围包含总体参数值的可靠程度。定义2 设总体X含有未知参数q,若,对样本确定的统计量及有q1a(2-8)则称随机区间是q的置信区间或可信区间(confidence interval),称1a为置信度或可信度,a 称为显著水平(significance level),分别称及为置信下限及置信上限。置信区间是总体参数的估计范围,判断置信区间包含总体参数,有把握的概率为置信度1a,犯错误的概率为显著水平a。统计中,显著水平常用a0.05、a0.01,实际工作中也可用a0.1

9、等。当置信度为1a0.95时,从统计学意义看,表明在总体中独立地抽取100个样本,那么就会有100个常数区间,其中大约有95个区间包含待估计的参数q,可靠性为95。设总体X,由2-5、2-6可知,、,有(2-9)(2-10)对样本函数u,分别满足条件P(|u|ua/2)a(2-11)P(|u|ua)a(2-12)的数值、称为u分布的双侧、单侧界值。双侧界值表示右边与左边曲线下面积的和(称双侧或双尾概率)为a,单侧界值表示右边的曲线下面积(称单侧或单尾概率)为a,如图2-1所示。图2-1 u分布双侧界值u分布的双侧、单侧界值可以在统计用表5中查最下面一行,双侧界值可用DPS的pnorm(x)函数

10、计算。由统计用表5,可以查得常用的u界值为1.6449,1.9600,2.3264,2.5758定理2 在s 已知时,正态总体均数的置信度1a 的置信区间为(2-13)证 由 1a,有1a 1a 故,在s已知时,的置信度1a 的置信区间为由定理2,在s已知时,的置信度1a 的置信区间通常写为(2-14)例2 在伤寒论使用桂枝的39张处方中,桂枝的用量服从s 为3g的正态分布,根据样本均数8.14 g、显著水平a 0.05,估计桂枝用量的置信区间。解 的置信度0.95的置信区间为2.1.4 s 2的估计定义3 设u1,u2,un为互相独立的标准正态变量,则称它们平方和构成的变量u12u22un2

11、(2-15)服从自由度(degree of free)dfn的分布,记为。x0x0分布密度函数为 (2-16)分布由海尔墨特(Helmert)和皮尔逊(Pearson)分别于1875年和1900年得到。分布密度曲线偏向左侧,n越小越偏。单侧界值表示右边曲线下面积为a,双侧界值或分别表示右边或左边曲线下面积各为,如图2-2所示。 图2-2 2分布的界值分布的单侧、双侧界值可以查统计用表4,单侧界值可以用DPS函数chitest(df,a)计算。定理3 设X1,X2,Xn为总体X的简单随机样本,则(2-17)证 X1,X2,Xn与总体X独立同分布,得由于 , 从而 ,故 由定理3, ,可得s 2的

12、置信度1a 的置信区间为,dfn1(2-18)例3 某药含碳量服从正态分布,生产时允许方差在0.0482 (mg2)内。现任取5件,测得含碳量(mg)为:1.32、1.55、1.36、1.40、1.44,根据a 0.05判断该药生产是否稳定。解 计算得n5,1.414,S0.0882,dfn14,查统计用表4得,s 2的置信度0.95的置信区间为置信区间的下限0.00280.0023,可认为该药生产不稳定。2.1.5 的t估计设总体X,未知。这时,的置信区间要使用t估计。定义4 若u,2且u、2独立,则称变量(2-19)服从自由度为n的t分布,记为t。t分布密度函数为(x)(2-20)t分布由

13、英国统计学家Gosset于1908年以Student笔名发表,故又名学生分布。t分布密度曲线关于纵轴对称,时以标准正态曲线为极限。双侧界值表示右边与左边曲线下面积的和为a,单侧界值表示右边的曲线下面积为a,如图2-3所示。t分布的单、双侧界值可以查统计用表5,双侧界值可以用DPS函数计算。图2-3 t分布定理4 设X1,X2,Xn为正态总体X的简单随机样本,则(2-21)证 由 ,可得 由定理4, (2-22)可得未知时,的置信度1a 的置信区间为,dfn1(2-23)根据中心极限定理,总体不论是否服从正态分布,在大样本的情况下,都有:样本均数渐近服从正态分布,样本函数渐近服从标准正态分布。这

14、时,可使用的u估计。置信区间的优劣可通过准确度和精密度(反映在区间长度)来评估。例4 逍遥丸崩解时间服从正态分布,在同一批号中随机抽取5丸,测得崩解时间(min)为:21、18、20、16、15。求该批药丸崩解时间总体均数置信度为0.99的置信区间。解 计算得n5,18,S2.5495,df4,查统计用表5,该批药丸崩解时间总体均数置信度为0.99的置信区间为置信区间的上限23.2495低于药典规定的60 min,可认为该批药丸崩解时间合格。习题2.11. 从同一批号的阿斯匹林片随机抽取5片,测得溶解50%的时间(min)为:5.3、6.6、5.2、3.7、4.9,做总体均数和总体方差的无偏点估计,求样本标准差及变异系数。2. 某药的某种成分含量服从正态分布,方差s20.1082。现测定9个样品,含量的均数4.484,根据a0.05求含量总体均数的置信区间。3. 从一批药丸随机抽取35丸,测得平均丸重为1.5 g、标准差为0.08 g,求该批药丸平均丸重总体均数置信度为95%的置信区间。4. 检查某市12岁健康女学生144人的血红蛋白含量,求得样本均数119.62g/L,样本标准差9.98g/L,求该市12岁健康女生血红蛋白含量总体均数置信度为95%的置信区间。5. 用1题的样本,求总体方差置信度为95%的置信区间。2.2 计量资料的假设检验2.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号