医学统计学抽样分布与参数估计研

资源描述

《医学统计学抽样分布与参数估计研》由会员分享，可在线阅读，更多相关《医学统计学抽样分布与参数估计研（35页珍藏版）》请在金锄头文库上搜索。

1、一、统计推断的研究方法抽样研究引例：目的：检验一批药品是否合格。困难：数量大、检验方法具有破坏性方法：抽取一部分样品进行检验，从而推断这批药品的质量。抽抽样样分布分布抽样研究：通过样本所携带的信息去估计、推断总体的状态及性质的研究方法称为抽样研究。抽样研究是统计学的基本方法。抽样是手段，对总体进行估计、推断是目的。进行抽样研究时，必须注意保证样本的代表性样本的代表性：首先，要明确划清目标总体的同质范围，也就是确定被研究对象的同质基础，包括时间、空间、条件等；第二，必须遵循随机抽样的原则，即使总体中每一个体都以同样的概率被抽到样本中去；第三，必须保证样本中有足够的个体数，即样本

2、含量足够大。只有保证了样本的代表性样本的代表性，才能对抽样研究所得结论的可靠性进行统计学评价。总体：根据研究目的所确定的、性质相同的所有个体的集合。一般说来，一个总体的指标测定值在客观上具有一定的分布，即X是一个随机变量。故对总体的研究对相应随机变量X的研究随机变量X的分布函数总体的分布函数随机变量X数字特征总体的数字特征(总体参数)注：通常情况下，我们所提到的总体对应一个随机变量，称为一元总体；若需要同时考虑两个及多个随机变量时，即：X=(X1，X2，Xn)，称X为多元总体。几个基本概念样本：同一总体中一部分有代表性的个体所构成的集合。设总体为随机变量X，我们规定：从总体X中

3、抽取n个个体进行观测在相同条件下对总体X进行n次重复独立的观测将各次观测结果依次记为X1，X2，Xn ，这样得到的n个X1，X2，Xn显然是相互独立的且具有同一分布X的随机变量。称X1，X2，Xn为来自总体X的一个简单随机样本，简称样本；称n为这个样本的样本容量；对于随机变量X1，X2，Xn的一组具体的测定值x2，xn 称为X1，X2，Xn的样本观测值或样本值。总体参数：反映总体状态或性质的指标称为总体参数。一般用希腊字母来表示，如：总体均数：总体标准差：总体率样本统计量我们知道，对于总体而言，其性质、特征是通过数字特征(总体参数)来反映的。在抽样研究中，欲利用样本对总体进行

4、研究，就需要根据研究目的从样本中提取相应的信息。从数学上讲，就是针对不同的问题构造关于样本的适当的函数，利用这些样本的函数来进行统计估计和推断。样本统计量：设X1，X2，Xn是来自总体X的一个样本，n元函数g连续且不含任何未知参数，则称g(X1，X2，Xn)是一样本统计量，简称统计量。对于样本X1，X2，Xn的一组具体的测定值x1,x2,xn，称g(x1，x2，xn)是统计量g(X1，X2，Xn)的观测值。显然，这样定义的样本统计量g(X1，X2，Xn)仍然是一个随机变量。如样本平均值样本方差样本标准差样本率抽样误差：样本统计量和总体参数之间由于抽样引起的差异称为抽样误差。标准误：

5、样本统计量的标准差称为标准误。它是反映样本统计量对总体参数离散程度的量，用于度量抽样误差的大小。二、抽样分布由于样本统计量也是随机变量，因此它也有其概率分布。称样本统计量的分布为抽样分布。设总体X的总体均数为，方差为2，X1，X2， Xn是从总体X中抽取的一个样本，则样本均数作为随机变量其均数为，方差为2/n。特别指出，样本均数的标准差又称为均数的标准误，记为：当未知时，可用样本标准差S代替，有：4.均数的抽样分布若从非正态总体X中抽样，则其均数的分布并非正态分布。但当样本含量n较大时，其均数的分布接近于均数为，方差为2/n的正态分布。特别地，当总体X的分布为正态分布时，有5.率的分

6、布：设X服从参数为n, 的二项分布B(n,)，现从该总体中进行大量重复独立抽样，其样本含量为n，当n充分大时(n 5或n（1） 5，且n 40)，则样本率 P = X / n 的分布近似于正态分布。即样本率P的标准差又称为率的标准误为 1). t统计量的分布在上述假定下，统计量服从自由度为n1的t分布，记为t t(n-1)。其中，S为样本标准差。 6.两个重要统计量的分布设 X1,X2, Xn是从总体中抽取的一个样本，Y1, Y2, Yn是从总体中抽取的一个样本，则统计量其中，2). t统计量的分布三、参数估计1.点估计：直接用样本统计量的值作为相应总体参数的估计值。如：点估计的

7、优点是简单、直观；缺点是无法估计误差的大小。2、区间估计点估计的实质是用一个数值（样本统计量的值）去估计未知参数的真值。这种估计一般是有误差的。人们希望弄清这种估计的近似程度，这就需要估计出一个范围，并了解这个范围包含未知参数的可信程度，这样的范围在数轴上就是一个区间。这种用一个区间来估计未知参数的方法称为对未知参数的区间估计。这里提到的可信程度称为可信度或置信度，估计出来的区间称为可信区间或置信区间。1).总体均数的区间估计当总体标准差已知时，总体均数的可信度为（1 ）的可信区间为当总体标准差未知时，总体均数的可信度为（1 ）的可信区间为当总体标准差未知，但n足够大时，总体均数的可信度为

8、（1 ）的可信区间为（例5-3）（例5-4）2）两总体均数之差的区间估计实际工作中，常常需要估计两总体均数之差的大小。例如：正常成年男女的红细胞数平均相差多少？当两总体方差相等时，两总体均数之差1-2的可信度为（1 ）的可信区间为例5-53).总体率的估计例5-6、5-7 当样本含量n较小时，总体率的（1-）可信区间可用查表（附表7 百分率的可信区间）的方法来求得。当样本含量n较大，且np与n(1-p)均大于5时，总体率的（1-）可信区间为：例5-8注1：这里说的可信区间实际上是随机区间，它与抽样结果有关。这个区间能否包含总体均数是一个随机事件，可信度（1 ）的含义是指该区间包含总体均数的可靠程度。注2：评价可信区间的标准主要有两个。一是可信度，即取得越小，则可信度1越高，即该区间包含的概率越大；二是估计精度，用区间长度来表示，当然，区间长度越小，则估计精度越高。一般说来，人们总是希望求得的可信区间的可信度和估计精度都尽可能地好，但是对于固定的样本含量n，二者不可能同时提高。因此，区间估计通常是在保证足够的可信度的前提下，使估计出来的区间长度尽可能地小。若要确保可信度与估计精度同时达到要求，一般说来需要增大样本含量n。

展开阅读全文

医学统计学抽样分布与参数估计研

最新文档