统计重点1－金锄头文库

资源描述

《统计重点1》由会员分享，可在线阅读，更多相关《统计重点1（10页珍藏版）》请在金锄头文库上搜索。

1、题型：名词解释（10），提空（20），选择（20），简答（4-5），分析题（1-2），计算题（2）总体样本：总体(population)：就是根据研究目的确定的同质观察单位的全体，确切的说，是同质的所有观察单位某种变量值的集合。可分为有限总体和无限总体。样本(sample)：就是从总体中随机抽取部分观察单位，其变量值的集合。实验设计的基本原则：随机化对照重复统计工作的基本步骤：一、研究设计二、收集资料三、整理资料四、分析资料变量及变量值：研究者对每个观察单位的某项特征进行测量，这种特征称为变量，测得值叫变量值。按变量值的性质可将资料分为定量资料和定性资料

2、。资料类型计量资料、计数资料、等级资料定量资料（计量资料）：通过度量衡的方法，测量每一个观察单位的某项研究指标的量的大小，得到的资料。特点：有度量衡单位。定性资料（计数/分类资料）：将全体观测单位按照某种性质或特征分组，然后再分别清点各组观察单位的个数所获得的资料。特点：没有度量衡单位。二分类和多分类资料。等级资料（有序分类资料）：介于定量和定性资料之间的一种资料，通过半定量方法测量得到。特点：各组之间有性质上的差别或程度上的不同。抽样应遵循的原则代表性随机性可靠性可比性误差：统计上所说的误差泛指测量值与真实值之差。 (1)系统误差：指数据搜集和测量过程中由于仪器不准

3、确、标准不规范等人为原因，造成观察结果偏大或偏小，这种误差称为系统误差。 (2)随机误差：由于一些非人为的偶然因素使得结果或大或小，是不确定、不可预知的。概率和频率概率(probability)：是描述某一事件发生的可能性大小的数值，用 P 表示。小概率事件：P0.05 或 P0.01 称为“小概率事件”，表明在一次观察或实验中该事件发生的可能性很小，可以看作很可能不发生。频率（frequency）：假设在相同条件下，独立地重复做 n 次试验，A 在 n 次试验中出现了 m 次，则比值 m/n 称为随机事件 A 在 n 次试验中出现的频率。参数与统计量参数(parameter)

4、：是根据总体分布的特征而计算的总体统计指标（用希腊字母代表），如总体均数，总体率，总体标准差等。统计量(statistic)：由总体中随机抽取样本而计算的相应样本指标称为（用拉丁字母代表），如样本均数，样本率 p，样本标准 S 等。统计推断：统计学研究的目的就是要用样本统计量来估计总体参数同质与变异同质(homogeneity)：是针对被研究指标来讲，其影响因素相同。变异(variation)：同质基础上的个体差异称为变异。频数分布表制作和用途：频数分布表：又称频数表。是将原始数据值适当分组后得到各组的频数。适用样本量较大的资料进行统计描述的常用方法。通过频数表可

5、以显示数据分布的范围与形态。手工编制步骤：（1）计算全距（range，R），也称为极差 R = 最大值最小值（2）确定组段数与组距:组段数一般可在 815 之间选择。组距=上限下限=R/（预计的组段数）。（3）确定组限，列表做出如表 2-2 的表格，将选好的组段顺序地列在 (1)列。按照“下限x上限” 的原则确定每一例数据 x 应归属的组段。频数表的用途1. 揭示频数分布的分布特征和分布类型。文献中常将频数表作为陈述资料的形式。2. 便于进一步计算统计指标和进行统计分析处理。3. 便于发现某些特大或特小的可疑值。4. 当样本含量比较大时，可用各组段的频率作为概率的估计值频

6、数分布的两大特征：集中趋势和离散趋势频数分布的两个类型：对称分布、偏态分布（正偏峰分布、负偏峰分布）集中趋势统计指标平均数对于连续型定量变量，描述集中趋势常用的统计量为算术均数、几何均数、中位数、众数和调和均数。算术均数(Mean)：适合描述对称分布资料的集中位置（也称为平均水平）。几何均数（geometric mean，G）：适用于观察值变化范围跨越多个数量级的资料。中位数（median，M）：可用于各种分布的定量资料。离散趋势统计指标极差四分位数间距方差标准差变异系数极差：一组变量值最大值与最小值之差。方差：反映一组数据的平均离散水平。总体内所有的个体与总

7、体均数差值的平方和。四分位数间距：一般和中位数一起描述偏态分布资料的分布特征。变异系数：多用于观察指标单位不同时的变异程度或均数相差很大的时候的比较。正态分布的概念和特征概念：正态分布是自然界最常见的一种分布，若指标 X 的频率密度曲线对应于数学上的正态分布曲线，则称该指标服从正态分布。特征： 1. 关于 X= 对称。即正态分布以均数为中心，左右对称。 2. 在 X= 处取得概率密度函数的最大值，在 X= 处有拐点，表现为钟形曲线。即正态曲线在横轴上方均数处最高。 3. 正态分布有两个参数，即均数和标准差。是位置参数，是变异度参数 (形状参数)。常用 N(,2)表示均数为

8、，标准差为的正态分布；用 N(0,1)表示标准正态分布。 4. 正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于 100%或 1。标准正态分布：标准正态分布：均数为 0，标准差为 1 的正态分布，这种正态分布称为标准正态分布。对于任意一个服从正态分布 N(,2)的随机变量，可作如下的标准化变换，也称 Z 变换，Z=（X-）/ 正态分布的应用（一）制定医学参考值范围（二）质量控制（三）统计处理方法的理论基础医学参考值：参考值范围：指特定的“正常”人群的解剖、生理、生化、免疫等各种数据的波动范围。制定参考值范围的步骤： 1. 选择“正常”人作为调查对象。 2. 样本含

9、量足够大。 3. 确定取单侧还是取双侧正常值范围。 4. 选择适当的百分界限。 5. 选择适当的方法。估计医学参考值范围的方法：1. 正态近似法：适用于正态分布或近似正态分布的资料。 2. 百分位数法：适用于偏态分布资料。质量控制图判断异常的 8 中情况： 1、有一个点距中心线的距离超过 3 个标准差（控制限以外） 2、在中心线的一侧连续有 9 个点 3、连续 6 个点稳定地增加或减少 4、连续 14 个点交替上下 5、连续 3 个点中有两个点距中心线距离超过 2 个标准差（警戒限以外） 6、连续 5 个点中有 4 个点距中心线距离超过 1 个标准差 7、中心线一侧或两侧连续 15 个点距

10、中心线距离都超出 1 个标准差以内 8、中心线一侧或两侧连续 8 个点距中心线距离都超出 1 个标准差范围。二项分布的条件：1）每次实验结果，只能是两个互斥的结果之一（A 或非 A）。2) 相同的实验条件下，每次实验中事件 A 的发生具有相同的概率。3) 各次实验独立。各次的实验结果互不影响。二项分布的图形特征及二项分布的正态近似二项分布的形状取决于 n,，当 =0.5 时分布对称，当 0.5 时，分布呈偏态，特别是 n 较小时，偏离 0.5 越远，分布的对称性越差，随着 n 的增大，分布逐渐趋向于对称。理论上可以证明，不管如何，当 n 相当大时，只要不接近 1 和 0 时

11、，特别是当n 和 n（1- ）都大于 5 时，二项分布 B(X;n,)近似正态分布 N(n,n(1-)。二项分布主要用于概率估计和单侧累计概率估计。 Poisson 分布可以看作是发生的概率很小，而观察例数很大时的二项分布。除要符合二项分布的三个基本条件外，Poisson 分布还要求或 1- 接近于 0 和 1。 Poisson 分布的特性：（1）Poisson 分布的的总体均数与总体方差相等，均为。（2）Poisson 分布的观察结果有可加性。 Poisson 分布主要用于概率估计和单侧累计概率估计。 Poisson 分布的的图形特征及正态近似Poisson 分布，当总体均数

12、小于 5 时，越小，分布越呈偏态，随着的增大，分布逐渐趋向于对称。理论上可以证明，随着 Poisson 分布也渐近为正态分布。当 20 时，Poisson 分布资料可按正态分布处理参数估计：由样本指标来估计总体指标。参数：所有的总体指标。统计推断：用样本信息来推断相应总体的特征，这一过程称为统计推断。包括两方面的内容：参数估计和假设检验抽样误差：由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性，不可避免。标准误：用于表示均数抽样误差的的大小，反应样本均数之间的离散程度，也反映样本均数抽样误差的大小。样本为正态时

13、均数的抽样分布特点：1 各样本均数未必等于总体均数 2 样本均数之间存在差异3 样本均数的分布很有规律，围绕着总体均数，中间多，两边少，左右基本对称，也服从正态分布 4 样本均数的变异较之原变量大大缩小样本为偏态时均数的抽样分布特点： 1）从正态总体 N(,2)中，随机抽取例数为 n 的多个样本，样本均数服从正态分布；即使是从偏态总体中随机抽样，当 n 足够大时(如 n50)，也近似正态分布。 2）从均数为，标准差为的正态或偏态总体中抽取例数为 n 的样本，样本均数的标准差即标准误为。 t 分布曲线特点：t 分布不是一条曲线，而是一簇曲线。1）t 分布曲线是单峰分布，它以

14、0 为中心，左右对称。2）t 分布的形状与样本例数 n 有关。自由度越小，则 Sx 越大，t 值越分散，曲线的峰部越矮，尾部翘的越高。3) 当 n时，则 S 逼近，t 分布逼近标准正态分布。参数估计的方法: 1、点估计：用样本统计量直接作为总体参数的估计值。 2、区间估计：按预先给定的概率(1)估计总体参数的可能范围，该范围就称为总体参数的 1 置信区间。可信区间由两个数值即置信限构成，其中最小值称为下限，最大值称为上限。严格讲，可信区间不包括上下限两个端点值。置信区间的计算方法：（一）总体均数置信区间的计算（1）已知，按标准正态分布原理计算95%的双侧置信区间：XXXX9

15、6. 1,96. 199%的双侧置信区间：XXXX58. 2,58. 2通式：（双侧），Z/2 为标准正态变量，Z/2 相当于按 =时及XzX2/P 取，由附表 2 查的的 t 界值。（2）未知但样本例数 n 足够大（n50）时，由 t 分布可知，自由度越大，t 分布越逼近标准正态分布95%的双侧置信区间：XXXX96. 1,96. 199%的双侧置信区间：XXXX58. 2,58. 2通式：（双侧）XSZX2/（3）未知且样本例数 n 较小时，按 t 分布原理95%的双侧置信区间： XXStXStX2/05. 02/05. 0,99%的双侧置信区间： XXStXStX2/01. 02/01. 0,通式:，t/2, 是按自由度 =n-1，由附表 2 查得的 t 值。XstX,2/置信区间的两个要素： 1. 准确度：反映置信度 1- 的大小，即区间包含总体均数的概率大小。 2. 精度：反映区间的长度。在置信区间确定的情况下，增加样本例数，会减小 t, 和，可减少区间长度，XS提高精度。（二）总体概率的置信区间 1. 正态近似法当样本含量足够大，且 p 和 1-p 不太小，则样本率的分布近似正态分布。公式为：PPSZPSZP22,

展开阅读全文