统计重点1

上传人:小** 文档编号:54434164 上传时间:2018-09-12 格式:DOC 页数:10 大小:145KB
返回 下载 相关 举报
统计重点1_第1页
第1页 / 共10页
统计重点1_第2页
第2页 / 共10页
统计重点1_第3页
第3页 / 共10页
统计重点1_第4页
第4页 / 共10页
统计重点1_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《统计重点1》由会员分享,可在线阅读,更多相关《统计重点1(10页珍藏版)》请在金锄头文库上搜索。

1、题型:名词解释(10) ,提空(20) ,选择(20) ,简答(4-5) ,分析题(1-2) ,计算题 (2) 总体样本: 总体(population):就是根据研究目的确定的同质观察单位的全体,确切的说,是同质的 所有观察单位某种变量值的集合。可分为有限总体和无限总体。 样本(sample):就是从总体中随机抽取部分观察单位,其变量值的集合。 实验设计的基本原则:随机化 对照 重复 统计工作的基本步骤: 一、研究设计 二、收集资料 三、整理资料 四、分析资料 变量及变量值:研究者对每个观察单位的某项特征进行测量,这种特征称为变量,测得值 叫变量值。按变量值的性质可将资料分为定量资料和定性资料

2、。 资料类型计量资料、计数资料、等级资料 定量资料(计量资料):通过度量衡的方法,测量每一个观察单位的某项研究指标的量的 大小,得到的资料。特点:有度量衡单位。 定性资料(计数/分类资料):将全体观测单位按照某种性质或特征分组,然后再分别清点 各组观察单位的个数所获得的资料。特点:没有度量衡单位。二分类和多分类资料。 等级资料(有序分类资料):介于定量和定性资料之间的一种资料,通过半定量方法测量 得到。特点:各组之间有性质上的差别或程度上的不同。 抽样应遵循的原则 代表性 随机性 可靠性 可比性 误差:统计上所说的误差泛指测量值与真实值之差。 (1)系统误差:指数据搜集和测量过程中由于仪器不准

3、确、标准不规范等人为原因,造 成观察结果偏大或偏小,这种误差称为系统误差。 (2)随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。概率和频率 概率(probability):是描述某一事件发生的可能性大小的数值,用 P 表示。 小概率事件:P0.05 或 P0.01 称为“小概率事件”,表明在一次观察或实验中该事件发生 的可能性很小,可以看作很可能不发生。 频率(frequency):假设在相同条件下,独立地重复做 n 次试验,A 在 n 次试验中出 现了 m 次,则比值 m/n 称为随机事件 A 在 n 次试验中出现的频率。 参数与统计量 参数(parameter)

4、:是根据总体分布的特征而计算的总体统计指标(用希腊字母代表) , 如总体均数 ,总体率 ,总体标准差 等。 统计量(statistic):由总体中随机抽取样本而计算的相应样本指标称为(用拉丁字母代 表) ,如样本均数 ,样本率 p,样本标准 S 等。 统计推断:统计学研究的目的就是要用样本统计量来估计总体参数 同质与变异 同质(homogeneity):是针对被研究指标来讲,其影响因素相同。 变异(variation):同质基础上的个体差异称为变异。 频数分布表制作和用途: 频数分布表:又称频数表。是将原始数据值适当分组后得到各组的频数。适用样本量较大的资料进行统计描述的常用方法。通过频数表可

5、以显示数据分布的范围与 形态。 手工编制步骤: (1)计算全距(range,R) ,也称为极差 R = 最大值最小值 (2)确定组段数与组距:组段数一般可在 815 之间选择。组距=上限下限=R/(预计的 组段数) 。 (3)确定组限,列表 做出如表 2-2 的表格,将选好的组段顺序地列在 (1)列。按照“下限x上限” 的原则确定每一例数据 x 应归属的组段。 频数表的用途1. 揭示频数分布的分布特征和分布类型。文献中常将频数表作为陈述资料的形式。2. 便于进一步计算统计指标和进行统计分析处理。3. 便于发现某些特大或特小的可疑值。4. 当样本含量比较大时,可用各组段的频率作为概率的估计值 频

6、数分布的两大特征:集中趋势和离散趋势 频数分布的两个类型:对称分布、偏态分布(正偏峰分布、负偏峰分布) 集中趋势统计指标 平均数 对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数、中位数、 众数和调和均数。 算术均数(Mean):适合描述对称分布资料的集中位置(也称为平均水平) 。 几何均数(geometric mean,G):适用于观察值变化范围跨越多个数量级的资料。 中位数(median,M):可用于各种分布的定量资料。 离散趋势统计指标 极差 四分位数间距 方差 标准差 变异系数 极差:一组变量值最大值与最小值之差。 方差:反映一组数据的平均离散水平。总体内所有的个体与总

7、体均数差值的平方和。 四分位数间距:一般和中位数一起描述偏态分布资料的分布特征。 变异系数:多用于观察指标单位不同时的变异程度或均数相差很大的时候的比较。 正态分布的概念和特征 概念:正态分布是自然界最常见的一种分布,若指标 X 的频率密度曲线对应于数学上 的正态分布曲线,则称该指标服从正态分布。 特征: 1. 关于 X= 对称。即正态分布以均数为中心,左右对称。 2. 在 X= 处取得概率密度函数的最大值,在 X= 处有拐点,表现为 钟形曲线。即正态曲线在横轴上方均数处最高。 3. 正态分布有两个参数,即均数 和标准差 。 是位置参数, 是变异度参数 (形状参数)。常用 N(,2)表示均数为

8、 ,标准差为 的正态分布;用 N(0,1)表示标准 正态分布。 4. 正态曲线下面积分布有一定规律。横轴上正态曲线下的面积等于 100%或 1。 标准正态分布: 标准正态分布:均数为 0,标准差为 1 的正态分布,这种正态分布称为标准正态分布。对于任意一个服从正态分布 N(,2)的随机变量,可作如下的标准化变换,也称 Z 变 换,Z=(X-)/ 正态分布的应用(一)制定医学参考值范围 (二)质量控制 (三)统计处理方法的理论基础 医学参考值:参考值范围:指特定的“正常”人群的解剖、生理、生化、免疫等各种数据的 波动范围。 制定参考值范围的步骤: 1. 选择“正常”人作为调查对象。 2. 样本含

9、量足够大。 3. 确定取单侧还是取双侧正常值范围。 4. 选择适当的百分界限。 5. 选择适当的方法。 估计医学参考值范围的方法:1. 正态近似法:适用于正态分布或近似正态分布的资料。 2. 百分位数法:适用于偏态分布资料。 质量控制图判断异常的 8 中情况: 1、有一个点距中心线的距离超过 3 个标准差(控制限以外) 2、在中心线的一侧连续有 9 个点 3、连续 6 个点稳定地增加或减少 4、连续 14 个点交替上下 5、连续 3 个点中有两个点距中心线距离超过 2 个标准差(警戒限以外) 6、连续 5 个点中有 4 个点距中心线距离超过 1 个标准差 7、中心线一侧或两侧连续 15 个点距

10、中心线距离都超出 1 个标准差以内 8、中心线一侧或两侧连续 8 个点距中心线距离都超出 1 个标准差范围。 二项分布的条件:1)每次实验结果,只能是两个互斥的结果之一(A 或非 A) 。2) 相同的实验条件下,每次实验中事件 A 的发生具有相同的概率 。3) 各次实验独立。各次的实验结果互不影响。 二项分布的图形特征及二项分布的正态近似 二项分布的形状取决于 n,,当 =0.5 时分布对称,当 0.5 时,分布呈偏态,特 别是 n 较小时, 偏离 0.5 越远,分布的对称性越差,随着 n 的增大,分布逐渐趋向于对 称。理论上可以证明,不管 如何,当 n 相当大时,只要 不接近 1 和 0 时

11、,特别是当n 和 n(1- )都大于 5 时,二项分布 B(X;n,)近似正态分布 N(n,n(1-)。 二项分布主要用于概率估计和单侧累计概率估计。 Poisson 分布可以看作是发生的概率 很小,而观察例数很大时的二项分布。除要符合二 项分布的三个基本条件外,Poisson 分布还要求 或 1- 接近于 0 和 1。 Poisson 分布的特性: (1)Poisson 分布的的总体均数与总体方差相等,均为 。 (2)Poisson 分布的观察结果有可加性。 Poisson 分布主要用于概率估计和单侧累计概率估计。 Poisson 分布的的图形特征及正态近似Poisson 分布,当总体均数

12、小于 5 时, 越小,分布越呈偏态,随着 的增大,分布 逐渐趋向于对称。理论上可以证明,随着 Poisson 分布也渐近为正态分布。当 20 时,Poisson 分布资料可按正态分布处理 参数估计:由样本指标来估计总体指标。 参数:所有的总体指标。 统计推断:用样本信息来推断相应总体的特征,这一过程称为统计推断。包括两方面的内 容:参数估计和假设检验 抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。 标准误:用于表示均数抽样误差的的大小,反应样本均数之间的离散程度,也反映样本均 数抽样误差的大小。 样本为正态时

13、均数的抽样分布特点:1 各样本均数未必等于总体均数 2 样本均数之间存在差异3 样本均数的分布很有规律,围绕着总体均数,中 间多,两边少,左右基本对称, 也服从正态分布 4 样本均数的变异较之原变量大大缩小 样本为偏态时均数的抽样分布特点: 1)从正态总体 N(,2)中,随机抽取例数为 n 的多个样本,样本均数 服从正态分布; 即使是从偏态总体中随机抽样,当 n 足够大时(如 n50), 也近似正态分布。 2)从均数为 ,标准差为 的正态或偏态总体中抽取例数为 n 的样本,样本均数的标准 差即标准误为 。 t 分布曲线特点:t 分布不是一条曲线,而是一簇曲线。1)t 分布曲线是单峰分布,它以

14、0 为中心,左右对称。2)t 分布的形状与样本例数 n 有关。自由度越小,则 Sx 越大,t 值越分散,曲线的 峰部越矮,尾部翘的越高。3) 当 n时,则 S 逼近 ,t 分布逼近标准正态分布。 参数估计的方法: 1、点估计:用样本统计量直接作为总体参数的估计值。 2、区间估计:按预先给定的概率(1)估计总体参数的可能范围,该范围就称为总体参 数的 1 置信区间。 可信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。严格 讲,可信区间不包括上下限两个端点值。 置信区间的计算方法: (一)总体均数置信区间的计算 (1) 已知,按标准正态分布原理计算95%的双侧置信区间:XXXX9

15、6. 1,96. 199%的双侧置信区间:XXXX58. 2,58. 2通式: (双侧) ,Z/2 为标准正态变量,Z/2 相当于按 =时及XzX2/P 取 ,由附表 2 查的的 t 界值。 (2) 未知但样本例数 n 足够大(n50)时 , 由 t 分布可知,自由度越大,t 分布越 逼近标准正态分布95%的双侧置信区间:XXXX96. 1,96. 199%的双侧置信区间:XXXX58. 2,58. 2通式: (双侧)XSZX2/(3) 未知且样本例数 n 较小时,按 t 分布原理95%的双侧置信区间: XXStXStX2/05. 02/05. 0,99%的双侧置信区间: XXStXStX2/01. 02/01. 0,通式:,t/2, 是按自由度 =n-1,由附表 2 查得的 t 值。XstX,2/置信区间的两个要素: 1. 准确度:反映置信度 1- 的大小,即区间包含总体均数的概率大小。 2. 精度:反映区间的长度。在置信区间确定的情况下,增加样本例数,会减小 t, 和 ,可减少区间长度,XS提高精度。 (二)总体概率的置信区间 1. 正态近似法当样本含量足够大,且 p 和 1-p 不太小,则样本率 的分布近似正态分布。公式为:PPSZPSZP22,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号