《精编》计量资料的统计描述讲义

上传人:tang****xu2 文档编号:133415417 上传时间:2020-05-26 格式:PPT 页数:101 大小:627KB
返回 下载 相关 举报
《精编》计量资料的统计描述讲义_第1页
第1页 / 共101页
《精编》计量资料的统计描述讲义_第2页
第2页 / 共101页
《精编》计量资料的统计描述讲义_第3页
第3页 / 共101页
《精编》计量资料的统计描述讲义_第4页
第4页 / 共101页
《精编》计量资料的统计描述讲义_第5页
第5页 / 共101页
点击查看更多>>
资源描述

《《精编》计量资料的统计描述讲义》由会员分享,可在线阅读,更多相关《《精编》计量资料的统计描述讲义(101页珍藏版)》请在金锄头文库上搜索。

1、学无止境 名词解释总体随机抽样小概率事件变量 2简答题1 试述统计工作的四大步骤 2 试述统计中资料的分型原则及资料类型的特点 复习 1总体与样本 统计工作的步骤 第二章计量资料的统计描述 对一个随机事件进行重复观察 其中某变量值出现的次数被称作频数 frequency 频数分布表 frequencydistributiontable 简称频数表 frequencytable 是用于反应各变量值及其相应频数之间的关系 在观察值个数 即样本含量n 较多时 为了解一组同质观察值的分布规律和便于指标的计算 可编制频数分布表 第一节数值变量资料的频数表 一 频数表的编制以例2 1说明其编制方法 2 定

2、组段和组距 1 求全距 range 3 列出频数表 二频数表的特征 三 频数表的用途 例2 1某地1998年抽样调查了100名18岁男大学生的身高 cm 资料如下 试编制频数表 某地1998年100名18岁男大学生的身高 cm 1 求全距 range 找出观察值中的最大值与最小值 其差值即为全距 或极差 用R表示 本例最大值为183 5cm 最小值为162 9cm 则R 183 5 162 9 20 6 cm 2 定组段和组距 根据样本含量的多少确定 组段 数 一般设8 13个组段 常用全距的1 10取整做组距 R 10各组段的起点和终点分别称为下限和上限 某组段的组中值为该组段的 下限 上限

3、 2 相邻两组段的下限之差称为组距 以便于汇总和计算 注意 第一组段应包括全部观察值中的最小值 最末组段应包括全部观察值中的最大值 并且同时写出其下限与上限 本例全距20 6的1 10为2 06 取整为2 0cm即组距 2 0cm 第一组段的下限为162cm 第二组段的下限为164cm 依次类推 最末组段为182cm 184cm 如表2 1的第 1 栏 3 列出各个组段的频数表 把上述的组段序列制成表的形式 采用计算机或用划记法将原始数据汇总 得出各组段的观察例数 即频数 如表2 1的第 2 栏 将各组段 或各观察值 及其相应的频数列表即为频数表 如表2 1的第 1 2 栏 表2 1某地100

4、名18岁男大学生身高 cm 均数的频数表 Range Valuemax Valuemin Rawdata Classes groups Classinterval Range 10 Tabulation Makingthefrequencytable FlowChartofmakingaFrequencyTable 二 频数分布的特征由频数表可看出频数分布的两个重要特征 集中趋势 centraltendency 和离散程度 dispersion 例如本例 身高有高有矮 但中等身高居多 此为集中趋势 由中等身高到较矮或较高的频数分布逐渐减少 反映了离散程度 对于数值变量资料 可从集中趋势和离散程

5、度两个侧面去分析其规律性 频数分布有对称分布和偏态分布之分 对称分布是指集中位置在中央 左右两侧频数分布大致对称 如表2 1的 1 2 栏所示 若绘制成直方图 见下图 则更为直观清楚 偏态分布是指频数分布不对称 集中位置偏向一侧 若集中位置偏向数值小的一侧 称为正偏态分布 集中位置偏向数值大的一侧 称为负偏态分布 不同的分布类型应选用不同的统计分析方法 现将频数分布图示如下 频数分布类型 对称分布 频数分布 偏态分布 正偏 负偏 频数分布高峰位于中部 左右两恻的频数大体对称 高峰偏于右侧 长尾向左侧延伸 则为负偏态 高峰偏于左侧 长尾向右侧延伸 则为正偏态 SymmetricDistribut

6、ion AsymmetricdistributionSkewedtotheLeft AsymmetricHistogramsSkewedtotheRight 三 频数表的用途 可揭示频数分布类型 以便选取适当的统计方法 揭示频数分布两个重要特征 便于发现某些可疑值 特大值或特小值 便于进一步计算统计指标 第二节数值变量资料的描述性指标 一 集中趋势的统计描述指标描述一组同质观察值的平均水平或中心位置的指标常称平均数 average 平均数反映同类现象的一般水平 是总体内各单位参差不齐的标志值的代表值 也是对变量分布集中趋势的测定 常用的平均数有均数 几何均数 中位数 众数等 一 均数 mean

7、 average 算术平均数 arithmeticmean 或称为算术均数 简称为均数 是最重要的平均数 适用于对称分布资料 尤其是正态分布资料 总体均数用 表示 样本均数用X表示 根据资料情况 计算方法有直接法和加权法 1 直接法 由观察值直接计算 用于样本含量较少时 其公式为 式中 希腊字母 读作sigma 表示求和 X1 X2 Xn为各观察值 n为样本含量 即观察值的个数 例2 2某地10名18岁健康男大学生身高 cm 分别为168 7 178 4 170 0 170 4 172 1 167 6 172 4 170 7 177 3 169 7求平均身高 2 加权法 weightingme

8、thod 当资料中出现相同观察值时 可将相同观察值的个数 即频数 与该观察值X的乘积代替相同观察值逐个相加 即X1 X2 Xkf1 f2 fk其平均数的计算公式可用下式表示 对于已编制成频数表的资料 可用每组段的组中值 下限 上限 2 代替该组段观察值的实际取值 用上式计算均数 其中X1 X2 Xk或X分别表示各组段的组中值 f1 f2 fk或f表示相应组段的频数频数f为相应X的权 weight 故称加权法 例2 3计算表2 1资料的平均身高 该100名18岁健康男大学生身高的均数为172 70cm 均数的应用范围及条件 1 只能在同质的基础上 对同质的事物求均数才有意义 才能反映事物的特征和

9、其平均水平 2 均数适用于对称分布 尤其是正态分布资料 这时均数位于分布的中央 能反映观察值的集中趋势 即其平均水平 3 对于偏态分布资料 均数不能很好地反映其集中趋势 这时应改用其它指标如 几何均数或中位数来描述其集中趋势 二 几何均数 geometricmean 用G表示适用于数据经过对数变换后呈正态分布的资料 也可用于观察值之间呈倍数或近似倍数变化 等比关系 的资料 如医学实验中的抗体滴度 平均效价 某些疾病的潜伏期等 其计算方法有 1 直接法 由原始变量值直接计算几何均数 设变量值为X1 X2 Xn 几何均数G为 例2 4有6份血清的抗体效价为1 10 1 20 1 40 1 80 1

10、 80 1 160 求其平均效价 用抗体效价的倒数代入上式 求平均效价的倒数 该6份血清抗体效价的平均效价为1 45 2 加权法 当资料中出现相同观察值的个数较多时 或资料为频数表资料 则用加权法计算几何均数 变量及频数如下 符合几何均数的适用条件 X1 X2 Xkf1 f2 fk则几何平均数G为 例2 5某地面50名麻疹易感儿童接种麻疹疫苗一个月后 测其血凝抑制抗体滴 如表2 2中 1 2 栏 求平均抗体滴度 表2 250名麻疹易感儿童平均抗体滴度计算表其血凝抗体滴度的平均滴度为1 57 几何均数的应用范围及条件 1 几何均数常用于等比级资料或对数正态分布资料 如卫生事业平均发展速度 人口的

11、几何增长 抗体的平均效价等 2 资料中观察值不能有0 因为零和负数不能取对数 不能与任何数成倍数关系 3 资料中观察值不能同时有正值和负值 若全为负值 计算时先把负值去掉 得出结论后再加上负号 三 中位数和百分位数 中位数 median 把n个变量值从小到大排列 位于中间位置的变量值称为中位数 用M表示 在全部观察中 小于和大于中位数的观察值个数相等 百分位数 percentile 把n个变量值从小到大排列 第X百分位数对应的变量值称为第X百分位数 用Px表表示 一个百分位数Px将一组观察值分为两部分 理论上有X 的观察值比它小 有 100 X 的观察值比它大 中位数是一个特定的百分位数 即M

12、 P50 1 计算方法 1 直接法 将观察值由小到大排列 按下式计算 n为奇数n为偶数式中 下标 为有序数列的位次 为相应位次的观察值 例2 6某病患者9名 其发病的潜伏期 天 为 2 3 3 3 4 5 6 9 16 求中位数 本例n 9 为奇数 按式 2 6 得 天 若在例2 6基础上再继续观察 在第20天又发现1例患者 则n 10 为偶数 按式 2 7 得 X5 X6 2 4 5 2 4 5 天 2 频数表法用于频数表资料 计算步骤是 按所分组段由小到大计算累计频数和累计频率 如表2 3第 3 4 栏 确定Px所在组段 按下式求中位数M或其它百分位数Px Px所在组段的组距 Px所在组段

13、的下限 Px所在组段的频数 fL为小于L的各组段累计频数 计算中位数时 X 50 即M P50 例2 7由表2 3中 1 2 栏数据计算中位数M P25 P75 P2 5 P97 5表2 3199名食物中毒患者潜伏期的M和PX的计算本例n 199 根据表2 3第 2 栏数据 自上而下计算累计频数及累计频率 见第 3 4 栏 由第 4 栏知50 在15 1 与50 8 之间 故M在 12 组段内 将相应的L i f50 代入 2 8 求得M M P50 12 12 71 199 50 30 23 75 小时 同理 P25 12 12 71 199 25 30 15 34 小时 P75 24 12

14、 49 199 75 101 35 82 小时 P2 5 0 12 30 199 2 5 0 1 99 小时 P97 5 60 12 6 199 97 5 192 64 05 小时 2 应用 1 中位数的应用范围及条件中位数可用于描述任何分布 特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置 因为中位数不是由全部观察值综合计算出来的 它不受特大值或特小值的影响 故可用中位数描述此种类型资料的集中趋势 在对称分布的总体中 中位数和均数在理论上是相同的 在对数正态分布的总体中 中位数和几何均数在理论上是相同的 由于中位数只受居中变量值的影响 故它不够敏感 2 百分位数的应用范围及

15、条件百分位数常用于描述偏态分布资料在某百分位置上的水平和分布特征 多个百分位数结合起来使用 可以全面描述总体或样本的分布特征 包括位置大小和变异度 百分位数常用于确定医学参考值范围 一般说来 分布中部的百分位数比较稳定 具有较好的代表性 二 离散程度的统计描述指标 前已提及 频数分布有集中趋势和离散程度两个重要特征 只有把两者结合起来才能全面反映一组数值变量资料的分布特征 上述的集中趋势指标只反映一组同质观察值的平均水平或中心位置 但是生物界中普遍存在变异 即同质基础上的个体差异 还需用离散程度指标反映一组同质观察值的变异度 例如 设有三组同年龄 同性别儿童体重 kg 数据如下 甲组 2628

16、303234乙组 2427303336丙组 2629303134从该上述资料中三组数据我们可以看出 我们可分别用均数来描述这三组数据的集中位置 它们的都是30kg 这三组数据的分布特征不尽相同 这就是说各组的5个数据间参差不齐的程度 即变异度 是不一样的 或者说三组的离散度不同 这在分析资料时不能不加以考虑 离散程度指标反映一群变量值的变异程度或离散程度 常用的指标有全距 range 四分位数间距 interquartile 方差 viration 标准差 standarddeviation 和变异系数 coefficientofvariation 其中最常用的是标准差 1 全距 range 简记为R 概念和意义R 最大值 最小值反映变量值的变异范围 缺点 1 除了最大值与最小值外 不能反映组内其他数据的变异甲组 2628303234乙组 2427303336丙组 2629303134 2 样本较大时抽到较大值与较小值的可能性也较大 因而样本极差也较大 故样本含量相差较大时 不易用极差来比较分布的变异程度 2 四分位数间距 quartile 简记为Q 为上四分位数QU 即P75 与下四

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号