卫生统计学第八版第二章数据关联的探索

上传人:sh****d 文档编号:115642627 上传时间:2019-11-14 格式:PPT 页数:62 大小:21.78MB
返回 下载 相关 举报
卫生统计学第八版第二章数据关联的探索_第1页
第1页 / 共62页
卫生统计学第八版第二章数据关联的探索_第2页
第2页 / 共62页
卫生统计学第八版第二章数据关联的探索_第3页
第3页 / 共62页
卫生统计学第八版第二章数据关联的探索_第4页
第4页 / 共62页
卫生统计学第八版第二章数据关联的探索_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《卫生统计学第八版第二章数据关联的探索》由会员分享,可在线阅读,更多相关《卫生统计学第八版第二章数据关联的探索(62页珍藏版)》请在金锄头文库上搜索。

1、 张菊英 四川大学 王锡玲 复旦大学 第二章 数据关联的探索 目录 第一节:数据的关联 第二节:散点图 第三节:相关 第四节:回归现象 第五节:相关与回归的陷阱 01 02 03 04 05 06 07 第六节:分类变量的相关 第七节:关联与因果 重点难点 散点图的应用 正确描述不同类型数据的相关关系 直线回归的正确应用 回归方程的建立、解释与评价 关联和因果的判断 第一节 数据的关联 1. 在研究学习努力程度与学习成绩的关联时,这里涉及的两个 变量分别为学习努力程度和学习成绩,我们需要考虑几个问题 : (1)学习努力程度与学习成绩是否存在关联,是什么关联方向, 关联强度多大。 (2)努力学习

2、能在多大程度上提高学习成绩。 (3)两者的关联可能受到其他一些因素的影响或干扰,比如学校 的教学质量。 第一节 数据的关联 2. 统计学上定量描述两变量的关联时需考虑: (1)两变量是否真的存在关联。 (2)两变量的关联方向和关联强度。 (3)两变量间的数量依存关系。 (4)两变量的关联关系中是否受到其他因素的影响和干扰。 第一节 数据的关联 第二节 散点图 1. 制作散点图 利用平面坐标显示两个定量变量之间的关系,其中一个变量对应横轴,另一个 变量对应纵轴,根据每个观测单位的两个变量值可确定该点的坐标。 例1 脱氧雪腐镰刀菌烯醇(deoxynivalenol,DON)是粮食中常见的一类污染性

3、真 菌毒素。为了探索粮食中DON含量与患者骨关节炎得分 (osteoarthritis points, OAP)的关系,在主食面粉和大米的地区测量患者骨关节炎得分,并测量主食样 品中DON含量(g/g),数据见下表,绘制散点图。 (一)图的解释 第二节 散点图 (一)图的解释 第二节 散点图 38名大骨节病患者OAP(分)与粮食中DON含量(g/g) 患者编号DON 含量OAP 患者 编号 DON 含量OAP 患者 编号 DON 含量OAP 1 0.0014.1514187.897.2027289.5411.18 2 0.0011.1315 74.789.2728306.3119.10 3 0

4、.007.2516 74.6714.1029327.2311.15 4 0.005.1917 86.099.2630358.3211.13 5 0.004.1518 75.892.2031389.2219.12 6 0.003.2919116.335.2732419.3520.05 7 0.002.2620128.585.2633426.8521.33 8 0.000.0121178.429.1934426.9019.18 9 28.763.2722177.3813.2435458.0417.09 10 48.543.3423204.6316.1536468.3420.01 11 57.944

5、.2824215.9914.1637577.5224.24 12 69.187.2025206.900.0338588.9519.06 13225.4114.1626247.295.17 (一)图的解释 第二节 散点图 患者OAP和粮食中DON含量的散点图 2. 评价散点图 (1)观察图的总体趋势和明显偏离该趋势的观测单位。 (2)通过散点图的总体趋势来呈现关联的形式、方向和密切程度。 (一)图的解释 第二节 散点图 第二节 散点图 (一)图的解释 3. 散点图解释 (1)散点呈现线性趋势。 (2)两变量同时增大或减小,即呈正相关 。 患者OAP和粮食中DON含量带直线的散点图 第三节 相关

6、(一)直线相关系数 第三节 相关 。 大骨节病中OAP和DON含量的相关系数的计算如下: (一)直线相关系数 第三节 相关 (一)直线相关系数 第三节 相关 (一)直线相关系数 第三节 相关 不同r值的线性关系示意图 (一)直线相关系数 第三节 相关 (二)秩相关系数 第三节 相关 例 2 缺铁性贫血是儿童常见营养性疾病之一,其高发在 6 个月至 2 岁。现研究农村地区 贫血状况,关注某村 21 例 6 个月1.5 岁患儿的血红蛋白含量与贫血体征的关系,其中贫 血体征分为:阴性(-)、出现(+)、中度(+)、重度(+),具体数据见下表,现对二者做相关 分析。 (二)秩相关系数 第三节 相关 患

7、儿 编号 血红蛋白含量 x 秩次 p 贫血 体征y 秩次 q 患儿 编号 血红蛋白含量 x 秩次 p 贫血 体征y 秩次 q (1)(2)(3)(4)(5)(1)(2)(3)(4)(5) 1501+20.512859.5+16.5 2583+16.513665+11.5 3614+11.514103 15-5 4738-515522+20.5 58811+16.51693 13-5 69112+16.517676+11.5 711116-518118 17-5 812318-519859.5+16.5 913520-520129 19-5 1013821-521727+11.5 119614+

8、16.5合计231231 贫贫血患儿的血红红蛋白含量(g/L)和贫贫血体征 (二)秩相关系数 第三节 相关 最后,需要特别注意的是,相关不区分解释变量和反应变量。 第四节 回归现象 (一)回归直线的拟合 第四节 回归现象 (一)回归直线的拟合 第四节 回归现象 (一)回归直线的拟合 第四节 回归现象 例 2 续 已知例 2 数据中 38 个对象骨关节炎得分 OAP(y)和粮食中 DON 含量(x)的均数和标准差及两变量之间的相关系数,通过最小二 乘法得到的回归直线的斜率为 (一)回归直线的拟合 第四节 回归现象 截距 最后得到回归直线的方程为 3. 注意事项 (1)理清相关系数和斜率之间的关系

9、,从计算公式、数量关系和 实际意义等方面。 (2)回归中需要明确区分反应变量和解释变量。 (一)回归直线的拟合 第四节 回归现象 (二)回归方程的解释和残差 第四节 回归现象 (二)回归方程的解释和残差 第四节 回归现象 图所示是书中例2-1和例2-4数据回归分析后的散点图,可见左图数据点无规律散布 于0水平线周围,说明拟合效果尚可,而右图散点呈现U型散布,说明拟合效果不佳 。 (二)回归方程的解释和残差 第四节 回归现象 例2-1和例2-4散点图 3. 注意事项 (1)最小二乘法回归直线的斜率和截距取决于测量值的单位,不 能仅凭它们的大小判断其影响大小。 (2)用回归直线进行预测时,需注意回

10、归直线概括了整体趋势, 给出的预测值也是对整体趋势的一个预测,并不一定完全准确。 (二)回归方程的解释和残差 第四节 回归现象 (三)决定系数与相关 第四节 回归现象 第五节 相关与回归的陷阱 (一)离群点与强影响点 第五节 相关与回归的陷阱 (二)观测值范围 第五节 相关与回归的陷阱 有些时候通过散点图,我们发现两变量间存在某种趋势,但是 这种趋势不是线性的。这时可以采用数据转换将非线性数据转 换后得到线性关联 。 (三)非线性关联 第五节 相关与回归的陷阱 例3 某环境检测部门测得某地距污染源的距离和中心线上大气中氰化物平均浓度(在不同时点 测量各点的氰化物浓度并计算各点平均值),数据如表

11、所示。排放源下风向中心线上的平均浓 度随距离的增大而减小,最高值在中心线50 米附近。用恰当的回归方程反映中心线上氰化物平 均浓度随距污染源的距离变化而变化的关系。 (三)非线性关联 第五节 相关与回归的陷阱 点编号距污染源距离氰化物平均浓度点编号距污染源距离氰化物平均浓度 1500.681121880.254 2630.559132000.177 3750.489142130.163 4880.472152250.133 51000.453162500.112 61130.443172750.120 71250.352183000.097 81380.301193250.088 91500.

12、269203500.057 101630.258213750.043 111750.231224000.033 某地距污染源的距离(m)和中心线上大气氰化物平均浓度(mg/m3)数据 (三)非线性关联 第五节 相关与回归的陷阱 中心线上大气氰化物平均浓度与距污染源距离的散点图(A)和残差图(B) (三)非线性关联 第五节 相关与回归的陷阱 在图 (A)中我们可以观察到随距污染源距离增加,中心线上的大气氰化物平均浓度的改 变速度越来越小,图(B)为相应的残差图,其结构所描述的是简单直线关系的残差形态, 图 (B)整体上呈曲线并表现出一定的规律,所以判断直线回归不适合此据。 这里将原始值进行对数转

13、换(log transformation)后,替代原始值进行分析,如下图。 中心线上大气氰化物平均浓度与距污染源距离对数值的关系 探索两变量间的关联性时,单独分析发现存在关联或无关联, 但以变量的某种属性进行分层分析即引入第三变量分层时,再 分析原来两个变量的关系,原有的关联会在某些层内发生某些 变化甚至方向相反,这个第三变量就是潜在影响变量。 (四)潜在影响变量 第五节 相关与回归的陷阱 例2续 根据大骨节病发生情况将地区分为:东部(开始监测时病情很平稳,在 17 年的监测过程中没有大的变化),中部(开始监测时病情较严重而活跃,但在监测 过程中持续下降,其间无明显反弹)和西部病区(甘肃、陕西

14、、青海和西藏地区, 其特征为病情严重而活跃),进一步可探讨东中西三个地区的粮食中 DON 含量的 关系(数据见下表),增加区域信息后的数据如下: (四)潜在影响变量 第五节 相关与回归的陷阱 (四)潜在影响变量 第五节 相关与回归的陷阱 患者编号地区 DON含量OAP患者编号地区DON含量OAP患者编号 地区 DON含量OAP 1东0.0014.1515中74.789.2726西247.295.17 2东0.0011.1316中74.6714.1027西289.5411.18 3东0.007.2517中86.099.2628西306.3119.10 4东0.005.1918中75.892.20

15、29西327.2311.15 5东0.004.1519中116.335.2730西358.3211.13 6东0.003.2920中128.585.2631西389.2219.12 7东0.002.2621中178.429.1932西419.3520.05 8东0.000.0122中177.3813.2433西426.8521.33 9东28.763.2723中204.6316.1534西426.9019.18 10东48.543.3424中215.9914.1635西458.0417.09 11东57.944.2825中206.900.0336西468.3420.01 12东69.187.2

16、0 37西577.5224.24 13东225.4114.16 38西588.9519.06 14东187.897.20 38 名大骨节病患者 OAP(分)与粮食中 DON 含量(g/g) 由图看出中部地区和西部地 区总趋势为上升趋势,但是东部 地区的关联则不明显,且观察点 集中在 OAP 和粮食中 DON 含 量都较低的区域。 (四)潜在影响变量 第五节 相关与回归的陷阱 不同地区患者 OAP 和粮食中 DON 含量的散点图 平均数的相关潜在影响变量 基于大量个体平均值的相关强度通常要高于基于相同变量 的个体数据之间的相关强度。因此,在进行分析时应谨慎对 待,以免导致结果偏差。 (五)平均数的相关 第五节 相关与回归的陷阱 第六节 分类变量的相关 例4 为了解某市2岁6岁儿童维生素D的营养状况,对该市3582名2岁 6岁儿童血清25(OH) -D水平进行检测,具体数据见交叉表。适用于 两变量均为分类变量时。 (一)交叉表的制作 第六节 分类变量的相关 是否缺乏维生素D男女合

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号