冠心病与年龄

上传人:M****1 文档编号:463960656 上传时间:2023-03-18 格式:DOC 页数:9 大小:415KB
返回 下载 相关 举报
冠心病与年龄_第1页
第1页 / 共9页
冠心病与年龄_第2页
第2页 / 共9页
冠心病与年龄_第3页
第3页 / 共9页
冠心病与年龄_第4页
第4页 / 共9页
冠心病与年龄_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《冠心病与年龄》由会员分享,可在线阅读,更多相关《冠心病与年龄(9页珍藏版)》请在金锄头文库上搜索。

1、10.6 冠心病与年龄问题 冠心病(Coronary Heart Disease,简称CHD)是一种常见的心脏疾病,严重地危害着人类的健康。到目前为止,其病因尚未完全研究清楚,医学界普遍认同的、重要的易患因素是 、高血脂、高血压、糖尿病、动脉粥样硬化及家族史等。多项研究表明,冠心病发病率随着年龄的增加而上升,在冠心病的流行病学研究中,年龄也是最常见的混杂因素之一。 为了更好的说明冠心病发病率与年龄的关系,医学家们对100名不同年龄的人进行观察,表1中给出了这100名被观察者的年龄及他们是否患冠心病的数据(其中冠心病一栏中,1代表被观察者患冠心病,0代表不患冠心病)。本节的目的是根据这些数据建立

2、数学模型,来分析冠心病发病率与年龄的关系,并进行统计预测。 表1 100名被观察者的年龄与是否患冠心病的观察数据序号年龄冠心病序号年龄冠心病序号年龄冠心病序号年龄冠心病120026350514417655122302735052441775613240283605345078561425029361544517956152513036055460805706260313705646181570726032371574708257182803337058470835719280343805947184571102903538060480855711130036390614818658012300

3、373916248187581133003840063490885811430039401644908959115300404106549190591163014141066500916001732042420675019260118320434206851093611193304442069520946212033045421705219562121340464307153196631223404743072531976402334148431735419864124340494407455099651253405044075551100691 分析与假设 假设这100名被观察者是独立选取的

4、,记x为被观察者的年龄,Y为被观察者患冠心病的情况(Y=1表示患冠心病,Y=0表示未患冠心病),显然Y是一个01变量。利用表1的数据作出Y对x的散点图(见图1)。 从图1容易看出,直接对上述数据建立像前面几节那样的回归模型是行不通的,需要对数据进行预处理。数据预处理的一种方法是将被观察者按年龄进行分组,并统计各年龄段中患冠心病的人数,及患病人数占该年龄段总人数的比例(以下简称患病比例)。为方便起见,我们将年龄分成8个年龄段,分段后的数据见表2。表2 各年龄段的冠心病人数及比例年龄段年龄段中点人数患冠心病人数患病比例202924.51010.13034321520.133539371230.25

5、4044421550.334549471360.46505452850.6355595717130.76606964.51080.80合计100430.43为考察患病比例与年龄的关系,首先根据表2数据做出患病比例对各年龄段中点的散点图(见图2,为方便起见,散点的横坐标均简单地取各年龄段的中点)。从图2可以看出,冠心病患病比例随年龄的增大而递增,大致是一条介于0与1之间的S型曲线,这条曲线应该怎样用回归方程来确定呢?表1和表2中的患病比例实际上就是年龄为x时(以下均取年龄段的中点)Y的平均值,用(条件)期望的符号记作 y = E(Y|x) (1)患病比例y是年龄x的函数,其取值在区间上。如果用普

6、通的方法建立回归方程,那么很容易求得其线性回归曲线或更接近与S型曲线的3次多项式回归曲线(分别见图3和图4),其回归模型的形式为 y = (2)其中随机误差服从均值为0的正态分布,特别地,当时为线性回归模型。然而在这个问题中,(2)式回归方程中y的取值不一定在中,进一步说,即使y的值在中,由于在给定x时,误差项也只能取0,1两个值,显然 不具有正态性,而且的方差依赖于x,具有异方差性,这些都违反了普通回归分析的前提条件。因此,当Y为一个二分类(或多分类)变量而不是连续变量时,用前几节介绍的基于最小二乘法的回归分析是不合适的,需要用到新的回归模型。logit模型 下面用(x)表示年龄为x的被观察

7、者患冠心病的概率,即 (3)显然 Y 的(条件)期望为 E(Y | x)=(x),(条件)方差为D(Y | x)= 由(1)式可知,(x)即为该年龄段的患病比例y. 为了寻求患病比例(x)与年龄x之间、形如图2的S型曲线的函数关系,并注意到(x)在区间取值,可以建立如在第5章、第7章多次用到的logistic模型 (4)(4)的反函数写作 (5)(5)式左端可看作的交换,记作,称为模型或回归模型。当在取值时,取值为。在数据预处理上时,将被观察者的年龄分成k=8组,记第组()年龄为,被观察人数为,患病人数为,每位被观察者患病概率为,这时模型具有如下形式: (6)其中是回归系数。合理地设服从二项分

8、布可用最大似然法估计得到。模型求解 模型是一种广义线性模型(Generalized Linear Model),可利用MATLAB统计工具箱中的命令求解,通常的使用格式为: b=或其中输入x为自变量数据矩阵,缺省时会自动添加一列1向量作为x的第一列;y为因变量数据向量,为估计系数时所用的分布,可以使等,缺省时为;特别当取binomial时,y可取一个2列矩阵,第一列为观察“成功”的次数;link取模型见下面)等,缺省时为输出b为回归系数的估计值;dev为拟合偏差,是一般的残差平方和的推广;stats输出一些统计指标,详见MATLAB的帮助文件.用表2的数据输入并执行以下的程序:Age=24.5

9、 32 37 42 47 52 57 64.5;1 2 3 5 6 5 13 8;Total=10 15 12 15 13 8 17 10;得到模型中的参数,的最大似然估计值与它的标准差(见表3)拟合偏差为0.524 2.图5给出了logistic回归曲线和散点图。利用命令=还可以给出自变量为x时因变量y的预测值及置信度为95的置信区间,结果如表4. 表4 患病比例的预测值与预测区间年龄段年龄x患病比例预测值置信区间202924.50.10.07833034320.130.15743539370.250.24004044420.330.34814549470.460.47445054520.6

10、30.60415559570.760.7207606964.50.800.6855模型评价与结果分析 首先我们看到模型(5)的右端是年龄x的线性函数,如果加入x的二次项后,是否能显著地提高模型的拟合程度呢,即考虑模型 为了检验是否需要引入项,在回归中要用似然比检验统计量.执行程序 Total,计算得到的估计值分别为-5.350 6,0.119 4和-0.000 2,p值为0.937 1,表示模型中引入x项并不能显著提高拟合程度。其次,处理这类问题的另一种广义线性模型是模型,其形式为 (8) (9)其中是正态概率分布函数,它也是s型曲线,利用MATLAB统计工具箱中的命令求解时,只需将改为即可。

11、用表2数据计算得到模型系数的估计值分别为-2.993 3和0.624 4,标准差分别为0.601 1和0.12 8,拟合偏差为0.652 9.与模型的结果比较见表5,拟合曲线比较见图6,可以发现这两个模型的拟合程度不相上下。 表5 模型与模型的比较年龄段年龄患病比例预测值(logit)预测值(probit)置信区间(logit)202924.50.10.07830.07150.028 2,0.199 23034320.130.15740.15950.078 8,0.289 83539370.250.24000.24690.146 1,0.368 34044420.330.34810.35480.245 8,0.466 64549470.460.47440.47590.362 5,0.589

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号