肾炎诊断的数学模型

资源描述

《肾炎诊断的数学模型》由会员分享，可在线阅读，更多相关《肾炎诊断的数学模型（30页珍藏版）》请在金锄头文库上搜索。

1、精选优质文档-倾情为你奉上肾炎诊断的数学模型摘要本题讨论的问题是关于肾炎监测指标的分析，我们首先对数据从整体上用求单项均值的方法进行了预处理，随后建立起以下三种模型。针对问题一，我们共用了两种模型。首先建立起Binary Logistic回归模型，得到回归方程(见5.1.2式子 )，并得出该表达式的相关系数R=0.。在假设检验中利用Excel经过F检测得出检验的临界值为，该值远小于显著水平0.05，从而验证了该方法的正确性，最后用回代法得出正确率为93.33%。我们的第二种模型是费希尔判别模型，该模型得出的正确率也为93.33%。两种模型正确率相同，均可以作为判别属于患者或健康人的方法。针对

2、问题二，我们利用问题一中两种模型得出的公式将待测30组数据代入，得出结果均为：15个为肾炎患者，15个为健康人。（详细结果见附录三）针对问题三，我们也建立了两种模型。首先建立多元线性回归模型，利用Excel的6SQ软件，得出了各项元素的显著性水平。根据显著性依次剔除了式子中的部分元素并用回代法进行了相关性检验。最终得出结论为剔除Na、Zn、K时所得模型最优，得到回归方程（见7.1.2式子），并求出回归系数R=0.，标准误差为0.，回代后准确率为93.33%，误判为第32,33,38,60号。同时用主成分分析法结合费希尔判别模型得出误判结果相同。针对问题四，我们利用问题三中两种方法得出的公式分别

3、将待测30组数据代入，得出结果：线性回归法有14个肾炎患者，16个健康人。成分分析法有13个肾炎患者，17个健康人。（详细结果见附录四）针对问题五，我们将问题二和四的结果进行比较发现差别在于68,71,77号。无论是何种模型和方法最终分析得出结论：由于诊断准确率基本不变，减少了三种元素Na、Zn、K的检测，则诊断效率大大提高而且为病人节约了成本和时间，所以问题二方法比问题四方法更优。关键词：多元线性回归主成分分析法 logistic回归模型费希尔判别模型1问题重述1.1问题背景随着我国人口老龄化问题的日益显现，肾炎已经成为一种在中老年人群中比较流行的疾病。能否及时诊断出肾炎，对于该病的治

4、疗起着至关重要的作用。因此，对于“如何对肾炎进行诊断”问题的研究，引起了相关方面的高度重视。努力让每一个肾炎患者都能“早发现，早治疗，早康复”是每一个医院的职责。其中，对化验结果的检测分析是诊断该病的最直接途径。建立相关的数学模型来研究“如何用最少的化验指标来确诊肾炎患者”已经成为解决该问题的主流方法。1.2需要解决的问题人们到医院就诊时，通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果，其中130号病例是已经确诊为肾炎病人的化验结果；3160号病例是已经确诊为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是：1.根

5、据表B.1中的数据，提出一种或多种简便的判别方法，判别属于患者或健康人的方法，并检验你提出方法的正确性。2.按照1提出的方法，判断表B.2中的30名就诊人员的化验结果进行判别，判定他（她）们是肾炎病人还是健康人。3.能否根据表B.1的数据特征，确定哪些指标是影响人们患肾炎的关键或主要因素，以便减少化验的指标。4.根据3的结果，重复2的工作。5对2和4的结果作进一步的分析。2模型的假设及符号说明2.1模型假设假设1：假设题目中所给的60组数据时随机抽取的，数据之间是互相独立的假设2：假设所给病人都只患肾炎一种病，而不患其它病假设3：假设题目中所给的7中元素在人体内含量是互相独立的，互相之间没有影

6、响假设4：假设题目中所给的数据都是真实可靠的，化验没有错误假设5：假设所给的7中元素在不同健康人体内部含量基本相同，体重的影响可以忽略不计假设6：假设我们通过7中元素在人体含量就可以确诊，其它因素可以忽略2.2符号说明符号说明i=1,2,3,4,5,6,7分别表示Zn、Cu、Fe、Ca、Mg、K、Na的含量i=0,1,2,3,4,5,6,7,8表示回归方程的系数y=0表示健康人；y=1表示患者i=1,2,3,4,5,6,7;j=0,1.表示第i中元素在健康和患者体内平均含量j=0表示健康人；j=1表示患者回归平方和残差平方和总离差平方和统计量Logistic变换3问题分析此题研究的是医院关于肾

7、炎确诊的数学建模问题。要求我们通过建立合理的数学模型，研究不同元素在人体含量，确定人体是否患病。通过对题目中所给的30组健康人和30组患者人体7中元素含量分析我们发现，就诊者是否患肾炎可能取决于人体内某些元素的含量增减或各元素占总元素比例变化。因此，我们可以建立相应的回归方程来研究，患病与否与人体元素含量的关系。在运用相关性检验我们的假设。针对问题一：由于logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率等等。因此，问题一我们建立logistic回归模型，研究患肾炎与否与人体相关元素含量的关系。再通过假设检验验证我们建立模

8、型的合理性、正确性。运用我们建立的模型对题目所给的60组病例验证其准确率。针对问题二：我们运用问题一中建立的模型，对B.2中所给的30个就诊人员是否患病进行判定，求出对应的p值和0.5比较，对于0.5表示患病，小于0.5表示健康，求解结果以表格呈现。针对问题三:问题一中我们已经求出对应的回归方程，以及标准差等，知道元素的显著关系由强到弱关系为Ca,Cu,Fe,Mg,Na,Zn,K。对于显著关系较强的Ca,Cu,Fe不予剔除，逐步考虑剔除4种，3种，2种，1种元素。每剔除一次，计算剔除后的模型准确率。在准确率基本不变的情况下，剔除元素越多越好。这样我们保留了重要因素，又不影响模型合理性。针对问题

9、四：我们运用问题三中剔除相关元素后的模型对对B.2中所给的30个就诊人员是否患病进行判定，求出对应的p值和0.5比较，对于0.5表示患病，小于0.5表示健康，求解结果以表格呈现。针对问题五：对问题二和问题四的结果先进行定量分析，找出求解结果差异的本质原因，再考虑其他因素对模型结果的影响，最后从经济层面分析，模型的优劣。4数据分析与处理我们通过分析所给的60组数据，绘制各种元素在健康人与患者体内含量对比健康的与患病的人体内相关元素平均值绘制表格如下：表1ZnCuFeCaMgKNa患者体内每种元素的平均值143.112.3323.07698.17113.39201.13526.83健康人体内每种元

10、素的平均值186.621.9262.012511.13295.1490.37367.21绘制成对比图如下分析图可知:患者与健康人Ca的含量差距较大。5问题一的解答我们共建立了两种模型：Binary logistic 回归模型和费希尔判别模型5.11模型一Binary logistic 回归模型的建立从上面的分析可知，我们建立模型求解结果只有患病和健康两种。由于logistic回归，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率。由此，我们考虑运用Logistic回归模型。Binary Logistic回归模型因变量只能取两个值1和0(虚拟因变量

11、)，我们采用多种方法对取值为0和1的因变量进行分析。以y表示事件发生的概率(事件未发生的概率为1-p)，并吧y看作自变量的线性函数p的值在0,1变化，由于当p接近0或1时，自变量即使有很大变化，p值也不可能有很大变化，所以上式直接用普通的最小二乘法是行不通的。我们引入p的logistic变换其中p/(1-p),logit(p)是因变量Y=1的差异比，可得综上所述，我们建立Binary Logistic回归模型5.1.2模型一Binary logistic 回归模型的求解我们假设各元素的含量与是否患病之间满足线性相关关系。定义y=1表示患病；y=0表示健康。我们将题目中所给的数据导入Excel

12、中，利用Excel中的回归函数，选择95%的置信度，得到回归统计量、方差分析、回归方程。回归统计量：回归系数R0.回归系数R平方0.调整了的R平方0.标准误差0.截距0.观测值60其中R为相关系数，可以衡量X与Y之间的相关性大小。本题求得R=0.表示X与Y之间高度正相关，即有：患病与否与人体各种元素含量高度相关。回归参数表系数标准误差t统计量t临界值p值置信区间下限置信区间上限截距0.0.4.2.1.07256E-050.1.X1-0.0.-0.2.0.-0.0.X20.0.4.2.0.0.0.X3-0.0.-1.2.0.-0.9.93816E-05X4-0.6.25484E-05-4.2.1

13、.3308E-05-0.-0.X5-0.0.-1.2.0.-0.0.X6-6.607E-050.-0.2.0.-0.0.X70.0.1.2.0.-0.0.由上表可知:b0=0.,b1=-0.,b2=0.,b3=-0.,b4=-0.,b5=-0.,b6=-6.607E-05,b7=0.回归方程为：(1.1)5.1.3假设检验（方差分析和F检验）因自变量与自变量是否存在上述求出的回归表达式所示的线性关系是需要检验的，显然，如果所有的的都很小，与的线性关系就不明显，所以可令原假设为当成立时满足在显著水平下有上分位数，若，则接受；否则，拒绝。经代入数据计算得到结果如下表所示：自由度平方和平均平方和F统

14、计量F临界值p值回归710.1.15.2.7.36569E-11剩余524.0.总计5915有F检验，在显著水平下F的临界值为7.36569E-11远小于显著水平0.05，并且F统计量F(1,5)=6.61说明我们求解得到的回归方程回归效果明显，多元线性回归拟合得很好。所以，我们接受各元素的含量与是否患病之间满足线性相关关系这一假设。所以，我们建立的模型是合理可靠的。5.1.5模型一Binary logistic 回归模型结果及分析我们运用所建立的Binary logistic 回归模型对题目题目中所给的60组数据进行验证，发现60组数据中只有4组数据得出的结果与实际不同。分别是第32,38,39,60(具体数据见附录一)。验证后我们发现准确率达到了93.33%。相关程序见附录二5.21模型二费希尔判别模型的建立基本思想：从两个总体中抽取具有个指标的样品观测数据，借助方差分析的思想造一个判别函数或称判别式：其中系数确定的原则是使两组的区别最大，而使每个组内的离差最小。有了判别式后，对于一个新的样品，将它的个指标值代入判别式中求出值，然后与判别临界值进行比较，就可以判别它应属于哪一个总体。确定判别函数：此时最优的线性判别函数为：两组间离差平方和越大越好，两个组内的离差平方和越小越好。记为两组间离差平

展开阅读全文