乳腺癌数据的处理

上传人:m**** 文档编号:564785122 上传时间:2024-02-03 格式:DOCX 页数:22 大小:7.36MB
返回 下载 相关 举报
乳腺癌数据的处理_第1页
第1页 / 共22页
乳腺癌数据的处理_第2页
第2页 / 共22页
乳腺癌数据的处理_第3页
第3页 / 共22页
乳腺癌数据的处理_第4页
第4页 / 共22页
乳腺癌数据的处理_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《乳腺癌数据的处理》由会员分享,可在线阅读,更多相关《乳腺癌数据的处理(22页珍藏版)》请在金锄头文库上搜索。

1、科技学院第十一组:刘晶晶 向雄峰余 涛乳腺癌的判别数学模型摘要本文解决的问题是利用9项指标,综合来判别乳腺肿瘤是良性还是恶性。我们通过初步数据分析,得出各个指标与肿瘤良恶性存在一定的线性关系,于是我们建立了多元线性回归模型。对于问题一,我们先将附录表一中-0组数据运用ATLAB中回归分析命令regres作初步的回归分析。根据所得的残差及其置信区间图,我们将其中组离群点予以剔除。然后将余下的54组数据运用Exe作回归分析,由回归统计表中可以得出回归方程中常量和各个系数,由此可以得到判别乳腺癌是良性还是恶性的多元线性回归方程:同时依据得到的回归统计、方差分析、残差分析等数据作出检验,检验,来衡量线

2、性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好,均一致认为所建立的多元线性回归模型的回归效果显著,于是我们认可所得的多元线性回归方程可以依据9项指标来判别乳腺肿瘤是良性还是恶性。最后我们再将表一中6-78组数据回代入上述多元线性回归方程,经由计算分析得出所得的回归方程判别乳腺肿瘤是良性还是恶性的正确率高达1,预测能力显著,明显可以看出所得到回归方程判别乳腺肿瘤是良性还是恶性方法是合理正确的。至此我们得到了依据9项指标综合判别乳腺肿瘤是良性还是恶性的方法:将待判别病例的9项指标的数据代入回归方程,计算出的估计值,并对其值作四舍五入取整,肿瘤是良性; ,肿瘤是恶性。对于问题二,将

3、附录表二中20组需要判别的病例的数据代入模型一中所得回归方程中计算出的估计值,依据问题一的判别方法判别得出20个病例中第1,4,5,,10,11,15,19组共个病例是恶性肿瘤,余下12个病例是良性肿瘤。对于问题三,回归参数表中回归系数的统计量的线性系数显著性值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化的线性回归模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。作逐步回归分析后,最终所得结果为:乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核

4、、正常的核仁、有丝分裂是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,得到最优化的回归模型为:关键词:多元线性回归模型逐步回归 显著性水平检验211. 问题重述全世界每年约有10万妇女患乳腺癌,5万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。下面是某医院乳腺肿瘤患者的一组数据见附录一表一,其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为到1之间的自然数。问题一、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性

5、” 还是“恶性”的方法,并检验你提出的方法的正确性。问题二、现有一组乳腺肿瘤患者的九个指标数据见附录一表二,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”。问题三、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。2 模型的假设与符号说明.1模型的假设假设1:题目所给数据是合理、正确的。假设2:假设表中给出化验数据科学可信。确诊病例确诊情况(患病、健康)准确无误。假设3:假设各位被测患者无其他疾病,不会干扰被测数值。假设:假设医生不会仅仅依靠化验结果对患病情况作

6、出最终判断,化验仅仅作为医生诊断的一种辅助手段,所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。假设5:题目中给出的原始数据有两组无效,将其舍去认为对解题无影响。2.2符号说明乳腺肿瘤肿块的厚度指标;细胞大小的均匀性指标;细胞形状的均匀性指标;边缘的粘连指标;单层上皮细胞的大小指标;裸核指标;温和的染色质指标;正常的核仁指标;有丝分裂指标;诊断结果;诊断结果估计值;回归常数;回归系数;回归常数估计值;回归系数估计值;随机误差项;显著性水平;总变差平方和;残差平方和;回归平方和;被分析数据的组数;第个指标作显著性水平检验;偏回归平方和;3. 问题分析此题研究的是医学上常用几个指标来综合判

7、别乳腺肿瘤是良性还是恶性的数学模型。针对问题一,题目要求我们提出判别方法,依据9项指标的数据,判别肿瘤病例是良性还是恶性。我们根据所提供的已确诊的病例中分析得知,肿瘤病例是良性还是恶性与各项指标呈相应的线性关系,我们初步提出否能通过病例样本中肿瘤病例是良性或恶性与各项指标来建立回归模型,再验证模型正确性后由模型来判别病例。因此,我们先选取其中一部分数据进行研究,待建立模型后,将剩余的数据代入模型检验。针对问题二,题目要求我们利用问题一中提出的方法,对表二中的20个待判别的病例进行判别。我们分别将各元素的含量输入到在问题一建立的模型中,求出对应的值,然后和0、进行比较,判别出哪些患者的肿瘤是良性

8、,哪些患者的肿瘤是恶性。针对问题三,题目要求我们根据已知数据确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,并采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。4. 数据分析在初步的数据分析下,肿瘤的良恶性与各指标间的关系还无法得到确定,这无疑给以后数学模型的建立和求解带来了不便。对于题目给出的化验结果,在一般情况下,都希望能对它们进行数据的规范化处理。以下9张图是肿瘤

9、良性患者和肿瘤恶性患者各个指标的坐标图,以及存有相关数据的表格,通过这些图我们可以发现,各个指标对应数与乳腺肿瘤是良性还是恶性诊断具有一定的线性对应关系,我们设想,可以用构建线性回归模型的方法来解决此问题。因此我们选择多元统计分析中利用 exe中的回归工具建立回归模型,计算出该线性方程的常量和系数,从而完成模型的初步建立。同时,我们也看到,在图中的一些点的规律性并不明显,因此我们猜测,可以在构建的方程中忽略一些因素的影响,这就为我们提出简化模型提供了思路。回归参数表中回归系数的统计量的值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,以此为衡量的标准来筛选9项相关指标,保

10、留其中的主因项,去除非主因素的干扰,重新构建模型,以达到简化模型和提高精度的目的。5. 问题一的解答针对问题一我们建立了模型一。5.模型一的建立考虑多元一次线性回归模型,我们从总体中选取160号病例作为研究样本,以各项指标为自变量;肿瘤的良恶性为因变量。设多元线性回归模型的一般形式为:(1)其中:因变量,为9个对有显著影响的自变量,是10个待估参数,是随机误差项。.模型一的求解对于组实际观察数据,由(1)式得:()根据()式多元线性回归模型可表示为: ()令模型的相应矩阵方程表示为: (4)由()式解得: (5)且 (6)其中:当时,表示肿瘤为良性;当时,表示肿瘤为恶性。我们将样本数据代入()

11、式,利用MAB(求解源程序见附录)软件,用matlab对数据进行初步运算,从残差及其置信区间图找出应6组离群点予以剔除,再用el中回归命令对剩下的5组数据组进行分析,得到回归统计表,从而得出较为精确的结论,建立起模型。残差及其置信区间图回归统计MultileR0253R quar0.9072Aduted Squre.8836标准误差0.18观测值54方差分析dSFSgifcanceF回归分析912.22021.3513.8618.7E-0残差441.24630.02837总计313.4818Coefcint标准误差tStP-valueLower95%ppe95下限 90%上限950%Itcep

12、t-0.28500735-5733778.3-7-0.407-.213-0.444070238Varble 1060750.011785.151135.8400.0966.084.03960.043X Variable 2-.0821202772-9568900820.89-0.0215-0.10-0.02615X Varial30105840.080613.781700480.04280.6920.042706239X Varible 40.01509.019921.1936810.2390.01060.04169-0.0068.0463X Vriab 50.010300.012101540

13、.581170.05810.46424-0.2810.46424X Vrabe.0290.090074.673476.81E-.02394.0602440.2390.6044X Vrale 70.6850019810.504026440.3860.0416260038260.41626Varable 80031940011292830630.0970.00906.054721.0920600521XVaiale9.381.026731.662901051-00068.07345-00698007635求得各参数的线性回归系数分别为:则多元线性回归方程为: ()5.3模型一的检验.3.1对回归方程进行显著性的检验R检验法 (8)则 (9)R接近于1,说明线性回归拟合效果显著;检验法提出假设: 线性关系不显著 线性关系显著计算检验统计量: , (11)代入数据得: 查分布表表知 因为非常接近1,同时远大于,故拒绝,认为在显著性水平

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号