数学建模中的统计分析问题(样本比较-置信度评估)

资源描述

《数学建模中的统计分析问题(样本比较-置信度评估)》由会员分享，可在线阅读，更多相关《数学建模中的统计分析问题(样本比较-置信度评估)（21页珍藏版）》请在金锄头文库上搜索。

1、编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：赛区评阅记录（可供赛区评阅时使用）：评阅人评分备注全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：白血病临床治疗的统计分析问题摘要一、问题重述为研究某药物6-MP是否有治疗以缓解病痛的作用，研究者在持续1年的急性白血病治疗的临床试验中，将42位急性白血病患者（进入项目的时间有先后）随机地分成两组（各21人）。对一组病人用药物6-MP治疗以缓解病痛，而另一组病人用安慰剂。安慰剂的外形和颜色与药物完全相同，但不含任何药物，病人自己并不知道实际服用的是药物还是安慰剂。研究者记录下每个病人病痛缓解

2、的持续时间（以周为单位），持续时间越长则疗效越好。数据见表1。表一：处理组和控制组各21人的病痛缓解的持续时间（周）处理组（使用6-MP）21人6，6，6，7，10，13，16，22，23，6+，9+，10+，11+，17+19+，20+，25+，32+，32+，34+，35+，控制组（使用安慰剂）21人1，1，2，2，3，4，4，5，5，8，8，8，8，11，11，12，12，15，17，22，23表1数据后面有+者表示，当项目结束时缓解仍在持续。例如，处理组中的20+表示：该病人在项目结束前20小时进入临床治疗，使用6-MP后，缓解持续到项目结束。因此，该病人的实际缓解持续时间至少为20周

3、，很可能大于20周。这种数据在统计学中称为删失数据。我们需要回答的问题是：问题1. 6-MP能否显著延长缓解的持续时间？问题2. 如果问题一不能得到肯定的回答，则对该药物没有必要进一步研究；反之，如果结论是肯定的，预测以后的病人在使用6-MP后的缓解持续时间的有关参数，对6-MP的效果给出有足够置信度的量化评估。二、模型假设1 假设在项目期间的食物，生存环境，其他药物等外界因素对6-MP药效及病人病痛无影响； 2 假设在项目期间各个阶段病人的6-MP药物服用量充足，治疗方式恰当；3 假设在项目期间无其他病痛误判，粗心等原因引起数据记录失误；4 假设对同一个病人使用药物的效果始终一样；5 假设

4、每个病人的身体、精神素质都是相当的，不会因此而使药物的效果变化；6 假设病人自己并不知道实际服用的是药物还是安慰剂；7 假设病人的年龄、性别对试验无影响；8 假设两组病人是随机分配的。三、符号说明及其概念解释3.1 符号说明3.2 概念解释生存时间：疾病治疗的预后情况，一方面看结局好坏，另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。完全与不完全数据：一部分研究对象可观察到死亡，从而得到准确的生存时间，所提供的信息是完全的，称为完全数据；另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因，无法知道确切的生存时间，它提供了不完全的信息，称为不完全数据（截尾数据、删

5、失数据）。生存分析：生存时间一般是通过随访收集。不完全数据提供了部分信息。须要用专门的方法进行统计处理，这类统计方法起源于对寿命资料的统计分析，故称为生存分析。死亡概率：指已活满t时刻的个体，在此后一段时期内（t至）死亡的可能性。生存概率：表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。四、问题分析本文研究者在持续1年的急性白血病治疗的临床试验中，对42位急性白血病患者随机均等地分成两组，一组病人用药物6-MP治疗以缓解病痛，而另一组病人用安慰剂。通过对两组病人病痛缓解的持续时间进行对照比较分析，从而研究某药物6-MP是否有治疗以缓解病痛的作用。此问题可以转化为生存分析问题

6、，即每个病人的缓解时间可以看每个成个体的寿命，从而可以采用生存分析的相关知识对问题进行分析求解。由已知可知，每个病人进入项目试验的先后顺序不同，缓解病痛的时效也不同（如图一所示）。始点终点图一：病人的缓解持续时间通过对表1数据的分析，我们发现有些数据后面有+者表示，当项目结束时缓解仍在持续，这种数据在统计学中称为删失数据，又称截尾数据和不完全数据。对于这类数据的处理，如果我们丢弃删失数据只考虑确切数据，则会损失大量的信息；若将删失数据当作确切数据处理，则会低估了生存时间的平均水平。用统计学的术语，白血病缓解效果的分析是一个“两样本比较”问题，一般用两正态样本均值比较的t检验。但现在由于样本分布

7、未知，而且在时间数据的分析中，由于数据分布有很大的偏度，正态分布是一个“坏”的模型。又因为数据是不完全的（有删失数据），常规的、用于完全数据的分析方法不能简单套用。所以我们引入生存分析这一概念对本文进行分析求解。生存时间经常服从的基线分布有指数分布、Weibull分布、对数正态分布、对数logistic分布和Gamma分布。由于缓解持续时间不长，因此年龄、体质等可能影响缓解持续时间的因素作用不大，可以认为在任何时刻缓解持续的结束是随机的。又指数分布具有恒定危险率的特点，所以可假设生存时间服从指数分布,由次进行检验。对于问题二，要预测持续时间参数，则先要给出其相关的参数，在对其置信区间进行预测

8、。五、模型建立与求解5.1 问题一的模型参数回归模型本案例中样本容量不大，我们事先根据其生存函数曲线将分布假定为指数分布，所以可采用参数回归模型的分析方法，首先对指数分布进行检验，然后使用点估计的方法分别对两组数据的参数进行估计，接着对其有花都进行检验。用参数假设检验来判断处理组与控制组的缓解时间分布是否有显著差别从而判断药物6-MP能否显著延长缓解的持续时间。首先分别对处理组和控制组的数据进行分析处理，由此拟合一个满意的参数分布，再用参数假设检验来判断处理组和控制组的缓解时间分布是否有显著差别，从而回答问题一：6-MP能否显著延长缓解的持续时间。5.1.1 模型的准备我们假设每个病人病痛缓

9、解的持续时间为生存时间。在这批数据中，其中控制组（使用安慰剂）的数据是完全的，没有删失数据。因为完全数据的分析比较简单，所以我们先对控制组数据进行处理。在刻画时间分布模型的特征方面，“生存函数”和“危险率函数”是两个重要的函数。对控制组数据进行处理通过计算机吃力可得，控制组生存函数图像为：生存函数又称可靠性函数。是个体寿命超过某个时刻的概率。X记为个体的生存期，生存函数定义为：累积生存函数为：危险率函数也称为风险函数、瞬时死亡率、年龄别死亡率、条件死亡率，常用h（t）表示，它表示已存活到t时刻的一个体，死于（t，）小区间内的概率的极限。累积危险函数为：为指数分布的危险率，或称为尺度参数，其大

10、小决定了生存时间的长短，危险率越大，生存率下降越快；危险率越小，生存时间越长。在指数分布模型中，是常数，与时间t 无关。因为本文所给的生存资料分布具有不规则、不确定或未知分布的特点，所以采用非参数法估计生存率。根据本文的样本含量为小样本，所以选择乘积极限估计法（Kaplan-meier）来出来数据。乘积极限估计法简称积限法或PL法,是直接用概率乘法原理估计生存率，它是由统计学家Kaplan和Meier于1958年首先提出的,因此又称为Kaplan-Meier法。此法计算生存率时，先将每个个体的生存时间按照由小到大的顺序排列，排序时若截尾值与非截尾值的观察时间相同，则规定非截尾值小于截尾值，排

11、在截尾值之前。然后依次计算出各时段的死亡概率、生存概率，进而计算出从观察开始至各时刻的生存率(如图一、二所示)。一：Kaplan-meier处理后的控制组编秩缓解周期初期死亡死亡概率生存概率累积生存率累计危险函数1212122/2119/210.904762-0.1000834593421922/1917/190.809524-0.211309094531711/1716/170.761905-0.2719337156741622/1614/160.666667-0.4054651088951422/1412/140.571429-0.559615288101381244/128/120.38

12、0953-0.965080396141511822/86/80.285714-1.252762468161712622/64/60.190476-1.6582275771815411/43/40.142857-1.9459096491917311/32/30.095238-2.3513747572022211/21/20.047619-3.0445219382123111/1001.对处理组和控制组的累计生存率取自然对数，即取其累计危险函数：；2.以个体寿命t 为横坐标，为纵坐标画折线图。由上图可明显看出其图形走势近似直线。从而可以证明我们构建指数模型的思路是可行的。因此设即：由此可以直观的

13、认为指数分布对数据的拟合是比较满意。5.1.2 指数回归模型的构建：指数分布准备知识：若随机变量T 具有概率密度函数为：，则称 T服从参数为（为尺度参数）的指数分布，简记为。T 的总体分布函数为：由此可导出以下公式：人们用不变的危险率来刻划指数分布的特征，为指数分布模型中唯一的参数，其极大似然估计为：其中，n 为样本含量；为每个观察对象的生存时间，i =1,.,n包括完全数据和截尾数据；m 为数据中完全数据的个数。指数分布只有中只有一个参数，令控制组参数为因为控制组的数据是完全的，我们使用如下方法对参数进行估计。 1、没有删失数据的极大似然估计：两边取对数得：再对其进行求导得：最后得：而控制

14、组是完全数据不含删失数据，所以代入该极大似然估计模型得：因此我们可以初步得出用来拟合控制组数据，为进一步确定这一假设，我们将对其拟合度进行优化检验。用拟合优度对拟合效果进行评估构造一个度量所假设的分布拟合数据优度的经验统计量D，D的值越小则表示拟合的越好。为了更好的确定其拟合的效果，我们令，近似的认为当时拟合效果较好。由于该分布为但一分布，则采用检验法进行优度检验。首先作出控制组总体分布的经验分布函数，总体分布函数为假设控制组21人的病痛缓解的持续时间是总体的一样本，则可以得到控制组经验分布函数的观察值为：因为对于任一实数t，当时，以概率1一致收敛于分布函数，即：换句话说，对于任一实数t，当n充分大时，经验分布函数的任一个观察值与总体分布

展开阅读全文