随机森林倾向性评分方法及其在药品不良反应信号检测中的应

资源描述

《随机森林倾向性评分方法及其在药品不良反应信号检测中的应》由会员分享，可在线阅读，更多相关《随机森林倾向性评分方法及其在药品不良反应信号检测中的应（4页珍藏版）》请在金锄头文库上搜索。

1、书书书基金项目：国家自然科学基金（，）通信作者：贺佳，：随机森林倾向性评分方法及其在药品不良反应信号检测中的应用第二军医大学卫生统计学教研室（）张新佶张天一许金芳叶小飞钱维贺佳【提要】目的探讨利用随机森林倾向性评分法控制混杂因素的基本思想和步骤，及其在药品不良反应信号检测中的应用。方法利用随机森林计算给定危险因素的条件下研究对象服用双膦酸盐的概率，而后分别通过倾向性评分：匹配，：匹配和回归调整法控制性别、年龄等混杂因素，分析服药双膦酸盐与骨折发生风险的关系，并与回归倾向性评分法对应结果进行比较。结果随机森林倾向性评分法与回归倾向性评分方法的结果是一致的。

2、其中，倾向性评分：匹配样本量损失较大，且与：匹配和回归调整法的结果相差较大。结论随机森林倾向性评分法能有效控制药品不良反应信号检测过程中的混杂因素，可以与回归倾向性评分法所得结果相互验证，提高结果的可靠性；但匹配可能不适用于药品自发呈报系统数据。【关键词】倾向性评分随机森林不良反应检测混杂因素，，，（，（），）【】，，，，，【】；；；药品上市后不良反应信号监测主要依赖于药品自发呈报系统数据，由于药品上市流通后，无法像随机对照试验那样对观察对象进行随机分配，在分析过程中难免受到混杂因素的影响，导致药品不良反应分析结果的准

3、确性面临挑战。近年来，倾向性评分（，）作为一种新兴的控制观察性研究中混杂因素的方法，越来越受到研究者的重视。倾向性评分法是在年由和提出的一种均衡组间协变量的方法。它首先计算出在给定协变量的条件下观察对象被分到暴露组的概率，将其作为倾向评分值，然后根据得出的倾向评分值作为匹配或分层的依据从而实现对观察对象的事后随机化。由于倾向性评分值综合了所有已观测到的混杂因素，能够去除这部分混杂因素带来的偏倚，故在不存在未观测到的混杂因素的前提下，倾向性评分法能够实现对观察性研究中暴露因素的处理效应的无偏估计。目前最常用计算个体倾向评分值的方法仍然是回归模型，该方法具有模型

4、简单、容易实现、结果易于解释等明显优势。然而，回归模型有其特定的适用条件和局限性，因此，在利用回归模型计算倾向评分值时应充分考虑数据是否满足相应条件。近年来，很多国外的研究者开始探索采用机器学习方法计算倾向性评分值，常用的方法有神经网络、支持向量机、随机森林和等。等研究者比较了各种方法在倾向性评分时的性能，认为综合的分类算法例如随机森林、等具有一定的优势，特别是在变量较多而样本量偏小或变量间存在多重共线性时，使用综合的分类算法计算倾向性评分值产生的偏倚更小，结果更为稳定。由于药品自发呈报系统的数据量巨大，且在药品不良反应信号检测过程中缺乏金标准，单一的方

5、法进行数据挖掘时很容易得到大量的有统计学意义的药品不良反应组合，给进一步的临床评价实施带来困难。因此，有必要采用不同方法进行相互验证以排除假阳性信号，提高信号检测的效率。本文拟介绍利用中国卫生统计年月第卷第期随机森林计算倾向性评分值的基本思想，以不良事件报告系统中的实际数据为例，介绍随机森林倾向性评分法在药品不良反应信号检测过程的应用步骤及实现代码。该方法能控制药品不良反应信号检测过程的混杂因素，可与回归倾向性评分进行相互验证，以减少假阳性信号；或者作为回归倾向性评分的一种补充，在数据不满足其适用条件时进行有效分析。随机森林倾向性评分法的基本思想随机森林的构

6、建（）如图所示，应用自助法（）重抽样技术有放回地随机抽样次，每次从原始数据中抽取约的数据生成一个自助样本集，作为一棵分类树的训练数据，并由此数据构建分类树，每次未被抽到的样本组成个袋外数据，作为测试数据，用于估计分类误差。（）每个自助样本集用于建立一棵决策树或者条件树。在生成每棵树的过程中，一般在每个节点处从全部变量中随机抽取个变量，然后在中选择一个最具有分类能力的变量对数据进行分类。分裂准则可采用不纯度、熵不纯度等等方式。变量分类的阈值通过检查每一个分类点确定。（）利用每棵分类树对数据进行分类与判别，随机森林总的分类结果按每棵分类树的投

7、票多少而定。袋外数据为测试集，用于评价每棵树的性能。图构建随机森林示意利用随机森林计算倾向性评分值（）随机森林是由树组成，根据生成方式的不同可以将树分为决策树和条件树。“ 树” 其实就是一种树型分类方法，目的是将研究人群通过设定的危险因素分成若干个相对同质的亚人群。其结构类似一棵倒置的树，由主干和许多分支组成。在树中有许多节点即树结。如图所示，椭圆形框为中间结，表示各项危险因素（或协变量）。长方形框为终止结。每个树结中的数字为分类结果，树结间有实线连接，在椭圆形框下方标有判别条件。终止结内为判别到该类别的例数。每棵树都给出一定条件下研究对象被分配到暴露组（如感染

8、乙肝组）或对照组（如未感染乙肝组）的分类。图随机森林中单棵树对人群的分类示例（）随机森林根据某个研究对象的特征（即协变量的取值），将所有单棵树的分类结果综合起来进行判定，计算其被分到暴露组或对照组的概率，得到一个综合倾向性评分值。如图所示，随机森林中总共建立了棵树，每棵树都根据该研究对象的特征进行了一次判定，共判断了次。其中棵树判断某个研究对象属于类（假设类代表被分到暴露组），那么该研究对象被分到暴露组的概率（即倾向性评分值）为，同理，可计算该研究对象被分到对照组的概率为。由于随机森林法是综合分类器得出的结果，因而比一般的分类树或决策

9、树具有更高的准确性，得出的分类概率也相对较可靠。同时，随机森林对数据的样本量不作限制，在小样本时同样能发挥较好的作用。图随机森林计算倾向性评分值实例应用及代码实现实例采用不良事件报告系统中年月日至年月日两年内上报的有关“ 双膦酸盐骨折” 不良反应监测数据。本实例中，拟研究双膦酸盐与骨折之间的关系，暴露因素为是否服用双膦酸盐，结局变量为是否发生“ 骨折” ，二者皆为二分类变量。由于每份报告中包含多个“ 药品不良事件” 的组合，进行单药分析时有些报告可能被拆成了几例甚，，，至几十例进行分析。进行拆分无疑增加了对照的例数，并且对照之间不独立。因此，本

10、研究将每份报告作为例进行分析，如果报告了目标药品双膦酸盐则作为例暴露进行分析，反之则作为例对照。从不良事件报告系统中选择与结局或暴露变量有关的协变量，结合数据填写完整情况，选择个协变量用于演示随机森林倾向性评分法的应用过程，包括年龄、性别、体重和报告地区和不良反应触发时间。分析数据集中共份报告，其中暴露组样本量为份，对照组为份。分别利用回归和随机森林算法计算倾向性评分值，并将结果输出到数据集中。随机森林计算倾向性评分的软件代码如下（后文字为注释）：（ “ ： ” ，）导入数据集（，：）将暴露变量设置为变量（，）（，，

11、，，，，）用随机森林计算倾向性评分值，分别代表年龄、性别、体重、报告地区和不良反应触发时间等个协变量将值导出到数据集（， “ ： ” ，，）利用倾向性评分控制混杂因素后，应用回归分析 “ 双膦酸盐骨折” 是否为潜在不良反应信号。控制混杂因素的方法包括倾向性评分匹配，匹配，回归调整（表）。表双膦酸盐与骨折之间的关系分析混杂因素控制样本量（）原始数据回归（）回归匹配（，）匹配（，）回归调整（，）随机森林匹配（，）匹配（，）回归调整（，）利用回归倾向性评分和随机森林倾向性评分控制混

12、杂因素后进行分析的结果是一致的，两种方法的计算结果可以相互验证，为进一步的分析提供更加稳健的结果。值得注意的是，匹配后数据提示双膦酸盐与骨折之间没有关系，而匹配和回归调整均提示“ 双膦酸盐骨折” 为可疑信号。这可能是由于自发呈报系统数据中暴露组与对照组的比例悬殊较大，采用匹配法不仅造成样本的大量损失，甚至可能改变样本结构，影响处理效应的估计。讨论本文针对观察性研究数据，介绍了控制混杂因素的随机森林法倾向性评分法，并以不良事件报告系统的数据为实例展示了该方法在不良反应信号检测过程中的实施步骤和程序实现。随机森林作为一种组合分类方法，已经越来越多地应用在生物医学和医药卫

13、生领域。在基因表达数据领域，许多微阵列数据的分析均采纳了随机森林算法，包括基因筛选和对微阵列数据进行分类。在研究疾病的保护及危险因素方面，随机森林也能较好地识别疾病的危险或保护因素。随机森林是一种非参数的机器学习算法，它对变量之间的关系不作任何要求，且对样本量不作限制，能够分析线性、非线性以及具有交互作用的复杂数据，是一种有效的预测工具。随机森林与倾向性评分的结合，可以对传统回归倾向性评分的分析结果进行相互验证，提高结果的稳定性；还能作为一种补充分析方法，弥补传统的回归倾向性评分法对样本量和数据完整性及变量间关系的限制，可作为其补充或验证，有一定推广应用价值

14、。计算出倾向性评分后，可以采用匹配法、分层法或回归调整法对混杂因素进行控制。在实际应用中，由于药品不良反应自发呈报系统数据库中暴露组和对照组的样本量差别很大，匹配的样本量损失过多且有可能改变样本特征，因此，并不建议在药品不良反应信号检测中使用匹配法。匹配也会损失一定的样本量，而且取值多少最合适也没有定论。因此，在药品不良反应自发呈报系统数据中使用倾向性评分时，建议采用不损失样本量，保留原有信息的方法，如回归调整法。随机森林倾向性评分作为一种控制混杂的有效方法，近年来其应用呈逐年上升趋势，然而，在实际运用时仍然需要注意其局限性。首先，倾向性评分只能调整观察到的协

15、变量，对于未观察到的协变量，倾向性评分是无法处理的。其次，随机森林作为一种非参数的机器学习算法，其稳定性和可靠性在模拟研究中被评估过，其实际应用效果尚需大量实践验证。在数据满足回归的应用条件时，建议仍用回归计算倾向性评分，随机森林倾向性评分方法可作为其验证和补充。最后，计算倾向性评分时协变量的选择也十分重要。只有选择了真正的混杂因素，才能提高后续效应估计的精度。若协变量选择不当，则有可能造成矫正过正。选择协变量的常用方法有四种：只考虑与暴露因素有关的协变量；只考虑与结局有关的协变量；考虑既与暴露因素又与结局有关的协变量；考虑测量的一切协变量，不管其与暴露因素和

16、中国卫生统计年月第卷第期或结局是否相关。目前应用较广的是第种。参考文献，，，：，，：，，，：，，：吕军陈，王素珍倾向性指数匹配法在肺癌化疗效果评价中的应用中国卫生统计，（）：，，，（）：，，：，，（）：吴美京，吴骋，王睿，等倾向性评分中评分值的估计方法及比较中国卫生统计，，（）：，，，，（）：钱维，王超，吴骋，等运用随机森林分析药品不良反应发生的影响因素中国卫生统计，，（）：钱维药品不良反应监测中随机森林方法的建立与实现第二军医大学硕士论文，，，（）

17、：，，（）：，，，，，，，（）：，，：，，（），，，（）：（责任编辑：邓妍）（上接第页）预，使其从自我内心产生接受维持治疗的动力，提高美沙酮维持治疗依从性效果和减轻毒品危害。参考文献李志勇，纪康，胥加耕，等盐城市美沙酮维持治疗对艾滋病综合干预效果的评价江苏预防医学，，（）：徐金水，陈国红，李雷，等吸毒者美沙酮维持治疗保持时间及影响因素中国公共卫生，，（）：司在霞，郭灵霞，周敏，等修订版服药依从性量表用于抗凝治疗患者的信效度检测护理学杂志，，（）：刘继文，李富业

18、，连玉龙社会支持评定量表的信度效度研究新疆医科大学学报，，（）：郝元涛，方积乾结构方程模型及其在医学中的应用研究中国医院统计，，（）：张岩波应用结构方程模型须注意的若干问题中国卫生统计，，（）：梁涛，刘恩武，乌正赉美沙酮维持治疗及其在中国的开展中华护理杂志，，（）：赵杨子，师伟，刘英杰美沙酮维持治疗及其效果的研究进展新疆医科大学学报，，（）：赵丽娜，王大勇，张洪淼，等美沙酮维持治疗依从性影响因素的多元回归分析疾病监测，，（）：许珊丹，廖永刚，陈鹏，等武汉市青山区美沙酮门诊受治者偷吸原因多重对应分析中国卫生统计，，（）：廖永刚美沙酮维持治疗依从性及其影响因素分析武汉科技大学，高峻钰，周诗国，吕昌迎，等例美沙酮门诊患者治疗依从性影响因素分析中国药物依赖性杂志，，（）：（责任编辑：刘壮），，，

展开阅读全文