无创型健康评估模型的通用建立方法及研发

资源描述

《无创型健康评估模型的通用建立方法及研发》由会员分享，可在线阅读，更多相关《无创型健康评估模型的通用建立方法及研发（8页珍藏版）》请在金锄头文库上搜索。

1、无创型健康评估模型的通用建立方法无创型健康评估模型的通用建立方法惠恒集团深圳市天信生物科技有限公司赵红谢国梁【摘要摘要】健康管理过程中，根据健康信息提供个体化亚健康干预手段是健康评估不可缺少的重要环节。本文介绍了基于系统生物信息学，宏观检测人体整体系统变量，以流行病学前瞻性模型为示教标准，研发周期短，经济适用的无创型健康评估模型的方法。并以缺血性心血管病发病危险因素为例，研发出无创型人体经络检测值评估模型，其外推预报结果初步显示了此方法的应用可行性。【关键词关键词】危险性评估；模型；机器学习；经络信息检测及处理1 引言引言1.1 亚健康检测和评估现状亚健康检测和评估现状亚健康的检测和评估

2、是健康管理最终提供个体化的干预手段，是必不可少的先决条件。由于绝大多数被市场“炒”作起来的亚健康检测与评估“产品”均没有经过科学系统的应用研究和实施数据支持，因而只呈昙花一现便无影无踪1。1.2 现存的一些商业化亚健康检测评估手段分类现存的一些商业化亚健康检测评估手段分类1.2.1 以既存疾病验后诊断案例为基础的无创型评估模型尽管此类亚健康检测评估手段的机理各异，但就其所获取的信息、所建立的评估模型而言，并非疾病预警意义上的严格的前瞻性健康风险评估。因为其模型建立机制实质上是通过检测数据，归纳现存已产生疾病属性的回顾性提示（尽管此类检测评估系统的商业宣传称其对疾病具有早期提示作用）。检测信息

3、从既存疾病的非亚健康人群中获取，然后采用数据处理进行归纳，得出的结论实为既存疾病属性的标示。因此，此类评估模型的方法论逻辑的建立比较含混，不同于亚健康状态下，具有疾病预警意义的前瞻性健康风险评估。为解决以上弊端，有必要采用基于亚健康-疾病时间序列趋势统计分析，具有较严格的前瞻预报意义的有创型流行病学评估模型。1.2.2 以亚健康-疾病时间序列趋势统计分析为基础的有创型流行病学评估模型任何一种慢性疾病都有其特有的生理病理变化，尽管这些变化是复杂的，但是很小的变化都会在生物标记上有所体现。这里的生物标记群不只是考虑单一指标的测量值，而是包括全面观察到的众多有意义的生物医学指标及其它指标，是对人身体

4、健康状况的整体评估。因此，如果在疾病发生前测得其生物标记模式，并连续观察疾病发展过程中时间序列趋势下生物标记的变化情况，采用流行病学统计分析方法，如 Cox 比例风险模型2等，建立评估模型，就可发现导致疾病发生及发展的关键因素，也就是在亚健康人群检测评估中真正有意义的前瞻性健康风险评估的检测信息判据。将某个体的生物标记群录入计算机，基于评估模型的预测软件系统就会自动将录入信息与软件的预测模式进行比较分析，确定该个体发生疾病的趋势及可能性，此过程为采取有效的预防措施创造了条件。这种检测评估手段的遗憾之处是必须包括有创性血生化指标，因而增加了诸多不便。2 交叉综合评估方法交叉综合评估方法通过综合评

5、估的手段使以上两类机制不同的检测评估模型“杂交” ，扬弃各自的优缺点是必要的。由于所构造的新模型来源于两类产生机制全然不同的源模型的“杂交” ，因此新模型不可能通过两类模型算法的合成来获取，也不可能借助原来产生两类模型的临床案例的汇合重新构建，只能通过原创的交叉试验设计积累足够的临床案例来获取。这里笔者提供一个采用系统生物信息学3的计算机学习获取无创型评估模型的交叉综合对照试验的方案（如图 1），通过有创型基于时间序列的流行病学疾病预报模型作标准，开发出无创型健康评估（疾病预警）模型。此模型可不断地伴随临床案例的积累而优化。下面以缺血性心血管评估模型4为对照，简述基于人体经络检测值无创型评估

6、模型的开发过程，并对初步应用结果进行分析。图1 获取无创性评估模型的交叉综合对照方案健康评估个体有创检测属性无创检测属性有创流行病学评估模型评估结果机器学习训练案例机器学习无创评估模型再学习3 以人体经络检测为基础，建立缺血性心血管病发病危险无创型评估模型以人体经络检测为基础，建立缺血性心血管病发病危险无创型评估模型3.1 经络检测原理经络检测原理采用经络测量信息作为亚健康状态主要连续量生物标记之一。根据国内外电生理学实验发现，如经穴处存在 Ca，Fe 元素和 Ca 离子的富聚，以及经络循经传导线上与经穴点有关線粒三磷（ATP）较多的细胞集聚等实证结果5-12，Ca 离子作为细胞间质中第一、第

7、二信使，参与细胞生长发育重要过程，在人体生命过程中扮演着重要的角色，因此经络测量可能成为采集生命科学信息的重要手段。在血生化数值等诊断指标变化前，经络信息13与其他“生物-心理-社会”的综合标记群的合参综合可能会更准确地揭示一些生命现象的量化本质，如亚健康状态。本研究正是通过宏观电子检测多处经络穴位点的皮肤表面电阻值，经系统生物信息学的计算机学习（supervisor based learning），获取模式发现(pattern discovery)，综合挖掘提取机体功能状况特征信息，深刻揭示经络信息表达的微观生命科学本质。与其他商业化的无创型检测手段相比，经络皮肤表面电阻检测具有较为经济简

8、便的优越性。3.2 示教标准源模型示教标准源模型缺血性心血管病发病危险的评估模型缺血性心血管病发病危险的评估模型中国医学科学院阜外心血管病医院流行病学研究室武阳丰教授研究认为，缺血性心血管病发病危险的评估模型能较好地反映发生心血管病的综合危险，预测个体未来十年内罹患缺血性心血管病(ischemic cardiovascular diseases, ICVD)的危险等级4。此评估模型由年龄、血压、体重指数、是否吸烟、血糖与血脂含量六大因素共同决定。其中年龄、是否吸烟通过填写问卷获得，血压通过血压计测量获得，体重指数通过测量身高和体重获得，只有血糖和血脂含量必须通过有创抽血化验才能获得。3.3

9、利用神经元网络算法，建立有示教的计算机机器学习，获取无创型评估模型利用神经元网络算法，建立有示教的计算机机器学习，获取无创型评估模型由图1所示，计算机机器学习获取无创型评估模型的交叉综合对照试验方案，通过以上有创型ICVD流行病学疾病预报模型作为示教标准，选取神经元网络算法实现计算机机器学习，开发出无创性健康评估（疾病预警）模型，因为神经元网络算法非常适合处理含复杂噪声的传感器数据，如经络皮肤表面电阻检测值。在此实现过程中，我们以 297 个例行体检中获取的经络受检者的数据作为神经元网络机器学习的训练集，而以另外 227 个数据作为测试集用于测试所建模型的预报精度。由于训练集和测试集来自于取样

10、时间和地点完全不同的群体，因此在统计上是完全独立的。这些检测者的数据包括年龄、性别、血压、身高、体重、血糖血脂含量、吸烟与否以及人体皮肤表面 24 个主要穴位的经络电阻等详细信息。根据心血管疾病评估模型中的计算方法4（参见图 2 和图 3），我们可以计算出每个检测者未来十年 ICVD 发病危险（%）。通过与同性别、同年龄段人群未来十年 ICVD 发病平均危险（%）进行对比，我们把未来十年 ICVD 发病危险（%）超过同性别、同年龄段的人群定义为心血管疾病高危倾向者。为此，我们在模型中引进了一个目标变量“是否高危”，对未来十年 ICVD 发病危险（%）超过同性别、同年龄段的人群，目标变量取值 1

11、（高危），否则为 0（非高危）。如在缺血性心血管病发病危险的有创评估模型（示教标准源模型）中代入 297 个数据训练集例行体检获取的相应信息，可得出 197 个数据取值 0，100 个数据取值 1 为示教标准,运用神经网络算法14训练得到模型，再把模型结果运用到测试集上进行预报,以检验模型的预测精度。神经网络模型可以大致表述为如下函数：某个体心血管疾病预报风险“是否高危”=f(年龄、性别、收缩压、体重指数、吸烟与否、及人体皮肤表面 24 个主要穴位的经络电阻值)由此可知，此模型为不包含血糖及血脂的无创型模型。227 数据测试集的预测结果如下： 1.用原来 297 个数据做训练集得到模型，再用该

12、模型对 227 个数据进行预测；实际预测 | 0 | 1 | 总计 -+-+-+ 0 | 153 | 14 | 167 -+-+-+ 1 | 12 | 48 | 60 -+-+-+ 总计 165 62 227 从以上混淆矩阵看出， 227 个数据中，实际取值为“0”的 167 个数据通过模型预报后 153 个仍为“0” ， 14 个误报为“1” ，实际取值为“1”的 60 个数据通过模型预报后 48个仍为“1” ，12 个误报为“0” 。其中有 201 个数据模型预报值与实际值吻合，26 个数据不吻合，模型的预测准确率为 88.55%。2.因训练数据集和测试数据集的统计分布差异会导致模型外推

13、预报精度降低，为了克服这一点，基于集群表决理论15，对原来的 297 个数据的训练集重新训练得到新模型，再用该新模型对 227 个数据做出预测。实际预测| 0 | 1 | 总计 -+-+-+ 0 | 152 | 15 | 167 -+-+-+ 1 | 8 | 52 | 60 -+-+-+ 总计 160 67 227 从以上混淆矩阵我们知道， 227 个数据中，实际取值为“0”的 167 个数据通过模型预报后 152 个仍为“0” ， 15 个误报为“1” ；实际取值为“1”的 60 个数据通过模型预报后 52 个仍为“1” ，8 个误报为“0” 。其中有 204 个数据模型预报值与实际值吻合

14、，23 个数据不吻合，模型预测准确率为 89.87%。通过比较上述两种预测结果我们发现，这两种情况下预测结果的准确率都比较高，第二种情况下的预测准确率比第一种情况有较微小的提高。3.序贯递加累积例行体检的临床数据，持续不断地进行再学习，即把原来的524（297+227）个训练及测试数据合起来做训练集得到学习模型，再用该模型对最新获取的另外 878 个数据做出预测。实际预测 | 0 | 1 | 总计 -+-+-+ 0 | 636 | 31 | 667 -+-+-+ 1 | 27 | 184 | 211 -+-+-+ 总计 663 215 878 从以上混淆矩阵我们知道， 878 个数据中，实际取值为“0”的 667 个数据通过模型预报后 636 个仍为“0” ， 31 个误报为“1” ；实际取值为“1”的 211 个数据通过模型预报后 184 个仍为“1”

展开阅读全文