基于Hadoop大数据技术的脑卒中智能诊疗平台研发可行性报告和经费概算目 录一、 工程可行性报告ﻩ1〔一〕 工程实施的意义 1〔二〕 现有根底条件ﻩ2〔三〕ﻩ技术解决方案ﻩ43.1 研究内容以及相应的解决方案 43.1.1ﻩ构建脑卒中医疗数据仓库ﻩ43.1.2 建立单病种电子病历ﻩ53.1.3 构建柔性临床路径 73.1.4ﻩ对海量脑卒中医疗数据进行数据挖掘ﻩ93.2ﻩ关键技术 103.3ﻩ主要创新点ﻩ11〔四〕 工程实施目标和市场分析ﻩ114.1 主要技术指标 114.2ﻩ主要经济指标ﻩ124.3ﻩ知识产权 12二、 经费概算 12〔一〕ﻩ经费概算列表 12〔二〕 经费概算说明ﻩ14基于Hadoop大数据技术的脑卒中智能诊疗平台研发一、 工程可行性报告(一) 工程实施的意义脑卒中是一种以脑部缺血及出血性损伤病症为主要临床表现的疾病,又称作脑中风或脑血管意外,具有极高的病死率和致残率,主要分为出血性脑卒中(脑出血或蛛网膜下腔出血)和缺血性脑卒中(脑堵塞、脑血栓形成)两大类,以脑堵塞最为常见脑卒中发病急,病死率高,是世界上最重要的致死性疾病之一据世界卫生组织〔WHO〕公布的数据,全世界每年有1600万人死于心脑血管疾病,占总死亡率的60.7%。
根据我国卫生部最新统计数据显示,我国每年发生脑卒中达200万,现幸存脑卒中病人700 万,其中450万病人不同程度丧失劳动力和生活不能自理,致残率高达75%正是由于这种疾病的高致死率,引起了各大医疗机构的重视以往的医疗系统,存在着几大问题:一、只是对脑卒中病人数据单纯的记录,无法将这些记录的数据转化为有用的信息,为医院治疗脑卒中病人提供必要的数据根底医院对于数据的处理,仅限于录入、修改、删除、统计和查询等数据库的低层次应用,缺乏对数据的集成和分析,更谈不上在这大量的数据资源中挖掘深层次的、隐含的、有价值的知识;二、各大医院使用各自的医疗系统,同样的病人数据采用不同的记录规那么,导致了脑卒中病人信息无法集成,例如浙一医院和它的各个附属医院,因为使用的电子病历系统的差异,各个附属医院的脑卒中病人数据无法被浙一医院使用,大量的病人数据只是成了摆设,出现了“数据丰富,无法统一〞的现象因此如何充分利用这些珍贵的信息资源来为疾病的诊断和治疗提供科学的指导、为医院领导决策提供科学依据,已经成为迫切需要解决的问题三、目前各大医院的医疗系统只是针对普通疾病,而脑卒中病人信息的记录方式,诊疗方式无法在现有医疗系统中表达,无法为脑卒中病人提供更高效,更高质量的治疗。
基于以上存在的问题,脑卒中智能诊疗平台研发已经迫在眉睫首先,诊疗平台运用人工智能领域的知识,将案例推理、数据挖掘技术等应用到脑卒中诊疗中,设计脑卒中临床路径,协助医生治疗,提高诊断的效率和准确度其次,使用诊疗平台的各大医疗机构,在平台的统一数据格式下可以实现最大化的数据共享和使用,将各大医疗机构的脑卒中病人数据集中,为将来的数据挖掘提供强大的根底在脑卒中智能诊疗平台的帮助下,将极大程度的帮助医生治疗脑卒中病人,提高治疗的效率和质量,从而降低脑卒中病人的致死率二) 现有根底条件工程团队由浙江爱达公司、浙江工业大学、浙江大学医学院附属第一医院联合组成在医疗信息系统的理论和应用研究上已有一定积累浙江爱达科技开发了电子病历系统、PACS系统、住院病人随访系统等医院关键信息系统,已经在多家医院投入使用,在医疗系统方面有着大量的技术人员和技术经验在国内率先提出了柔性临床路径,获得了卫生管理部门的高度重视现在已有的电子病历系统、PACS系统、住院病人随访系统都可以移植到脑卒中智能诊疗平台中,为平台的成功构建提供了良好的技术根底浙江工业大学在数据库技术、数据挖掘技术、信息平安技术、图论与Petri网技术等领域发表论文100余篇,其中SCI收录28篇,EI收录50余篇。
为本工程的顺利进行提供了有力的科研和技术保障以及学术理论上的支持浙一医院神经外科为国家重点学科,外科中心拥有独立的神经外科实验室,可进行显微神经外科操作培训、颅底外科解剖训练及神经干细胞培养和脑组织移植的相关根底和临床科研工作该中心还拥有西门子PET/CT、西门子盘旋加速器、瓦里安直线加速器、飞利浦3.0T磁共振、多排螺旋CT、三维脑血管DSA系统、手术显微镜、术中多普勒超声仪、超声手术刀、四合一YAG激光、神经内镜、面神经监护仪、神经刺激仪、术中脑电图监测系统、开颅高速气钻及微型磨钻等一系列先进设备开展重症监护、颅脑创伤、脑血管疾病、小儿神经外科、脑肿瘤及脊髓脊柱等神经外科疾病的诊治,并积极筹建功能神经外科与伽玛刀中心因此,该医院在脑中风领域上有很丰富的治疗经验和先进的医疗设施,能够为平台的搭建提供足够的数据支持和有关脑中风专业知识的指导,也为平台的前期推广提供有效的途径工程团队大局部成员通过合理组织,包含了所需的各方面专业技术和管理人员,包括了由博士和高级职称人员组成,具有相关的技术知识和经验的研究人员;包括了具有几十年医院临床经验和管理经验的高级医务人员;也包括了具有丰富医院信息系统开发经验和技术的计算机开发人员。
工程团队主要成员和骨干成员介绍如下:工程负责人:张端,男,博士,副教授,硕导,1972年生他主要从事信息系统和控制工程的研究迄今为止,他承当和参与了多项国家基金、863、省部级工程以及多项企业合作工程;申请和授权创造专利8项;发表论文20与篇,其中SCI收录7篇,EI收录10篇,并在图论与Petri网技术领域发表了3篇SCI论文,为本工程的研发打下了坚实的理论根底目前主要研究方向为:智能医疗信息系统主要工程:1. 负责国家自然科学基金工程,研究内容:复杂动态过程的控制和优化,2007.1—2022.122. 作为副组长共同负责863方案工程,研究内容:复杂生产过程的策略研究, 2006.12—2022.123. 参与863方案工程,研究内容:复杂生产过程的集成建模与协调优化控制技术研究,2022.4—4. 负责企业合作工程,研究内容:智能外贸信息系统,时间:2022.6-2022.6; 5. 负责企业合作工程,研究内容:医疗用品包装图像检测系统,时间:2022.6-2022.12; 6. 参与企业合作工程,研究内容:海南RFID智能卡一卡通系统的研发,2022.3-2022.12; 7. 参与企业合作工程,研究内容:供电局机房监控系统, 2006.1-2022.12;承当工作:作为工程负责人,负责工程的关键技术研究和任务分工,并管理经费的合理使用,保障工程质量和时间进度,同时,负责与合作单位的协调和沟通。
工程主要成员:潘剑威,男,浙江大学医学院附属第一医院神经外科副主任医师,从事神经外科工作10年,主攻脑血管外科,擅长脑动脉瘤、动静脉畸形、脑动脉狭窄等脑血管疾病的介入手术治疗承当工作:负责与合作单位的协调和沟通,并承当局部需求分析工作工程主要成员:庄华亮,男,博士,归国留学人员,1967年生分别于1994和1997年在浙江工业大学获得工学学士和工学硕士学位1998年赴新加坡南洋理工大学电气工程学院,2000年获硕士学位2000年 至 2002年, 新加坡国立大学化学与环境工程系担任科研工程师2002年 至 2003年, 在新加坡策技系统公司担任研发工程师2004年至2022年, 新加坡南洋理工大学电气工程学院自动控制与仪器仪表系学习,获博士学位2022年至2022年, 新加坡南洋理工大学电气工程学院卫星研发中心担任研究员(research associate) 2022年起浙江琴江科技从事智能系统和模式识别领域的研发工作主要工程:1. 参与新加坡环境部委托工程“ modeling and optimal control of pulse-jet fabric filters〞, 2022.1—2022.62. 参与新加坡国防部委托工程“Multi-spectral satellite image analysis and object detection〞, 2006.1—2007.12承当工作:负责柔性临床路径系统的软件工程管理和数据挖掘算法开发。
三) 技术解决方案3.1 研究内容以及相应的解决方案3.1.1 构建脑卒中医疗数据仓库目前浙一医院及其附属医院都有自己的数据库,脑卒中电子病历数据处于分散状态,而且由于采用不同的数据库技术,各种病历之间的格式也不统一因此,需要对这些数据进行整合,以Hadoop的分布式数据仓库Hive为技术平台建立一个完整的医疗数据仓库,以备数据挖掘之需数据仓库构建的整个过程包括数据抽取,数据转换和数据加载,即ETL1) 数据抽取本研究需要从各家医院的数据库中抽取有关脑卒中的电子病历数据,所以需要利用数抽取工具Sqoop,从脑卒中电子病历所用的各种传统关系型数据库中抽取数据然后在Hadoop平台上建立Hive临时数据库,用于存储抽取到的脑卒中数据2) 数据转换由于各家医院的电子病历系统建立方式不同,所以其数据存储的模式也有差距,这就导致了格式上的差异而且脑卒中有很多分支,包括缺血性和出血性的,再往下还可以细分出很多病种,比方脑梗死,脑栓塞,颅内出血,蛛网膜下出血等各医院之间对这些病又都有自己的治疗方式和流程因此,这会导致抽取过来的数据格式多样和混乱本研究需要对这些数据进行格式的转换和统一由于该数据仓库最终目的是用于数据挖掘,所以我们可以删除一些不重要的信息,比方病人的姓名,证件号码以及家庭住址等。
一些电子病历会有数据不全的现象,比方病人的其他相关病症等信息,我们采用缺省值方式对这些字段进行补齐最终保存病人的临床表现〔口眼歪斜,半身不遂,老年痴呆等〕,相应的诊断结果〔出血性中风或缺血性中风〕,治疗手段,所用的药物,治疗结果以及后遗症等信息然后对这些数据进行重组,再建立一个新的Hive数据库,保存重组信息3) 数据加载由于原先的重组数据库都是针对每家医院的电子病历系统分别建立的,因此,我们需要将这些分散的数据库整合到一起第三次建立Hive数据库,作为最终的数据仓库,将各个重组数据库数据加载到数据仓库中,完成整个数据仓库的建立整个数据仓库的ETL过程如图3-1所示: 图3-1基于Hive的分布式脑卒中医疗数据仓库ETL过程3.1.2 对海量脑卒中医疗数据进行数据挖掘目前,医生对脑卒中的临床分类诊断的正确率只有70%左右;以头颅CT和核磁共振检查诊断较为可靠,但其价格昂贵;且因CT和核磁共振检查需搬动病人,易加重病情;尤其是CT和核磁共振检查对早期脑缺血常出现假阴性寻求对脑卒中作早期分类诊断的正确适用方法,一直成为医学研究中的重要课题因此,本研究利用决策树算法分析海量脑卒中电子病历中的临床病症指标和诊断结果进行分析,生成一套精确而且通用的判别标准。
当医生输入病人的临床指标后,系统会根据先前制定的标准对这些指标进行分析,得出正确的诊断结果此外,当前各医院对脑卒中的治疗方式和手段都不统一,而且用的药也不一样,当病人在治疗过程中更换医院时,就会产生治疗的不规律因此,本研究将会利用关联规那么算法Apriori对脑卒中病历数据中各种病症和治疗手段以及用药之间的分析,导出一系列的关联规那么作为医生制定治疗方案以及用药的参考标准目前,对于医疗数据挖掘算法用的比拟多的是Apriori,而传统Apriori算法最大的缺乏就是每次寻找频繁工程集都需要扫描整个数据集,当工程数较多时,就要花大量的时间去扫面数据集,从而严重影响了算法的效率,这成为了 Apriori 算法的瓶颈因此,我们采取将扫。