医疗大数据开放开享

资源描述

《医疗大数据开放开享》由会员分享，可在线阅读，更多相关《医疗大数据开放开享（68页珍藏版）》请在金锄头文库上搜索。

1、文档供参考，可复制、编制，期待您的好评与关注！医疗大数据开放共享与信息系统的耦合度为零的数据才是合格的大数据全国97.8万家医疗机构的信息系统基本上都是用关系数据库而建立的，然而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和，关系数据库系统不适合处理大数据。医学信息的结构化存贮方法非常适合处理医疗大数据。目录医疗大数据解决方案1第1章概要41.1 名词定义5第2章医疗大数据面临的挑战72.1 医疗大数据与医院信息系统之间的具有本质的差异72.1.1 小问题放大万倍就会大的吓人92.2 医疗大数据面临八大难题102.3 国家大数据标准工程堪比“两弹一星”142.4 医疗行

2、业的信息系统顶层设计为何难产152.5 大数据挖掘中的问题：大数据的关键不在于大而在于如何挖掘162.5.1 我国医疗行业每年产生多少数据162.5.2 挖掘关系数据库系统所产生的医疗数据非常困难172.5.3 仅患者与数据的对应关系就是一个大问题182.6 关系数据库理论的致命伤192.6.1 关系数据库中的数据在大数据环境中为何变成无意义的数据192.6.2 关系数据库系统是一种完全封闭的系统：外来数据无法入住222.6.3 关系数据库中的数据与数据系统密不可分222.6.4 关系数据库中的数据与数据结构密不可分232.6.5 关系数据库中的数据与应用程序密不可分232.6.6 关系数据库

3、中的数据一旦脱离相应的系统就成了无意义的数据242.6.7 关系数据库无法实现病历信息的结构化存贮242.6.8 关系数据库中的数据都是“方言”，大数据需要的是“普通话”242.7 关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表252.8 大数据之梦十年后成真262.8.1 信息化社会由概念到比较成熟用了30多年时间272.8.2 千年虫问题的启示272.8.3 大数据工程远比千年虫问题复杂282.8.4 五年之内（2020年前）医疗大数据只是纸上谈兵292.9 必须开发新型的软件工具才能对医疗大数据进行高效挖掘29第3章发明专利：医学信息的结构化存贮方法303.1 在了解医学信

4、息的结构化存贮方法时的注意事项313.2 医学信息的结构化存贮方法323.3 数据的完整性是大数据的根本383.3.1 大数据的策略：以适当的数据冗余而使数据易识别383.3.2 一个事物的数据403.3.3 事物分类403.3.4 关系数据库的缺陷：关系423.3.5 数据的可识别性463.3.6 数据的多样性483.3.7 元数据及国际元数据标准非常重要483.3.8 大数据的关键：让数据自己说话493.3.9 大数据的策略：用数据代替程序513.4 与信息系统的耦合度为零的数据才是合格的大数据523.5 医学信息的结构化存贮方法与关系数据库的对比553.6 应用医学信息的结构化存贮方法的

5、注意事项553.7 超大表化问题：分为多张表563.8 关系数据库中的二维表是数据不具独立性的一个根本原因563.9 “万能数据结构表”存放病历信息的例子563.10 医学信息的结构化存贮方法实现互联互通非常简单583.11 结构化录入病历信息的例子：症状的结构化58第4章独立数据库在医疗大数据方面的优势614.1 大数据中最重要的就是查询614.2 超大表问题614.2.1 自动调整表的长度624.2.2 自动查询多张表624.3 用独立数据库实现国家医疗大数据的存贮处理634.3.1 独立数据库如何处理国家医疗大数据中数十万个数据库、数千万张表634.3.2 疾病、症状的相关数据65第1

6、章概要关系数据库理论存在很多很严重的问题，例如，用关系数据库系统所设计出的信息系统都是孤岛型系统，难以实现系统之间的互联互通；在大数据时代，人们发现，对全国97.8万家医疗机构所产生的医疗数据进行挖掘非常困难，当前的大多数医疗信息系统都是用关系数据库系统而设计的。用关系数据库系统所设计出的信息系统之所以难以互联互通，孤岛问题严重，根本原因在于“异构数据”。医学信息的结构化存贮方法中的“万能数据结构表”可以存贮各种各样的数据，也可说用医学信息的结构化存贮方法所设计出的信息系统所产生的数据都是“同构”的，不存在“异构数据”的问题。关系数据库理论先天不足，不可能解决“异构数据”问题。医院信息系统所

7、处理的数据只是某家医院所产生的某些特定的数据（可称作小数据）。医疗大数据所要处理的数据是全国97.8万家医疗机构所拥有的数十万个医疗信息系统所产生的数据，这些数据存贮在数千万张表中，这些系统由不同的开发商所开发，各系统的数据结构各不相同。每家医院的信息化工作都涉及几十个厂家，每个厂家的数据、标准、采集、存储都不一样。因此，即便是在一家医院，都会出现很多孤岛，整个医疗行业的信息孤岛问题更严重。各家医院信息系统的标准、接口都不同，这成为利用率低、共享难的原因之一。不仅如此，数据种类的多样化也为数据标准的制定和应用带来了挑战。小数据的特点是数据的类型和数据都是有限的，在处理数据前能事先确定数据的类型

8、。而大数据的数据特点是 “多样性 (Variety)”，在处理数据时很难先事先确定数据的类型，甚至不能确定数据的类型。目前关系数据库在数据处理中占据统治地位，而关系数据库在处理数据时事先要确定数据的类型，因此，在处理数据类型不能事先确定的大数据时，关系数据库就遇到了难以逾越的障碍。医疗大数据与医院信息系统所产生的数据具有本质的差别。现有的各种信息系统所处理的数据都是小数据。目前人们只是认识到大数据重要性，大数据还只是处于概念阶段。大数据梦想将在10年后梦想成真，5年之内，难有突破性进展。国家医疗大数据所面临的最大难题：当前的医疗信息系统不能适应医疗大数据的实际需求，需要对现有的信息系统进行彻底

9、的改造才能适应大数据时代的潮流。然而，要彻底改造全国现的医疗信息系统，所花费的代价是非常高昂的！关键词：数据与系统的耦合度、万能数据结构表、独立数据库、医疗大数据、数据的独立性、数据的完整性、数据的可识别性、事物分类。联系人：樊梦真136 6086 7965QQ：1.1 名词定义l 数据与系统的耦合度：数据与系统的耦合度越高，数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时，数据一旦脱离了原有的系统就变成了无意义的数据。大数据的数据来源于成千上万家单位的系统，因此，大数居中的数据应该是与系统的耦合度为零的数据，否则就需要很多的应用程度来解读数据，这会增加数据处理的难度、成本。l 万能

10、数据结构表：由发明专利技术“医学信息的结构化存贮方法”在模仿大脑记忆、联想的基础上而所提出的一种新型数据结构，可以在同一张表中存贮各种各样的数据。l 独立数据库：由发明专利技术“医学信息的结构化存贮方法”而建立的数据库即可称为独立数据库。独立数据库与关系数据库有本质的差异。l 数据的独立性：数据的独立性是由发明专利技术“医学信息的结构化存贮方法”所提出的概念，是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。关系数据库中的数据不具有独立性，需要借助于注释、数据结构、应用程序才能解读数据的含义。l 数据的完整性：数据的完整生是由发明专利技术“医学信息的

11、结构化存贮方法”所提出的概念，是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而完整地表达出某种含义。关系数据库中的数据不具有完整性，需要借助于注释、数据结构、应用程序才能解读数据的含义。l 数据的可识别性：在班、组这样的小环境中可以用每个人的姓名而区分出每一个人，然而在全国范围内，由于人数太多，很多姓名都有重名现象，因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部，因此各个数据就容易识别，然而如果把关系数据库中的数据放到大数据环境中，那么这些数据就成了不可识别的数据。在大数据时代，需要通过数据的独立性、数据的完整性而确

12、保每一个数据都是可识别的。l 在医疗大数据中，各个医疗数据分别由各家医疗机构所产生、拥有。l 事物分类：事物分类是由发明专利技术“医学信息的结构化存贮方法”所提出的概念。大数据时代以前的信息系统的最终用户是通过应用程序而看到各种数据，最终用户并不直接与数据库中的数据打交道，数据库中的数据需要通过应用程序解读后最终用户才能读懂。在大数据时代，大数据中包含成千上万家机构的数据，因此，大数据中的每一个数据库是由哪家机构所产生，数据库中各表中所存贮的数据是什么等等都是非常重要的信息，只有搞清楚这些信息，才能正常解读各数据的真实含义。在“万能数据结构表”中，“信息系统的名称、数据库的名称、表名”是以“事

13、物分类”的形式存贮在表中，其目的是让数据具体独立性、完整性，以此确保各数据在大数据中具有可识别性。第2章医疗大数据面临的挑战本章内容提要：大数据并不是小数据之和，大数据与小数据有本质的差异。关系数据库只适合于处理小数据而不适合处理大数据。用关系数据库来处理大数据时会遇到很多难以克服的困难。五年之内（2020年前）大数据难以取得根本性突破，大数据之梦十年之后才能梦想成真。维基百科关于大数据的定义也明确指出当前的主流软件工具不能高效地处理大数据，要高效处理大数据必须开发新的软件工具。目前的大多数信息系统所产生的数据都存贮在关系数据库系统中。关系数据库中的数据的一大特点（或者说一大问题）就是“数据

14、严重依赖于数据库系统及应用程序”，当关系数据库系统中的数据脱离了相应的数据库系统及应用程序后，这些数据基本上就成了难以阅读的无用数据。2.1 医疗大数据与医院信息系统之间的具有本质的差异如果把全国各家医院所产生的数据全部集中上传到国家医疗大数据中心，这些数据的数据量一定会非常庞大，这些数据能不能称为国家医疗大数据？按维基百科对大数据的定义：“大数据是指所涉及的数据量规模巨大到无法通过目前主流软件工具，在合理时间内达到获取、处理的数据。”这些数据可以称为国家医疗大数据。维基百科的定义也明确地说明了把全国各家医院全部集中起来的“数据量规模巨大到无法通过目前主流软件工具，在合理时间内达到获取、处理”

15、。为什么不能处理呢？例如，患者就医时，医生非常关心患者的病史。医生能否从国家医疗大数据中心获得患者在全国任意一家医院就医时的所有病历呢？假设全国各家医院的所有信息系统所产生的数据都已全部集中在国家医疗大数据中心，而且医生具有获得这些数据的权限。截至2014年3月底，全国医疗卫生机构数达97.8万个，其中：医院2.5万个，基层医疗卫生机构91.8万个，专业公共卫生机构3.2万个，其他机构0.3万个。全国按2.5万家医院计算，一家医院按4个信息系统计算，全国共有10万个医院信息系统，这些信息系统所产生的数据存贮在数千万张表中。医疗大数据应该说是永久有用的，可用来研究人类疾病的历史变化情况。因此，国家医疗大数据应是整个国家数年内、数十年内所产生的全部数据的总和，甚至需要存贮数百年、数千年。国家医疗大数据所涉及的信息量是一般的医院信息系统的数据量的数万倍、数十万倍以上。医生要想获得患者以往的病史数据，就必须从数据千万张表中查询患者的病史数据。了解关系数据库理论者都知道，如果说仅有表中的数据，没有相应的软件工具，那么，从数千万张表中查询数据，即使最优秀的程序员，在目前的技术条件下，一

展开阅读全文