大数据分析技术及其在医药领域中的应用

上传人:桔**** 文档编号:512931407 上传时间:2023-11-28 格式:DOCX 页数:16 大小:30.38KB
返回 下载 相关 举报
大数据分析技术及其在医药领域中的应用_第1页
第1页 / 共16页
大数据分析技术及其在医药领域中的应用_第2页
第2页 / 共16页
大数据分析技术及其在医药领域中的应用_第3页
第3页 / 共16页
大数据分析技术及其在医药领域中的应用_第4页
第4页 / 共16页
大数据分析技术及其在医药领域中的应用_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《大数据分析技术及其在医药领域中的应用》由会员分享,可在线阅读,更多相关《大数据分析技术及其在医药领域中的应用(16页珍藏版)》请在金锄头文库上搜索。

1、大数据分析技术及其在医药领域中的应用张春丽;成彧【摘 要】随着“大数据时代”的来临,大数据在医药领域中将发挥越来越重要的作 用,基于基因组学大数据和现代生物医学技术的个性化医疗,即精准医学,是未来医学 的发展方向.如何获取、分类、存储大数据,如何挖掘大数据中有价值的信息,以及如 何将大数据有效地应用于医药领域是目前研究的热点领域 .本文对大数据及其特征 大数据分析技术以及大数据在医药领域的应用进行综述.期刊名称】标记免疫分析与临床年(卷),期】2016(023)003【总页数】7页(P327-333) 【关键词】 大数据;大数据分析;医药;个性化医疗;精准医学【作 者】 张春丽;成彧【作者单位

2、】 北京大学第一医院核医学科,北京 100034;北京联合大学信息学院,北京 100101【正文语种】 中 文随着科学技术的飞速发展,各个领域产生的数据量以爆炸式增长,大数据成为当今 的一个热点话题,大数据的分析及应用也成为科技界和企业界甚至世界各国政府关 注的一个焦点,“大数据时代”已经来临。如何获取、分类、存储、处理、传输这 些海量数据是当前所面临的一个重要课题。通过数据挖掘技术并运用计算机软件可 以从大数据中提取出有价值的信息。大数据分析及其应用近年来受到很大关注,大 数据被美国政府视为“未来的新石油”,被视为等同于人力资源和物质资源的国家 重要战略资源1。在医学领域,我们正处在一个医学

3、信息爆炸的时代。基因序列、 各种医学图像、电子病历记录和多中心临床药物试验等领域每天产生大量的形式多 样的数据,并呈爆炸式增长,使生物医学领域跨入网络化的大数据时代2。在这 些医药领域,大数据中隐藏着一些具有高价值的医药、保健信息,通过科学有效地 利用大数据,可以实现各个医院的病例的共享、流行病发病预测、药物作用预测以 及个体化的精准医疗等,从而提高对疾病的预防、诊治水平和药物使用的安全、有 效性,并对药物的研发方向具有重要的指导作用。1 大数据及其特征大数据是指无法在可容忍的时间内用传统信息技术(IT )和软硬件工具进行感知、获取、管理、处理和服务的数据集合3。大数据的特征可以归纳为 4 个

4、方面,即4V3:数据量巨大(Volume)。来自互联网、物联网、电子商务等各方面的 数据量已超越GB级,向TB、PB甚至EB级、ZB级发展。这需要新型的可扩展的 储存技术和便于信息查询和调出的数据分配技术41。模态多(Variety),既有 传统的结构化数据,又有文本、视频、图像、语音、网页等半结构化和非结构化数 据,数据之间常常关联复杂,这对现有数据库系统是一个挑战。速度快(Velocity)。数据通常以数据流的形式动态、快速地产生,具有很强的时效性和 涌现特征。价值大,但价值密度低(Value )。大数据的分析、挖掘将对社会的 政治、经济和科技等领域的发展起到革命性的作用。正如微软全球副总

5、裁张亚勤 2012年4月在博鳌亚洲论坛“大数据、移动、社交媒体:改变商业的创新力量” 中所说,大数据是产业大的变革,对IT产业、经济都是一次重要的机遇。在医药 领域,大数据分析、挖掘对疾病诊治、药物研发、公共卫生管理和健康危险因素分 析等方面均具有十分重要的意义。MGI的分析报告指出:大数据技术可以保障医 疗系统安全有效运行,使美国每年减少8%的医疗支出,并多创造3000 亿美元的 价值5。但另一方面,大数据具有价值密度低的特征,我们所采集到的数据既包含有用的数据,又包含大量的冗余的、无意义的数据(噪声)以及虚假的、错误的 数据,如何从海量、复杂的数据中获取有用信息是大数据分析技术的一个重要研

6、究 内容。2 大数据分析技术如前所述,大数据具有价值密度低的特征,必须通过分析、处理对这些数据去伪存 真,获得有用的数据及其相互关系,才能得到有价值的信息。大数据应用中的核心 技术就是从大量数据中提取出我们所需要的信息并进行分析和处理,因此,大数据 分析是决定最终信息是否有价值的决定性因素。大数据分析需要解决的问题主要包 括:如何通过构建数据库存储并处理这些大量、生成快速、模态繁多、异构的数据; 如何将这些数据的结构标准化,从中提取出有用的信息;如何对大数据资源进行分 配;如何实现大数据的安全、可靠传输等。由于大数据具有数据量大、模态和种类繁多、异构的特征,用传统的数据分析技术 很难实现对这些

7、海量数据的分析,需要运用资源云系统对大数据进行资料存储、应 用服务和资源共享等。资源云系统的功能主要包括:虚拟化技术、高性能云存储技 术、高速云处理技术及数据安全技术6。资源云系统是大规模数据存储及应用服 务的中心,用户把大数据资源存储到云系统中,当用户需要得到数据资源时可通过 互联网获取,当不需要这些数据资源时,还可以删除、释放这些资源6。 大数据的分析方法主要包括以下几方面。21 机器学习与数据挖掘算法机器学习是大数据分析的基础。由于大数据具有复杂、高维、多变等特性,如何从 凌乱、无模式和复杂的大数据中挖掘出有用的知识,需要计算机模拟人类的学习过 程,进行反馈、深入分析、对不完全的信息进行

8、推理等,即机器学习。神经网络(DNN )是一种机器学习系统,从2009年开始,Dahl等率先在语音处理中使用深度神经网络,将语音识别的错误率显著降低,从而使得语音处理成为成功应用深度机器学习的第一个领域7。机器学习算法包括大数据分类、大数据聚类、大数 据关联分析、大数据并行算法等8。近年来,机器学习在语音识别、光学字符识 别(OCR)、人脸识别、图像搜索等应用上取得了突出效果。数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。数据挖掘算法包括支持向量机(SVM)、期望最大化(EM)、决策树算法、遗传算法等9。这些算法主要用于通过机器学习实现大数据的分类,从不同的数据类型和格式中找到 有

9、价值的信息。22 预测性分析 预测性分析是一种重要的大数据分析方法,通过科学地建立模型,输入已知的数据, 从而对未来进行预测。预测分析的目的并不是要准确告诉人们将来会发生什么,而 是预测未来可能发生什么,因为所有的预测分析在本质上都只是一个概率。 预测分析包括获取或检测数据、分析和预测建模,对相关问题做出预测等步骤。如: 基于反向传播(back propagation,BP )神经网络的交通数据序列动态可预测性 分析10,基于BP神经网络的矿山GPS数据时间序列预测分析11,应用SPSS 软件对商务运营中的数据进行预测性分析等。23 可视化分析大数据查询和分析的实用性和实效性对于人们能否及时获

10、得决策信息非常重要,可视化分析将数据分析结果用形象直观的方式展示出来,从而能够快速发现数据中蕴 含的规律特征,并从系统中挖掘出有用的信息13。其优点是方便用户理解,可使 非IT人员实现自主大数据的分析与应用。因此,可视化技术既是数据分析的关键 技术也是数据分析结果呈现的关键技术。可视化分析通常以人工分析为主,也可根 据系统的具体情况借助Tableau、DataWrangler等可视化分析软件进行分析。可 视化分析能直观地显示出数据本身具备的特点。其中交互式的展示和超大图的动态 化展示值得重点关注。24 语义引擎 语义引擎从词语所表达的语义层次上来认识和处理用户的检索请求,被广泛应用于 网络数据

11、挖掘14。语义引擎可从用户的搜索关键词、标签关键词等输入语义,分 析和判断用户的需求,从而找到用户所需要的数据。25 知识计算 基于大数据的知识计算是大数据分析的基础,知识计算也是目前学术研究的一个热 点领域。知识计算需要从大数据中抽取出有价值的知识,并把它构建成可支持查询、 分析和计算的知识库。目前,世界各国或各个组织已建立的知识库多达 50 多种, 相关的应用系统达到了上百种。其中,代表性的知识库或应用系统有 TextRunner, KnowItAll,PROSPERA,NELL,Probase,SOFIE,Satori 以及一些基于维基百 科等在线百科知识构建的知识库,如 DBpedia

12、,Omega,YAGO 和 WikiTaxonomy 等15。26 数据质量和数据管理 数据质量和数据管理是大数据分析的关键。大数据的质量对其有效应用起着至关重 要的作用,使用高质量的数据和有效的数据管理可以更科学、更深入地分析大数据, 从而使分析结果更有价值。由于大数据具有数据量巨大、速度快、多样性高和价值密度低的特点,使其有更大 可能产生数据质量问题,即出现不一致、不精确、不完整、过时等问题或者描述同 一实体的数据出现冲突(称为实体不同一)等错误。比如,由于数据量巨大,大数 据获取、存储、传输和计算过程中可能产生更多错误;由于速度快,数据的大量更 新会导致过时数据迅速产生,也更易于产生不一

13、致数据;由于多样性高和价值密度 低,使得数据有更大的可能产生不一致和冲突。通过计算机软件进行质量管理包含 错误发现、错误修复和容忍错误的近似查询处理等16不同方面,但面临计算困难和知识缺乏等挑战。3 医疗领域实现大数据应用需要解决的主要问题及处理方法 医疗领域的大数据包括各类疾病的信息、病人的病例信息、医学检验信息、医学影 像信息、各家医院的管理信息、医院中医生的信息等,随着医疗机构电子化进程的 迅速加快,这些多类型的数据在各家医院动态、快速地产生,如何从医疗大数据中 提取出有用的信息是目前亟待解决的问题。构建医疗大数据系统需要将各家医院通 过互联网连接起来,实现各家医院之间的数据共享17。3

14、1 数据的结构化和规范化处理医疗领域中的大数据多是复杂的、非结构化的数据,数据可能包含冗余的、无意义 的或不一致的属性,并且数据经常更新,需要通过数据挖掘算法和机器学习等大数 据分析技术对这些数据进行分析3。通过文本挖掘技术可以实现医疗领域中的电 子病历、医院管理信息、医师信息等数据的结构化和规范化,其结合文字处理技术, 利用智能算法,通过计算机技术分析大量的半结构化和非结构化文本信息,可抽取 散布在文本文件中的有价值的信息。32 数据库系统设计由于传统的数据库系统已无法实现对医疗领域中包含的规模大、类型多、结构复杂 的大数据的存储和处理,因此需要采用资源云系统并根据医疗领域中产生的数据的 特

15、征建立数据库,并将这些数据分类存储。利用数据挖掘算法可从这些数据中提取 出有用的信息,然后利用高速云处理技术对提取出的信息进行分析处理。33 数据挖掘分析 数据挖掘的核心是数据的特征与属性的提取,并依据特征和属性对数据进行分类 17。在进行数据挖掘之前需要做好数据的预处理,以改善数据质量,提高数据挖 掘结果的有效性和准确性18。在进行数据挖掘时需要根据数据的特征、属性和研 究目的选择合适的工具和分析方法。数据挖掘分析目前已应用于基因芯片分析、DNA序列比对、医疗文献的挖掘以及医疗数据的可视化等1。34 影像信息分析方法 医学影像技术在疾病诊断中的应用越来越普遍,医学影像信息已成为疾病诊断的重

16、要工具。医学影像信息为非结构化数据,在进行影像信息分析时需要运用可视化分 析技术、计算机图形学技术及图像处理技术,常用工具有TDA、Cite Space、 Histcite、Vxinsight等软件。B超、CT、MRI、SPECT、PET等数据处理技术也 可以应用于医学图像的分析9。4大数据分析技术在医疗领域的应用 大数据分析在医药领域,尤其是医药开发、疾病诊治、疾病危险因素分析、疾病发 病预测、个体化的精准医学等方面具有重要意义。41 大数据分析技术在基因生物学中的应用自1990开始至2004完成的人类基因组计划(Human Genome Project),对 人类23对染色体基因中30亿个碱基对进行测序和鉴定,目前已知人类有20500 个基因,这些基因在不同微环境中存在很

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号