大数据技术论文

上传人:吾畏 文档编号:149213450 上传时间:2020-10-25 格式:DOCX 页数:8 大小:23.63KB
返回 下载 相关 举报
大数据技术论文_第1页
第1页 / 共8页
大数据技术论文_第2页
第2页 / 共8页
大数据技术论文_第3页
第3页 / 共8页
大数据技术论文_第4页
第4页 / 共8页
大数据技术论文_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《大数据技术论文》由会员分享,可在线阅读,更多相关《大数据技术论文(8页珍藏版)》请在金锄头文库上搜索。

1、数据预处理技术调查研究摘要:随着互联网的快速发展,第四次工业革命浪潮的到来。大数据在二十一世纪里成为了互联网领域最为重要的一部分。因此调查大数据的数据预处理技术在医疗领域的应用情况。关键词:大数据;数据采集;数据预处理;医疗。引言:随着大数据技术的发展,大数据的应用越来越广泛,以及所衍生出的大数据产业也在逐步完善。各国政府也都开始重视大数据在本国的发展。为此,本文希望阐述大数据中数据采集和数据预处理技术的基本原理及调查数据预处理在各领域的应用情况。1、 数据采集二十一世纪是大数据时代,那么什么是大数据?业界公认的大数据应当满足4v的特性(variety、velocity、value、volum

2、e)及数据的种类多、体量大、处理速度快、价值密度低。大数据时代我们不应该只谈论它的表面,而要更深入的了解它的技术实现过程及发展前沿。大数据技术分为几个步骤:数据的采集、数据的预处理、数据的分析、数据的可视化。这几个步骤最终得以挖掘出有价值的信息以便更好地做各种决策指导。数据的采集是大数据预处理的前提,要想做大数据的后续工序必须要有数据的来源才能进行。数据的采集顾名思义就是数据的收集过程。数据的采集途径有很多种,可以从各企业的数据库系统中获取。这种方式是比较直接的数据采集,没有过多复杂的操作。直接把数据从中引入即可完成。此外,还可以通过实时的调查研究采集数据,此过程需要制定适合的调查方法以适应不

3、用的场景进行的数据采集。实时调查得到的数据也比较真实可靠,但需要一定的时间与人力。可以通过物联网系统采集数据,物联网系统数据是数据获取的重要组成部分。它可以通过各种传感器来捕获数据,所产生的数据量是巨大的。如今是web2.0的时代互联网产生的数据同样巨大,我们也可以从互联网中进行数据的采集来获取数据。互联网中的数据有来自各种的通讯交流平台,有来自各种网页中的内容,复杂多样。有结构化的、半结构化的、非结构化的数据。网页数据的采集最重要的一种工具是网络爬虫。网络爬虫是一种按照一定的规则、自动爬取网页数据的程序或脚本。网络爬虫一般会选择用Python语言来编写,因为Python语言中的类库更加的丰富

4、强大。网页的展示是通过浏览器向服务器发送请求与此同时当服务器收到请求时就会响应并发送相关的数据返回给浏览器并展示页面。而网络爬虫就是模拟浏览器向服务器发送请求的过程以获取所需的数据。1爬虫可以分为几个重要的模块即数据采集模块、数据处理模块和数据模块。数据采集模块就是网络爬虫爬取数据并存取数据的过程。数据处理模块把爬取到的空链接和重复的内容进行过滤处理以提高数据的质量。数据模块:经过处理的数据可以分为3类。第一类是SiteURL,即需要抓取数据的网站URL信息;第二类是SpiderURL,即已经抓取过数据的网页URL;第三类是Content,及经过抽取的网页内容。爬虫的基本工作流程:第一步:从S

5、iteURL中抽取一个或多个目标链接写入URL队列,作为爬虫爬取信息的起点;第二步:爬虫的网页分析模块从URL队列中读取链接;第三步:从Internet中获取该链接的网页信息;第四步:从当前网页中抽取新的网页链接;第五步:将获取的网页内容值写入数据库的Content,并将此URL存入SpiderURL; 第六步:从网页内容中抽取所需属性的内容值;第七步:从数据库中读取已经爬取过内容的网页地址即Spider中的链接地址;第八步: 将抽取出的URL和已经抓取过的URL进行比较以过滤URL ;第九步:如果该网页地址没有被抓取过,则将该地址写入SiteURL;如果已经被抓取过则放弃存储此网页链接。网络

6、爬虫是按照一定规则来抓取数据的而这些规则称之为爬虫的抓取策略。爬虫的抓取策略有三种方式分别是:深度优先遍历策略、宽度优先遍历策略、反向链接数策略。深度优先遍历策略是纵向遍历的策略,当一条纵向路径遍历完之后才进行另一条路径的遍历。宽度优先遍历策略是横向遍历的策略,当一层路径遍历完之后才进行下一层路径的遍历。反向链接数策略是按照一个链接的子链接数的多少来进行的遍历,如果一个链接的子链接的数目较多说明此链接较为重要就会优先遍历,反之推后遍历。2、 数据预处理2.1什么是数据预处理数据预处理是大数据技术的重要环节,想要更好更高效地完后续的步骤数据预处理是不可缺少的步骤。数据采集步骤所采集的数据部分是不

7、完整,不一致的数据。这类数据称之为脏数据。脏数据很难进行挖掘,或挖掘出的结果不乐观,价值密度特别的低。脏数据没什么价值反而会干扰数据挖掘的结果,所以这些脏数据往往会在数据挖掘之前把它剔除掉,以便提高数据挖掘的质量。数据预处理的方法有:数据清洗、数据集成、数据变换、数据归约等。数据清洗即对数据进行审查和校正的过程,把重复的数据删除和纠正错误的无效的数据。数据集成即把来源不同的、格式不一致的数据有机地集中在一起以便对数据实现整体上地操作。在企业和科研院所中由于时间和空间上地差,往往数据是分散的、独立的、封闭的,很难对数据在各个系统之间进行交流和融合,因此就形成了“信息孤岛”。这往往会制约企业对数据

8、的有效利用,所以就要用到数据集成技术把这些孤岛给连接起来,从而达到数据互通和整体操作。数据交换是指数据终端之间建立的数据通信实现临时的互联的过程。数据交换的方式可以分为:电路交换、报文交换、分组交换、混合交换。数据归约即对数据进行简化后大体上仍然不改变数据的原貌,数据归约之后对数据分析的结果不产生影响,所产生的分析结果相同或几乎相同。归约后的数据更加精简。2.2数据预处理的意义 数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。数据采集所得的数据繁杂有许多不满足数据分析的要求并且会影响到分析的结果,因此进行数据预处理是必须进行的步骤。导致不正确的数据(具有不正确的属性

9、值)可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。为了使后续的操作步骤更加便捷、更加快速,数据预处理是关键一环。数据预处理地意义:第一、数据预处理它不但节约了时间成本而且也节约了空间成本;第二、数据预处理把数据的格式进行标准化,把异常的数据给清除掉,保证了数据挖掘模式的质量,提高了分析结果的可靠性。数据预处理技术在大数据时代中的大数据技术起到了关

10、键性的作用,推动了大数据技术的进一步发展。总之,数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常,尽早的调整数据,并归约待分析的数据,将为决策带来高回报。3、 数据预处理的应用随着信息科技的快速发展,人类社会开始步入创造和挖掘知识的信息革命时代。信息技术逐渐应用于电信、金融、教育、电子商务甚至政府决策等领域。而在国家全面建设医疗信息化的浪潮中,将大数据技术应用于与民生息息相关的医疗健康领域成为当下发展的一个热点。由于医疗数据的特点如海量、

11、高维度、不规范等,对医疗健康信息进行数据预处理是挖掘分析前的一个不可或缺的重要步骤。通过预处理分析不仅可以提高数据挖掘的质量,还能从一定程度上提高挖掘效率。统计显示,一般的医有疗机构每年会产生1TB到20TB的数据,一些大医院甚至可以产生300TB到1PB的数据。随着技术的不断进步,人们处理数据的能力和技术也不断增强。从前, 人们只能看着这些宝贵的数据白白丢失;现在,这些数据有望被运用到智慧医疗方面,即让患者就医更方便、疾病诊断更加高效,以及医疗信息更加准确。在挖掘医疗数据方面,涉及到医院、医联体等医疗机构,现在这些机构越来越重视医疗数据,虽然这些机构可能并没有找到比较好的处理和分析这些数据的

12、方法;收集医疗数据,虽然大量医疗数据的收集依旧在医院等医疗机构,但是其中可穿戴设备厂商俨然一股不可小觑的势力,并且收集的数据形式、数量、种类也越来越多样化,这对医疗大数据的组成也是必不可少的一部分;分析医疗数据,现在市场上已经有不少涉及医疗数据分析 业务的企业,像碳云智能,23魔方等企业;存储数据,由于大数据本身具备的规模大,机构多样、增长快速等特性决定医疗数据必然也会涉及到存储的问题,目前互联网巨头BAT,以及IBM等大型企业也均在构建自己的医疗大数据库;医疗大数据的实用,目前市面上的移动医疗 公司均打着大数据个性化定制等口号,像春雨医生智能问诊、掌上糖医、IBM沃森精准医疗,23墨方基因预

13、测等,但是做到医疗大数据的实用,首先需找到一个有效的分析手段以及具备有大数据级别的医疗数据来源。医疗大数据的服务对象主要有:居民、医生、科研、管理机构、公众健康。其中根据收集到的信息主要介绍以下三家企业:碳云智能:将基于全球专业度最高、指数增长的全息全程健康医疗大数据,通过顶尖的数据挖掘和机器分析技术,提供私人专享的健康指数分析和预测。面对的客户群体包括:研究机构,药厂,体检中心,医院,诊断公司,保险公司,健康管理公司等。雅森科技:作为国内最早一家从核医学领域切入的CAD公司,目前也是医学影像人工智能分析大军中的一员,专注于采用各类数学算法进行医疗图像处理、机器训练、大数据库比对、标准生物物理

14、影像模型的开发与应用,将海量数据可以转化为高效的诊断能力。太美医疗致力于信息技术在医疗领域的应用,为医疗行业提供SaaS解决方案。产品和服务涵盖临床研究和药物警戒等领域。4、 总结及展望数据预处理技术是大数据技术的重要组成部分,其在医疗领域已经开始布局并实现医疗的赋能。大数据的应用远远不止于此,在金融、交通、电子商务、政务、军事等领域也发挥着重大的作用。其具有重大的战略意义,政府部们应当为大数据技术的发展提供政策的支持以全面提高我国在该领域的竞争力。大数据赋能各领域是一个发展趋势,大数据的未来一定会更加地精彩。参考文献-1孟宪伟,许桂秋,万世明,等. 大数据导论 人民邮电出版社,2019:5255.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 大学论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号