大数据分析结课论文

上传人:壹****1 文档编号:506851120 上传时间:2022-10-18 格式:DOCX 页数:14 大小:26.61KB
返回 下载 相关 举报
大数据分析结课论文_第1页
第1页 / 共14页
大数据分析结课论文_第2页
第2页 / 共14页
大数据分析结课论文_第3页
第3页 / 共14页
大数据分析结课论文_第4页
第4页 / 共14页
大数据分析结课论文_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《大数据分析结课论文》由会员分享,可在线阅读,更多相关《大数据分析结课论文(14页珍藏版)》请在金锄头文库上搜索。

1、For personal use only in study and research;not for commercial use大数据论文摘 要 数据发展到今天,已不再是一个新的概念,基于大数据技术的 应用也层出不穷,但作为一项发展前景广阔的技术,其很多作用还有待挖掘,比 如为人们的生活带来方便,为企业带来更多利益等。现今,互联网上每日产生的 数据已由曾经的TB级发展到了今天的PB级、EB级甚至ZB级。如此爆炸性的数 据怎样去使用它,又怎样使它拥有不可估量的价值呢?这就需要不断去研究开发, 让每天的数据砂砾”变为黄金”。那么如何才能将大量的数据存储起来,并 加以分析利用呢,大数据技术应运而

2、生。大数据是指无法在可承受的时间范围内 用常规软件工具进行捕捉、管理和处理的数据集合。大数据的战略意义不在于掌 握庞大的数据信息,而在于对这些含有意义的数据进行专业化的处理。本文就大 数据技术进行了深入探讨,从大数据的定义、特征以及目前的应用情况引入,简 述了大数据分析的统计方法、挖掘方法、神经网络方法和基于深度学习框架的方 法,并对大数据分析流程和框架、大数据存储模式和服务机制、大数据分析中的 多源数据融合技术、高维数据的降维技术、子空间分析、集成分析的处理方法等 做了概述。最后,以网络信息安全为例,阐述了该领域的大数据分析过程和方法。关键词大数据;数据挖掘;深度学习;大数据分析;网络信息安

3、全一、大数据概述1.1大数据的定义和特征目前,虽然大数据的重要性得到了大家的一致认同,但是关于大数据的定义却众说 纷纭。大数据是一个抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些 特征决定了大数据与海量数据”和非常大的数据这些概念之间的不同。一般意义 上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、 管理、处理和服务的数据集合。科技企业、研究学者、数据分析师和技术顾问们,由于 各自的关注点不同,对于大数据有着不同的定义。通过以下定义,或许可以帮助我们更 好地理解大数据在社会、经济和技术等方而的深刻内涵。2010年Apache Hadoop组 织将大数据定

4、义为,普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理 的规模庞大的数据集。在此定义的基础上,2011年5月,全球著名咨询机构麦肯锡 公司发布了名为大数据:下一个创新、竞争和生产力的前沿的报告,在报告中对大数据的定义进行了扩充。大数据是指其大小超出了典型数据库软 件的采集、存储、管理和分析等能力的数据集。该定义有两方而内涵:(1)符合大数 据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;(2)不同部门符 合大数据标准的数据集大小会存在差别。目前,大数据的一般范围是从几个TB到数个 PB (数千TB)2。根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标 准,数据规模

5、不断增长,以及无法依靠传统的数据库技术进行管理,也是大数据的两个 重要特征。大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据 分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大 数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领 域数据集的分析可能会产生不同级别的潜在价值。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.大数据的主要特 征5个,即5” V特征:Volume(容量大)、Variety(种类多)、Velocity(速度快)、难辨识 (veracity)和最重要的Value(价值密度低)。Volume(容

6、量大)是指大数据巨大的数据量与数据完整性。可指大数据集合中包含的 数据多,也可指组成大数据的网络包含的子数据个数多。Variety (种类多)意味着要在海量、种类繁多的数据间发现其内在关联。大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类 型,乃至其他数据类型。Velocity(速度快)可以理解为更快地满足实时性需求。大数据的结构和内容等都可动 态变化,而且变化频率高、速度快、范围广,数据形态具有极大的动态性,处理需要极 快的实时性。Veracity (难辨识)可以体现在数据的内容、结构、处理、以及所含子数据间的关 联等多方面。大数据中可以包含众多具有不同

7、概率分布的随机数和众多具有不同定义域 的模糊数。数间关联模糊不清、并且可能随时随机变化。Value(价值密度低)是指大数据的价值密度低,大数据中,往往有用数据和大量无用 数据混在一起,因此大数据处理的一项必要工作就是不断地清垃圾、除噪声。大数 据时代数据的价值就像沙里淘金,数据量越大里面真正有价值的东西就越少。大数据除了以上介绍的四个主要特征外,还具有纬度高,多源性,不确定性、社会 性等特征。1.2大数据应用情况大数据的类型大致可分为三类:(1)传统企业数据(Traditional enterprise data):包括CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据

8、等。(2)机器和传感器 数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪 表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。(3)社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体 平台。大数据挖掘商业价值的方法主要分为四种:(1)客户群体细分,然后为每个群体量定制特别的服务。(2)模拟现实环境,发掘新的需求同时提高投资的回报率。(3)加 强部门联系,提高整条管理链条和产业链条的效率。(4)降低服务成本,发现隐藏线索

9、进 行产品和服务的创新。从三大产业的角度将大数据的核心商业价值分类讨论。大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。从理论上来 看所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因第一、 第二产业的发展速度相对于第三产业来说会迟缓一些。具体实例洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google流感趋势(Google Flu Trends )利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机

10、制。根据需求和库存的情况该公司基于SAS的系统对多达7300 万种货品进行实时调价。医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进 医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。二、大数据分析方法统计方法:指标对比分析法指标对比分析法统计分析的八种方法一、指标对比分析法指标对比分析法,又称比较分析法, 是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变 化的方法,有比较才能鉴别。指标分析对比分析方法可分为静态比较和动态比较分析。静态比较是同一时间条 件下不同总体指标比较,如不同部门、不同地区、不同国家的比较,也叫横向比 较;动态比较是

11、同一总体条件不同时期指标数值的比较,也叫纵向比较。二、分组分析法指标对比分析法分组分析法指标对比分析法对比,但组成统计总体的各单位具有多种特征,这 就使得在同一总体范围内的各单位之间产生了许多差别,统计分析不仅要对总体 数量特征和数量关系进行分析,还要深入总体的内部进行分组分析。分组分析法 就是根据统计分析的目的要求,把所研究的总体按照一个或者几个标志划分为若 干个部分,加以整理,进行观察、分析,以揭示其内在的联系和规律性。 统 计分组法的关键问题在于正确选择分组标值和划分各组界限。三、时间数列 及动态分析法时间数列。是将同一指标在时间上变化和发展的一系列数值,按时间先后顺序 排列就形成时间数

12、列又称动态数列。它能反映社会经济现象的发展变动情况, 通过时间数列的编制和分析,可以找出动态变化规律,为预测未来的发展趋势提 供依据。时间数列可分为绝对数时间数列、相对数时间数列、平均数时间数列。时间数列速度指标。根据绝对数时间数列可以计算的速度指标:有发展速度、 增长速度、平均发展速度、平均增长速度。动态分析法。在统计分析中,如果只有孤立的一个时期指标值,是很难作出判 断的。如果编制了时间数列,就可以进行动态分析,反映其发展水平和速度的变 化规律指数分析法指数是指反映社会经济现象变动情况的相对数。有广义和狭义之分。根据指数 所研究的范围不同可以有个体指数、类指数与总指数之分。指数的作用:一是

13、可以综合反映复杂的社会经济现象的总体数量变动的方向和 程度;二是可以分析某种社会经济现象的总变动受各因素变动影响的程度,这是 一种因素分析法。操作方法是通过指数体系中的数量关系,假定其他因素不变, 来观察某一因素的变动对总变动的影响。用指数进行因素分析。因素分析就是将研究对象分解为各个因素,把研究对象 的总体看成是各因素变动共同的结果,通过对各个因素的分析,对研究对象总变 动中各项因素的影响程度进行测定。因素分析按其所研究的对象的统计指标不同 可分为对总量指标的变动的因素分析,对平均指标变动的因素分析。 五、平 衡分析法平衡分析是研究社会经济现象数量变化对等关系的一种方法。它把对立统一的 双方

14、按其构成要素一一排列起来,给人以整体的概念,以便于全局来观察它们之 间的平衡关系。平衡关系广泛存在于经济生活中,大至全国宏观经济运行,小至 个人经济收支。平衡分析的作用:一是从数量对等关系上反映社会经济现象的平 衡状况,分析各种比例关系相适应状况;二是揭示不平衡的因素和发展潜力;三 是利用平衡关系可以从各项已知指标中推算未知的个别指标。六、综合评价 分析社会经济分析现象往往是错综复杂的社会经济运行状况是多种因素综合作用 的结果,而且各个因素的变动方向和变动程度是不同的。如对宏观经济运行的评 价,涉及生活、分配、流通、消费各个方面;对企业经济效益的评价,涉及人、 财、物合理利用和市场销售状况。如

15、果只用单一指标,就难以作出恰当的评价。 进行综合评价包括四个步骤:1. 确定评价指标体系,这是综合评价的基础和依据。要注意指标体系的全面性 和系统性。2. 搜集数据,并对不同计量单位的指标数值进行同度量处理。可采用相对化处 理、函数化处理、标准化处理等方法。3. 确定各指标的权数,以保证评价的科学性。根据各个指标所处的地位和对总体影响程度不同,需要对不同指标赋予不同的权数。4.对指标进行汇总,计算综合分值,并据此作出综合评价。七、景气分析经济波动是客观存在的,是任何国家都难以完全避免的。如何避免大的经济波 动,保持经济的稳定发展,一直是各国政府和经济之专家在宏观调控和决策中面 临的重要课题,景

16、气分析正是适应这一要求而产生和发展的。景气分析是一种综 合评价分析,可分为宏观经济景气分析和企业景气调查分析。宏观经济景气分析。是国家统计局20世纪80年代后期开始着手建立监测指 标体系和评价方法,经过十多年时间和不断完善,已形成制度,定期提供景气分 析报告,对宏观经济运行状态起到晴雨表和报警器的作用,便于国务院和有关部 门及时采取宏观调控措施。以经常性的小调整,防止经济的大起大落。企业 景气调查分析。是全国的大中型各类企业中,采取抽样调查的方法,通过问卷的 形式,让企业负责人回答有关情况判断和预期。内容分为两类:一是对宏观经济 总体的判断和预期;一是对企业经营状况的判断和预期,如产品订单、原材料购 进、价格、存货、就业、市场需求、固定资产投资等。 八、预测分析宏观经济决策和微观经济决策,不仅需要了解经济运行中已经发生了的实际情 况,而且更需要

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号