大数据的概念及相关技术

上传人:大米 文档编号:506598205 上传时间:2022-11-19 格式:DOCX 页数:3 大小:11.48KB
返回 下载 相关 举报
大数据的概念及相关技术_第1页
第1页 / 共3页
大数据的概念及相关技术_第2页
第2页 / 共3页
大数据的概念及相关技术_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据的概念及相关技术》由会员分享,可在线阅读,更多相关《大数据的概念及相关技术(3页珍藏版)》请在金锄头文库上搜索。

1、一. 大数据的概念大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目 前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业 经营决策更积极目的的资讯。(在维克托迈尔-舍恩伯格及肯尼斯库克耶编写 的大数据时代中大数据指不用随机分析法(抽样调查)这样的捷径,而采 用所有数据的方法2)大数据的4V特点:Volume(大量)、Velocity(高速)、 Variety (多样)、Value (价值)。“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、 数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相 追捧的利润焦

2、点。二. 大数据的相关技术1 .大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联 网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非 结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高 可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、 转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通 信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、 半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信

3、号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、 感知、适配、传输、接入等技术。2. 大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们 将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的 目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容, 而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。3. 大数据存储及管理技术大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据 库,并进行管理和调用。重点解决复杂结

4、构化,半结构化和非结构化大数据管 理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传 输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计 算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非 关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研 究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技 术;开发大数据可视化技术。开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数 据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值 数据库、列存数据库、图存数据库以及文档数据库等

5、类型。关系型数据库包含 了传统关系数据库系统以及NewSQL数据库。开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数 据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完 整性验证等技术。4 .大数据分析及挖掘技术大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特 异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、 网络行为分析、情感语义分析等面向领域的大数据挖掘技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在

6、有用的信息和知识的 过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预 测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依 赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、 时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球 网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法 和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳笥、基 于范例学习、遗传算法等。统计方法中,可细分为:回归分析侈元回归、自回归 等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等

7、)、聚类分析(系统聚类、 动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特 征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外 还有面向属性的归纳方法。从挖掘任务和挖掘方法的角度,着重突破:1)可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本 的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。2)数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母 语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据, 挖掘价值。这些算法一定要能

8、够应付大数据的量,同时还具有很高的处理速度。3)预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判 断。4)语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提 取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答 系统等。5)数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程 和机器对数据进行处理可以确保获得一个预设质量的分析结果。5.大数据展现与应用技术大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经 济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集 约化程度。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如: 商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息 处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路 监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数 据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号