[精编]大数据下的信息挖掘技术

上传人:豆浆 文档编号:842889 上传时间:2017-05-18 格式:DOC 页数:4 大小:66KB
返回 下载 相关 举报
[精编]大数据下的信息挖掘技术_第1页
第1页 / 共4页
[精编]大数据下的信息挖掘技术_第2页
第2页 / 共4页
[精编]大数据下的信息挖掘技术_第3页
第3页 / 共4页
[精编]大数据下的信息挖掘技术_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《[精编]大数据下的信息挖掘技术》由会员分享,可在线阅读,更多相关《[精编]大数据下的信息挖掘技术(4页珍藏版)》请在金锄头文库上搜索。

1、大数据下的信息挖掘技术潘 琪 钟晓星 尚 越(63600 部队科技情报资料室,甘肃酒泉,732750)摘要: 大数据 时代的数据量大且数据 结构多样化, 对于数据量早已逾越 TB、增长率惊人、实时性高的大数据,如何快速挖掘隐含其中有价值的的或潜在有用的信息 应当被研究工作者加以重视并进一步提升。本文概述了信息挖掘的常用技 术,并提出了大数据背景下信息挖掘的未来研究方向及热点。关键词: 大数据;信息挖掘1 概述近些年,由于以社交网站、基于位置的服务 LBS 等为代表的新型信息产生方式的涌现,以及云计算、移动和物联网技术的迅猛发展,无处不在的移动、无线传感器等设备无时不刻都在产生数据,数以亿计用户

2、的互联网服务时时刻刻都在产生着数据交互,大数据时代已经到来。在当下,大数据炙手可热,我们创造大数据同时也被大数据时代包围。虽然大数据的市场前景让人充满期待,但是在公众眼中,对于数据量早已逾越 TB、增长率惊人、实时性高的大数据,如何分析、管理、利用大数据等工作仍将面临若干的挑战。目前,对于大数据的定义尚未达成完全的共识。维基百科对大数据的定义为:所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理帮助企业经营决策更积极目的的资讯。互联网数据中心对大数据的定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代构架和技术。所有对大

3、数据的定义基本上是从大数据的特征出发,通过这些特征的阐述和归纳给出其定义。在这些定义中,可将大数据的特点总结为:规模性(volume) 、多样性(variety) 、高速型(velocity)和价值性(value) 。大数据时代的数据量大且数据结构多样化,其复杂程度早已超过了传统意义上的关系数据库。另外,随着大数据已经渗透到人们生活的各个领域,很多行业都开始增加对大数据的需求。但普通用户往往更关心结果的展示,数据的复杂性限制了普通用户从大数据中直接获取知识。因此,如何从浩瀚如海洋的大数据中挖掘出具有价值的信息应当被研究工作者加以重视并进一步提升。2 信息挖掘技术中的关键技术及系统流程在大数据时

4、代,信息挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中提取隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。信息挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到信息挖掘这一新兴的研究领域,形成新的技术热点。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助正确决策。大数据呈现出了数据的新价值,信息挖掘技术是大数据时代最本

5、质特征。数据规模大,数据类型多,价值密度低,但总体的数据价值高,信息处理有速度要求。信息挖掘技术是大数据时代的灵魂和核心,信息挖掘技术涉及多种多类的知识节点,研究信息挖掘的关键技术,帮助选择最好的信息挖掘工具,最终达到决策支持的作用。大数据的挖掘常用技术分为大数据采集技术、大数据预处理技术以及大数据分析及挖掘技术。2.1 信息挖掘中的关键技术2.1.1大数据采集技术数据是指通过 RFID 射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速

6、数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化

7、接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。2.1.2大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。2.1.3大数据分析及挖掘技术常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。(1)分类是找出数据库中的

8、一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中,可以应用到涉及到应用分类、趋势预测中。(2)回归分析回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。(3)聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规则是隐藏在数据项之间的关联或相互关系,即可以根

9、据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。(5)神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决信息挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield的离散模型和连续模型为代表。第三类是用于

10、聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的信息挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。(6)Web信息挖掘是一项综合性技术,指Web 从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P看做是输出,那么Web挖掘过程就可以看做是从输入到输出的一个映射过程。2.2 信息挖掘技术实现流程如图1所示,信息挖掘技术实现的总体流程图,分别对其中的每个步骤解释如下:(1)确立目标样本。即由用户选择目标文本,作为提取用户的特征信息;(2)提取特征信息。即根据目标样本的词频分布,从统计词典中提取出挖掘目标的特向

11、量并计算出相应的权值;(3)信息获取。即先利用语义引擎站点选择待采集站点,再利用Robot程序采集静态信息,最后获取数据库中的动态信息,生成资源索引库;(4)信息特征匹配。即提取索引库中的源信息的特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息返回给用户。3 信息挖掘技术的未来研究方向及热点从挖掘任务和挖掘方法的角度,着重突破:1.可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。2.数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让

12、我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。3.预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。4.语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。5.数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。4 结束语随着数据爆炸式的增长,我们正被各种数据包围着。正确利用大数据将给人们带来极大的便利,但与此同时也给传统的数据分析带来了技术的挑战。本文对大数据的挖

13、掘关键技术及系统流程进行了详细的分析。总的来说,虽然我们已经进入大数据时代,但是“大数据”技术还仍处于起步阶段,进一步地开发以完善大数据挖掘技术仍旧是大数据研究课题的热点。参考文献1 黄君献,欧薇.信息技术与信息服务国际研讨会论文集:A 集C.北京:中国社会科学出版社,2003.2 马宏斌,王柯,马团学.大数据时代的空间数据挖掘综述B. 测绘与空间地理信息,2014,37(7):19-22.3 王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考A. 中国电子科学研究院学报,2013,8(1):8-17.4 Gudivada V N.Information retrieval on the World Wide Web.IEEE Internet Computing,19995 李水平.数据采掘技术回顾.小型微型计算机系统,1999潘 琪 钟晓星 尚 越单位:63600 部队科技情报资料室电话:0937-2461148(地线)0911-361148(军线)电子信箱:通信地址:甘肃省兰州市 27 支局 10 信箱 10 号邮政编码:732750

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号