大数据分析方法

上传人:新** 文档编号:486524202 上传时间:2023-10-02 格式:DOCX 页数:7 大小:22.05KB
返回 下载 相关 举报
大数据分析方法_第1页
第1页 / 共7页
大数据分析方法_第2页
第2页 / 共7页
大数据分析方法_第3页
第3页 / 共7页
大数据分析方法_第4页
第4页 / 共7页
大数据分析方法_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《大数据分析方法》由会员分享,可在线阅读,更多相关《大数据分析方法(7页珍藏版)》请在金锄头文库上搜索。

1、大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们 的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看 一下。智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能 和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先 前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人 工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的 数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策

2、者调整市场策略,减少风险, 做出正确的决策。数据挖掘的定义技术上的定义及含义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应 用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的发现的是用户感兴趣 的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持 特定的发现问题。与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知 识发现、数据分析和决策支持等。-何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更

3、把概念、规 则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿 或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如 文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的, 也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查 询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉 学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支 持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数 理统计、可视

4、化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的 研究领域,形成新的技术热点。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自 然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的, 是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然 语言表达所发现的结果。商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据 进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多

5、年的 历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限 制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化 的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是 由于纯机会的(O pportunistic )商业运作而产生。分析这些数据也不再是单纯为了研究的需 要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值 的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信 息,就像从矿石中淘金一样,数据挖掘也因此

6、而得名。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘常用的方法利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、 变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。 分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同 的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到 客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽 车零售商将客户按照对汽车的喜好

7、划分成不同的类,这样营销人员就可以将新型汽车的广告 手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。 回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将 数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包 括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销 的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及 有针对性的促销活动等。 聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于 同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可

8、能小。它可以应用 到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。 关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事 务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关 系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记 录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客 户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供 参考依据。 特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征 式表达了该数据集的总体特征

9、。如营销人员通过对客户流失因素的特征提取,可以得到导致 客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。 变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的 例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企 业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各 种异常信息的发现、分析、识别、评价和预警等方面。 Web页挖掘。随着Internet的迅速发展及Web的全球普及,使得Web上的信 息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经 济、政策、科技、金

10、融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分 析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结 果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处 理,以便识别、分析、评价和管理危机。数据挖掘的功能数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是 从数据库中发现隐含的、有意义的知识,主要有以下五类功能。1、自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今 可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有 关促销的

11、数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定 对指定事件最可能作出反应的群体。2、关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间 存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目 的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不 确定的,因此关联分析生成的规则带有可信度。3、聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实 的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学 分类学。80年代初,Mchal

12、ski提出了概念聚类技术物其要点是,在划分对象时不仅考虑对 象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。4、概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为 特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多, 如决策树方法、遗传算法等。5、偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多 潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量 值随时间

13、的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。数 据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析的本质区别是数据挖掘是在 没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和 可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉 发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有 价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间 有着惊人的联系。数据挖掘应用1、数据挖掘解决的典型商业问题需要强调的是,数据挖

14、掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘 (data mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售如超级市 场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析 (Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。2

15、、数据挖掘在市场营销的应用数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分 原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴 趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为, 然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消 费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业 带来更多的利润。商业消费信息来自市场中的各种渠道。例如,每当我们用信用卡消费时,商业企业就可 以在信

16、用卡结算过程收集商业消费信息,记录下我们进行消费的时间、地点、感兴趣的商品 或服务、愿意接收的价格水平和支付能力等数据当我们在申办信用卡、办理汽车驾驶执照、 填写商品保修单等其他需要填写表格的场合时,我们的个人信息就存入了相应的业务数据库;企业除了自行收集相关业务信息之外,甚至可以从其他公司或机构购买此类信息为自己所 用。这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型 化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定 向营销的决策信息。这种数据信息是如何应用的呢?举一个简单的例子,当银行通过对业务 数据进行挖掘后,发现一个银行帐户持有者突然要求申请双人联合帐户时,并且确认该消费 者是第一次申请联合帐户,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于 购买房屋、支付子女学费等长期投资业务,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号