关于大数据基本概念及数据挖掘的算法

上传人:笛音 文档编号:25580803 上传时间:2017-12-15 格式:DOCX 页数:8 大小:29.38KB
返回 下载 相关 举报
关于大数据基本概念及数据挖掘的算法_第1页
第1页 / 共8页
关于大数据基本概念及数据挖掘的算法_第2页
第2页 / 共8页
关于大数据基本概念及数据挖掘的算法_第3页
第3页 / 共8页
关于大数据基本概念及数据挖掘的算法_第4页
第4页 / 共8页
关于大数据基本概念及数据挖掘的算法_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《关于大数据基本概念及数据挖掘的算法》由会员分享,可在线阅读,更多相关《关于大数据基本概念及数据挖掘的算法(8页珍藏版)》请在金锄头文库上搜索。

1、关于大数据基本概念及数据挖掘的算法一、 大数据基本概念大数据 Big Data 是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。大数据的预处理主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。(2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而

2、提取出有效数据。大数据带来的数学问题在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的所有数据集都是有限集合。大数据采样把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响大数据表示表示决定存储、表示影响算法效率大数据不一致问题导致算法失效和无解、如何消解不一致大数据中的超高维问题超高维导致数据稀疏、算法复杂度增加大数据中的不确定维问题多维度数据并存、按任务定维难大数据中的不适定性问题高维导致问题的解太多难以抉择大数据的特征稠密与稀疏共存:局部稠密与全局稀疏冗余与缺失并在:大量冗余与局部缺失显式与隐式均有:大量显式与丰富隐式静态与动态忽现:动态演进与静态关联

3、多元与异质共处:多元多变与异质异性量大与可用矛盾:量大低值与可用稀少目前大数据的外延大数据规模大小是一个不断演化的指标:当前任务处理的单一的数据集,从数十 TB 到十几 PB 级的数据规模(TBPBEBZB)处理大数据的可等待的合理时间依赖任务的目标:地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在 7 天之内、数据挖掘一般要求在 12 小时内二、 大数据悖论大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算 科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产

4、要素。大数据具有“取之不尽,用 之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。根源在于,大数据的价值在于预测未知领域、 非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场 需求。解决悖论的过程,恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动力。方法论缺位自 2008 年自然杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化 转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上

5、的规模庞大,并不能轻易地将大数据与以往的“海量数据” 、 “超大规模数据”等区别开,因 为三者均没有设置数量级等门槛。方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望 需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方 式提供,事实上思维和方法论才是决定大数据成败的关键,但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。在社会难题中淘金正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样,悖论是理论、技 术和应用进步的

6、巨大推动力。大数据悖论的解决,也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后,大数据技术趋势一下子 跌到谷底,许多数据创业公司变得岌岌可危 根据这条著名的 Gartner 技术成熟度曲线,大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来 35 年 内步入低谷期。市场中的鸿沟大数据营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等 5 个阶段。这 5 个阶段之间存在着 4 条裂缝,其中最大、最危险的裂缝存在于早期市场与主流市场之间,我们称之为“鸿沟” 。大数据的主流市场来源于实用主义的早期大众和保守主义的后期大众,两者各自占据大数据市场 1/3 的

7、份额。这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累,并深谙大数据的社会价值和经济价值。有所不同的是,前者希望看到成熟的解决方 案和成功的应用案例,它们大多是金融、能源、电信等公共服务部门。而后者需要有更安全可靠的大数据保障和广泛的社会应用基础,它们大多是致力于解决环境、 能源和健康等社会问题的公共管理部门。大数据技术和应用获得创新者的追捧是显而易见的,获得早期市场的拥护也是轻而易举的。但是,不因“时髦”而加入,不因“过时”而退出,才能成为大数据主流市场的掘金者。遗憾的是,不少企业或许会成为“鸿沟中的牺牲者” ,而无缘迎接大数据真正应用市场的到来。规划整体产品现代营销奠基人之

8、西奥多莱维特给出了“整体产品”的概念。根据这一概念,大数据产品应该包括作为“核心吸引物”的一般产品、满足初级心理需求的期望产品和实现更高阶参与以及自我实现的延伸产品和潜在产品 4 个部分。三、 大数据挑战性问题现有的数据中心技术很难满足大数据的需求,需要考虑对整个 IT 架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT 系统的关键。数据的移动已成为 IT 系统最大的开销,目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT 系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而

9、不是将数据推送给计算。应对处理大数据的各种技术挑战中,以下几个问题值得重视:1、大数据对科学规范的挑战大数据带来了新的科研范式科研第四范式是思维方式的大变化,已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式” ,将大 数据科研从第三范式中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数据模型的传统研究方式。PB 级数据使我们可以做到没有模型和假设就可以 分析数据。将数据丢进巨大的计算机机群中,只要有相关关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。大数据如何应用于开放的研究大数据基于对海量数据的分析产生价值,那么如何获得海量数据来让大数据真正落

10、地呢?这其中最不可或 缺的一个环节就是数据开放。现在推进数据开放更为重要的是通过数据的共享来产生更多的价值。数据开放能够提高社会运行效率,积极整合各方公开的数据,建立 基于大数据的城市规划来缓解交通和社会治安问题。 数据开放能够激发巨大的商业价值,数据开放是面向社会大众的开放,任何人只要有能力都可以用它来创造 新的商机。加强数据开放,为大数据发展打牢基础。在大数据应用日益重要的今天,数据资源的开放共享已经成为在 数据大战中保持优势的关键。促进商业数据和个人数据的开放与共享。商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展,产生巨大的经济价值,也 能给我们的生活带来巨大的便利。经常网购

11、的人会有这样一种体验。很多电商网站能够在我们买书的时候,推荐我们刚好喜欢的其他书籍,这正是网站根据成千上万 甚至上亿人的个人数据的统计分析而得出的,但是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。因此,完善个人隐私保护等相关立法,对哪些 个人数据可以进行商业化应用、应用范围如何界定、数据滥用应承担哪些责任等具体问题做出规范,从而保证数据开放工作稳步推进,为大数据发展应用打好根基。重现大数据研究结果数据量的增大,会带来规律的丧失和严重失真。维克托迈尔-舍恩伯格在其著作大数据的时代中也 指出“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库, ”此外,大数据的另外一层

12、定义,多样性,即来源不同的各种信息混杂在一起会加大 数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。大数据意味着更多的信息,但同时也意味着更 多的虚假关系信息,海量数据带来显著性检验的问题,将使我们很难找到真正的关联。我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:上表是关于某年网络游戏历程扩散的回归分析,当样本量是 5241 个的时候,你会发现用一个简单的线 性回归拟合这个数据,年龄、文化程度、收入这三个变量显著,当我们把样本量增加到 10482 个的时候,发现独生子女和女性开始显著,增加到 20964 个的 时候,体制外

13、这个变量也开始显著,当样本增加到 33 万的时候,所有变量都具有显著性,这意味着世间万物都是有联系的。样本大到一定程度的时候,很多结果自 然就会变得显著,会无法进行推论,或者得出虚假的统计学关系。此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这种虚假关系随着数据量的增长而 增长,我们将很难再接触到真相。事实上,真实的规律是这样的:对一个社会现象进行客观深刻准确的分析,对事物的理解需要数据,但更需要分析思维,在大数据时代,理论并非不重要,而是变得更加重要。我们所指的理论也并非僵化一成不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。大

14、数据研究结果可信与否 大数据时代一书的作者维克托迈尔-舍恩伯格说,大数据的核心就是预测。它通常被视为人工智能 的一部分,或者更确切地说,被视为一种机器学习。他认为,大数据大大解放了人们的分析能力。一是可以分析更多的数据,甚至是相关的所有数据,而不再依赖于 随机抽样;二是研究数据如此之多,以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究,而可以在相关关系中发现大数据的潜在价值。因此,当 人们可以放弃寻找因果关系的传统偏好,开始挖掘相关关系的好处时,一个用数据预测的时代才会到来。不可否认,大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步,是人类 决策工具的进

15、步。改编自迈克尔刘易斯的魔球:逆境中制胜的智慧的影片点球成金 ,讲述了一个真实的故事,介绍了奥克兰运动家棒球队总经理比利比 恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利比恩的成功称得上是 对球探们经验决策的颠覆,是让数据说话的成功范例。正如维克托迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数 据旁证的博弈其实是人和机器的博弈。即便是有一将难求的数据科学家的协助,大数据决策依然是辅助系统。在这一阶段,云计算是基础设施,大数据是服务工具,两者将满足特定语境下的、短线的市场需求,更重

16、要的是它们还能发挥其在非特定语境下破解社会难题的价值。换言之,大数据将演绎“信息转化为数据,数据集聚成知识,知识涌现出智慧”的进程。2、大数据带来的社会问题在基于社交媒体和数字化记忆的大数据时代,人们不仅担心无处不在的“第三只眼” ,而且担心隐私被二 次利用。因为,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,包括我们的社交关系网可怕的不是这些隐私数据,而是 大数据的全数据分析、模糊计算和重关联却不求因果的特性,让隐私数据与社交网络等关联起来。按照维克托迈尔-舍恩伯格的说法,危险不再是隐私的泄漏,而 是被预知的可能性这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险,无法贷款,甚至实施犯罪前就被预先逮捕。无论如何,大数据正在推动产权认知和结构的变革,以往 IT 产业链的主宰者或将在变革中遭遇冲击。大 数据的魅力在于它能够让企业在无边界的数据海洋里遨游,发现社会进步的内在韵律,捕捉社会发展的先行参数。比如从消费者兴

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号