基于云计算的海量数据挖掘

上传人:飞*** 文档编号:40501950 上传时间:2018-05-26 格式:DOC 页数:3 大小:29KB
返回 下载 相关 举报
基于云计算的海量数据挖掘_第1页
第1页 / 共3页
基于云计算的海量数据挖掘_第2页
第2页 / 共3页
基于云计算的海量数据挖掘_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于云计算的海量数据挖掘》由会员分享,可在线阅读,更多相关《基于云计算的海量数据挖掘(3页珍藏版)》请在金锄头文库上搜索。

1、何清:各位上午好,我报告的题目是“基于云计算的海量数据挖掘”。这个题目是前一段在中国移动的实践,以及后来有关基于云计算挖掘的研究来做出的。首先我谈一下海量数据挖掘的背景,就是由于云计算的兴起。1、有关于云计算实际上在上一届会议上,以及在这一次会议上,大家所引用的这个定义,都是在动态的变化着。但是作为一个研究的对象,它的发起实际上是从企业发起的,作为一个研究的对象,需要给它一定的定义,我这里所列出的是,李院士昨天给大家的定义。我给的定义可能还有一个连接词,实际上云计算按照讨论,是一种基于互联网、大众参与的计算模式,其计算资源包括计算能力、存储能力伸缩、且被虚拟化的,而且以服务的方式提供,这是一个

2、基本的目前的一个认识。下面这些是在不同角度对它进行的解释。基于云的数据挖掘这件事情,在我们中国开始来做是有中国移动他们发起做云计算平台开始,到 09 年的 11 月,我们中科院计算所就在跟中国移动合作,就开发出了进行数据挖掘的平台。2、云计算的兴起实际上带来了很多的机遇,中小企业购买昂贵 IT 设备的成本降低了,服务器、硬件、PC 这些销售都带来了很大的机遇。对于我们搞软件的提供是最好的机会,就是说提供一种新的技术服务,就是云服务,这时候对于用户来说,它不需要购买硬件,也无需开发软件,他就可以得到云计算的服务,并能在线实施一些监控。云计算的应用,在国外我列举这几个比较也代表性的应用,下面我在实

3、践过程当中,也可以讲到我们和中国移动所进行的实践。数据软件发展的历程,我结合其他资料划分成 5 代,到现在基于云计算的并行数据挖掘的方式,应该算作第 5 代。第 1代就是单独算法,单个系统,单个机器,而且是向量数据。第 2 代和数据库结合起来,有多个算法。第 3 代跟预测模型更多去集成起来,而且它支持了外部数据、半结构化的数据,应该说这种情况下是一种网络化计算。第 4 代是分布式数据挖掘,这种情况是在 2000 年到 2005 年左右,所做的一件事情。基本上是基于网格计算的概念,来做多个算法,分布在多个节点上的方式。第 5 代,就是现在基于云计算的并行数据挖掘与服务的模式,它的同一个算法可以分

4、布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式,数据也就是用 DFS。编程跟模式,它采用了 Map/reduce 这种方式,在 NIPS2006 这篇文章里面所发表的,是用 Map/reduce 编程完成了很多基于学习的方法,用到实际的时候,也就是数据挖掘算法的并行化,这是一项非常有重要意义的工作。目前基于 hadoop 的数据挖掘工作,这个项目致力于数据挖掘并行化,以计算方式来做数据挖掘来参与项目。为什么要用云计算的方式来处理海量数据进行挖掘呢?从需求来讲,首先说我们所处理的数据是海量的,我们以往都期望用高性能机或者是更大规模的计算设备来做这件事

5、情。海量数据实际上我们要从中搞到理解的知识,大规模的数据挖掘是我们追求的目标,并且事实上互联网上的数据增长也特别快,数据挖掘的任务远比搜索任务要复杂。在这种海数据具体挖掘当中的目标,还有一些要求,导致了我们在挖掘过程当中需要有很好的开发环境和应用环境。这种情况下,基于云计算的方式是比较合适的。从外部特征来看,基于云计算我们来做低成本分布式并行计算环境,这个所带来的好处,对数据挖掘来说,中小企业的数据处理成本大大的降低。大企业云计算平台对某些数据,并不再依存于大型能机。另外一个开发方便,屏蔽掉了底层。为什么用云计算平台来做数据挖掘呢?在并行化条件下,我们利用原有设备有大规模数据处理的提高,另外可

6、以方便增加结点,它的容错性都是比较强的。用云计算来做数据挖掘的话有没有问题呢?是有很多的问题。首先从第一方面来说:1、用云计算来做,实际上带来了数据挖掘需求,个性化需求和多样和需求的增加。因为我们的数据挖掘基于云计算来做,最后要发展成的是一种云服务模式,而这种服务必然就面临着个性化和多样化这种要求。2、在做的过程当中,还真是数据所带来的问题是比较多的,首先它的量来说,就是说 TB 级和 PB 级这种企业数据,需要我来处置。另外高维的,有噪声的,还有就是动态的数据,也是需要我们来处理的。问题与挑战:1、基于云计算来做数据挖掘算法的并行应存在一些挑战。什么样的算法来做目前的数据挖掘,这是一个首要的

7、问题,并不是所有算法拿来就能完成目前的任务,我们需要选择合适的算法,并采取适当的并行策略,然后才能提高并行效率。因此算法的设计变得非常重要,参数的调节也变得必不可少,而且参数的调节直接影响最终的结果。这是问题和挑战方面的。2、另一方面的问题和挑战,就是不确定性。数据挖掘当中有很多不确定性,之所以说数据挖掘,实际上就是克服不确定性给我们所带来的影响。首先我们数据挖掘任务的描述具有不确定性,数据采集和预处理也是带有很多的不确定性,采集哪些数据,不采集哪些?预处理的力度有多大?具体的操作是采用什么样的预处理操作,都是有很多的问题。3、数据挖掘的方法和结果有不确定性,哪些是吻合你的目标的?这需要你在做

8、数据挖掘过程当中,把不确定性给确定下来。4、挖掘结果的评价也是不确定的。因为每一个用户所关注的最终的挖掘目标不一样,这就导致了对挖掘结果的评价,它也有不确定性。而且从研究的角度,实际上有很多的评价方式,也给出了很多的评价度量,这要根据你数据的分布,你最终要达到的挖掘目标,根据这些来评判你的数据挖掘是否是有效的。5、软件、服务可信方面的问题与挑战。将来在云计算这种环境下来做数据挖掘,就导致了数据挖掘云服务这个软件的可信性问题变得比较突出。首先服务的正确性是第一个问题,是不是没有不当的,不正确的系统的状态,这就是服务的正确性要关注的,另外还有服务的安全性,就是不要有灾难性的后果。还有就是服务的质量

9、,服务质量有可用、可靠和高性能这三个方面来度量。隐私安全,就是不允许未授权的访问。有关于可信安全方面还有三方面:(1)隐私数据的保护,目前来看隐私数据的保护是数据挖掘、推广,或者是数据挖掘与服务模式推广的一个瓶颈,如果解决不好隐私数据的保护保护,中小企业不可能接受你的数据挖掘与服务,必须解决这个问题。但是解决这个问题是不是说就像一般的信息安全那样,所有信息都加密,这是不一定的,要做适当的隐私数据保护。(2)过程安全。你的模型与需求要有一支性,算法要可检验,过程对用户可控、可视,挖掘结果对用户来说是可理解的,当然对于其他用户来说,它就是很难理解,因为这一点跟隐私数据保护要结合起来做。(3)公共安

10、全问题。这是李院士所谈到的一个观点,云计算安全的本质是信任管理然,也就是说要把信任管理做好,然后有数据挖掘的服务,相对来说这个安全问题、信任问题就解决的比较好。对于上面的问题,我总结一些对策:1、基础建设方面,要建设数据挖掘云服务的平台。要根据个性化和多样化而谈,在云服务平台上,专业人士可以提供服务,大众和各种组织成为服务的受益方,而且这个平台要按领域、行业来构建,这样流程就比较顺。2、数据挖掘云服务还是要依赖于虚拟化技术,要计算资源,要自主分配和调度,也就是说虚拟化技术是数据挖掘云服务技术的支撑。3、需求方面,要想应对个性化、多样化需求,我觉得必须要大众参与,有了大众的参与个性化和多样化的需

11、求就能够更好的得到满足。4、可信性方面,算法要通用,要可查,可调,可视。5、安全方面,隐私数据最后是有客户在自己的平台终端,可以加密来保护,可以有一些安全措施。下面我介绍云数据挖掘的一些实践,主要是讲我们在中国移动所做的一些工作,这是 08 年年底我们做得 PDMiner 的一个体系架构。我们进行了预处理,数据的初期转换等这些事情。往下就是并行数据挖掘,这里面就集成了几个算法,之后是用户界面,用户可以来定制任务,完成它的目标。我们现在所做的 ETL 的组建,ETL 是要把数据加进去,这是一个数据,节点要增加,而且多个任务工作流之间可以相互不干预,在这一节点同时启动,可以处理失败的节点,具有高浓

12、缩能力,开发架构,算法可依配置在加载到平台上。(图)这是两幅图,一个是 ETL 的实验图,这在开发过程当中,所给出的一个图。ETL 的加速比大家可以看出,它是线形的,拓展方面都是比较好的。这实验结果的均类算法,这个算法各方面都是比较好的。跟商用软件来比较精度达到了,从结果上来说跟商用软件有结果的情况下,是可以达到一致的结果。当然有些商用软件受到数据量的限制,还没有结果,这个我就没有办法比较。中国移动数据挖掘分析支撑工具,是对体系结构的一个描述。已完成工作按照中移动,王院长去年大会上所谈到的,就是说用 1/6 的成本实现了 6 倍的性能。近期我们开展的工作就是面向外国做了一个云计算的数据挖掘服务

13、系统。这个系统我们实际上是基于原来后台的系统,开发了一个 Web 界面,提供云计算的并行数据挖掘与服务模式。从一个示意图来看,前台、后台之间的一个交流流程示意图。这是前后台系统关系的逻辑图,按照这个架构,我们开发了面向 Web 的 WPDminer 这个系统。我给大家演示一下播放工具。这有四部分,有数据管理、任务管理、用户管理和系统的使用介绍,我们可以上传文件,察看文件做这些操作。现在我们做一个上传文件,有关任务管理的模块,我们可以创建一个数据管理任务,我们把算法技术一个预处理的转换功能。把它的输入输出参数设定好,把平台的数据都配置好,按照工作流的方式可以再添加另外一个任务,同样的去配置参数。

14、配置完成以后,我们对新创建的任务去执行,在执行过程当中,我们对 Map/reduce 的进程时间是可视的,大家可以看到这个过程。这就是刚刚完成的任务,可以在日志文件里头都可以查看到。 这是一种模式,就是说数据挖掘要用云服务的模式来提供。下面我来给大家介绍最后一点,未来的走向。基于云计算的数据挖掘,未来走向呈现了什么状况?数据挖掘与服务将会兴起,有服务的提供者,也有大众和各种企业组织他们的服务受益方,还有数据挖掘研究来讲不会受到计算环境的影响,数据挖掘应用范围将大大拓宽。数据挖掘将和物联网结合起来做,而且基于云计算的云计算在物联网上不可缺少,高可信的云计算的挖掘和服务是未来的一个参考方向。谢谢大家。主持人:请大家提问。我有一个问题,刚才演示挖掘的是什么?最后显示的这个挖掘的结果。何清:用户挖掘提交任务,看到这个在执行过程当中,这个数据是数据处理的一个储蓄,只是储蓄之间的一个交换,没有做可答的,大家要等好长时间。主持人:谢谢。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号