开题报告-基于云计算的海量数据挖掘算法研究

资源描述

《开题报告-基于云计算的海量数据挖掘算法研究》由会员分享，可在线阅读，更多相关《开题报告-基于云计算的海量数据挖掘算法研究（14页珍藏版）》请在金锄头文库上搜索。

1、在职攻读硕士学位研究生开题报告学号：研究生类别：高校教师工程硕士同等学历研究生：导师：研究方向：人工智能论文题目：基于云计算的海量数据挖掘算法研究专业(学科 )：计算机技术学院：计算机与通信学院入学时间： 2012 年 4 月开题时间： 2014 年 1 月 11 日2014 年 1 月 8 日填报说明一、开题报告中的一至七项必须采用计算机输入和打印，开题报告格式可在研究生部网址http:/ 下载。二、开题报告为 A4 大小，于左侧装订成册。各栏空格不够时，请自行加页。三、开题答辩成绩（即每个学生开题报告评审表的平均成绩）由学院研究生专干填写，学院负责

2、人签署是否同意开题的意见。四、开题报告通过后，分别由研究生、导师、学院和研究生学院各存档一份。1学位论文题目基于云计算的海量数据挖掘算法研究课题来源自选课题一、课题意义及国内外研究现状综述1.1 课题意义随着信息技术应用的广泛深入,特别是电子扫描枪、条码技术、图像识别技术的普遍使用以及管理信息系统、数据库系统的普遍使用,人们产生和收集数据的能力迅速提高。在日常的生活以及管理过程中,大量的数据已经存储在科研机构、企业、政府、银行等各个领域的信息系统中,数据呈现出了爆炸式的增长,然而于此形成鲜明对比的是人们进行数据处理以及数据分析的能力非常有限。互联网的飞速发展更加加剧了 “数据爆炸,知

3、识匮乏”的趋势。数据挖掘就是在这样的背景之下得到广泛重视并且被深入研究,逐步取得一定进展的重要研究领域。数据挖掘(Data mining)是一个多学科交叉的研究领域,它融合了数据库(Database)技术、机器学习(Machine Learning) 人工智能(Artificial Intelligence)、知识工程(Knowledge Engineering )、统计学(Statistics )、面向对象方法(Object-Oriented Method)、高性能计算(High-Performance Computing)、信息检索(Information Retrieval)以及数据可视

4、化(Data Visualization)等最新技术的研究成果。经过十几年的研究,产生了许多新概念和新方法。特别是最近几年,一些基本概念和方法趋于稳定和清晰,它的研究正向着更深入的多学科交叉方向发展。但是随着计算机技术以及网络技术的发展，计算机及网络越来越渗透进人们的日常学习工作生活中，我们今天要面对的，是比海量还要海量的数据。而且这些海量数据也并非简单整齐地排列分布在数量有限的设备上，它们往往是以各种复杂、异构的模式，充满信息噪声的存在于整个网络之中，比如 Walmart 全球范围内的进货、仓储、销售数据。要处理并分析这些数据，所要求的计算能力往往很难在限定的时间范围内达到要求，甚至连传统的

5、分布式计算机集群也未必能满足，而且一个专门的分布式计算机集群网络耗费巨大，日常管理维护的工作也并不轻松。这些问题，都给传统的数据挖掘带来了挑战。所幸的是，云计算（Cloud Computing），就此应运而生了。云计算（Cloud Computing）,是最近几年来在计算机领域刚刚萌芽的一种崭新的革命性概念。云计算的概念天然地为海量数据的存储、分析及处理提供了现实可行性。首先，云平台上的存储2资源、计算能力都是基于传统的分布式计算机集群构建的，易于扩展，稳定性安全性都有了很大的提高；其次，云平台上的资源是虚拟化的，其运行原理对于用户而言是透明的，云计算的用户无需了解云平台的技术细节，不必具备

6、相应的专业知识和技能，也不用对云平台的日常运行进行管理维护操作，只需要关注自己需要使用的资源并且如何通过云平台来获取到相应的服务就足够了；最后也是最重要的，云计算提出了一种先进的商业化理念，它使得计算机的存储能力、计算能力也能够像水、电、煤气等传统的资源一样，按需申请按需使用并且按使用进行付费。如果要对海量的商业、金融、通讯数据进行存储，处理及分析，可想而见，基于云计算平台的数据挖掘应该是符合最优选择的一个工具。云计算，抛开其商业属性，仅仅从技术角度来看的话，它似乎是传统分布式运算、网格计算、以及并行计算等原有计算机技术的一次简单升级。但实际上云计算绝对不是一个简单的计算技术的问题，它融合了许

7、许多多的技术与成果，旨在提倡一种商业化的计算能力提供服务，再加上 Google、Amazon、IBM 、Microsoft 等 IT 巨头们的重视与推动，普通个人用户目前以个人计算机桌面为其主要工作应用平台的状况，很有可能转移到以云计算平台为中心，使用云计算平台按需提供给用户的存储、计算能力，以及文档编辑、照片处理、邮件收发、数据分析等等各项服务。很有可能，今天的我们正在迎接并见证一个全新的全球范围内的云信息化时代。1.2 国内外现状数据挖掘是知识发现的一个重要环节,它是通过建立挖掘模型并通过对应算法来完成知识的发现的。现在很多挖掘工具都提供了关联规则、分类、聚类、决策树等多种模型和算法以便选

8、择使用。这里以关联规则挖掘算法以及聚类算法作为切入点,总结了关联规则挖掘以及聚类挖掘算法研究的进展情况,重点介绍了现如今针对大规模数据集进行关联规则挖掘以及聚类挖掘的研究进展。1.2.1 数据挖掘经典算法数据挖掘虽然并不同于以往的统计分析，可以发掘出事先并不为人们所知的知识或规律。但在挖掘算法开始工作前，仍然需要事先给算法确定一个挖掘任务，或者说必须由人工选定某种特定的挖掘算法，在特定的数据集上，以某种特定的模式开展挖掘工作。如果任由挖掘算法在海量数据中去运行，想期待其能够自动地发现出某些知识，这是不可能完成的任务。通过数据挖掘去发现知识或规律，一般有两种模式：统计分析型的数据挖掘和预测决策型

9、的数据挖掘。统计分析型的挖掘任务是在对历史数据统计、分类的基础上，将数据的共同具有的特征及数据所能反映的一般的历史性规律展示出来；而预6测决策型的挖掘任务则是在对历史数据推断、分析基础上，发现事先所不为人知的新的规律，并能够利用这个规律去预测新的数据集的可能行为。1.2.1.1 特征化与比较特征化的含义是指通过执行算法，挖掘出给定数据集上某类数据的汇总特征。比如贷款客户中还款信用良好的客户特征，或者是拖欠还款的客户特征等等。它是一种最为简单的统计分析型的数据挖掘。特征化的实质实际上就是要找出某一类数据某一种或几种属性的共性，而属性删除是特征化的一种最经典的方法。某一类数据的某几个属性可能具有大

10、量各不相同的值，属性删除算法会对这些值进行统计，如果某个值在整体数据集范围内所占的比率不能达到事先指定的临界值，且该属性上没有定义概化操作符，则对其执行属性删除的操作。在这里，概化的含义是指将大量的相关数据从一个较低的概念层次转化到一个较高的层次。特征化是汇总出某一类样本数据共有的特征，而比较则是用于区分样本数据中不同的类别，如还款信用良好的客户和拖欠还款的客户这两类贷款客户的比较。也即是说，比较一般都是在两个或多个类样本数据中进行的。通常是在一个整体数据集里，用一个特定类的样本数据与另一个或几个其它类的样本数据进行比较。特征化与类比较虽然是最为简单的挖掘算法，但在很多领域内都有着非常广泛的应

11、用，比如上述的还款信用良好的客户和拖欠还款的客户这两类贷款客户的比较，信用卡诈骗与非诈骗的比较，电信运营商优质客户中的忠诚客户与转向其他运行商的原优质客户的比较，外资控股公司与非外资控股公司的比较等等。1.2.1.2 关联规则关联规则的目的是用来发现海量数据中原本看似无关的数据之间的联系，比如“如果一个客户购买了面包，他有 70%的可能会继续购买番茄。 ”面包和番茄本来是两种看似无甚关系的东西，而关联规则正是用来挖掘这种关系。关联规则挖掘在很多领域都有所应用，在银行业，可以使用关联规则对顾客进行分心，推荐其感兴趣的服务组合；在保险业，可用于发掘异常的索赔要求组合以阻止欺诈行为，特别是在商品零售

12、业，关联规则用于购物篮数据分析、产品推广宣传彩页设计、店面布局等等方面，可以明显增加交叉销售量。关联规则的中心词是“规则” ，规则即是形如：“如果那么”的一种关系。比如一个客户，如果他购买了啤酒，那么他有很大的可能会接着购买婴儿尿布，这就是“如果啤酒那么尿布”的规则。要判断一个规则是不是正确有效的，在关联规则算法里，7用支持度(Support) 和置信度(Confidence)来进行度量。1.2.1.3 分类和预测分类和预测也是数据挖掘中常见的两种技术形式，分类（Classification）主要用于分析数据对象的离散类别（Categorical Label），而预测（Prediction）

13、主要用在预测数据对象的连续取值。分类和预测在很多领域都具有大量的应用，比如银行业的欺诈检测，销售领域的针对性销售，工程领域的性能预测等等。例如可以专门针对银行的贷款业务建立一个分类模型，对贷款的风险进行分类，来识别信用良好的客户和危险客户；或者建立一个预测模型，根据客户的职业、年龄、收入等数据，预测他们在信用卡上的可能的消费行为。在挖掘算法中，分类和预测非常类似，都是依据数据元组的属性将不同的元组归到不同的类中。它们两者最大的区别在于是不是时序相关的，也即是说时间在当前挖掘算法中是不是起作用的，如果时序相关，因此用于对未来的行为做出判断，则是预测，否则就是分类。而且两者的实现过程也是类似的，都

14、是首先建立一个模型，此模型描述了预先设定的一个数据类集或概念集，也即是训练数据集，训练数据集中的单个元组称之为训练样本，而后根据特征值对所有数据元组进行分类。分类和预算算法中最为经典的是贝叶斯（Bayes）算法，贝叶斯算法是基于贝叶斯定理的一种在已知先验概率与类条件概率的情况下的模拟分类方法，待分样本的分类结果取决于各类领域中样本的全体。在许多场合，贝叶斯分类算法可以跟更为复杂的神经网络算法或者决策树算法一争高下，在用于大型数据挖掘时，贝叶斯算法还有方法简单、性能好、分类准确率高等优势。1.2.1.4 聚类分析聚类，与前述的分类有很类似之处，它根据样本数据间的相似程度，将样本数据分为不同的几个

15、类。如某跨国公司在各大销售区域销售额增长率的聚类分析，某银行信用卡客户用卡行为的聚类分析等等。又例如轻纺领域，根据男女不同部位：身高、体重、胸围、腰围、肩宽、臂长、臀围、上体长、下体长等等数据，经过聚类分析，聚合为主要的几个类别，用于指定各个类别的标准尺寸，就可以兼顾到绝大多数人的成衣购买需求了。聚类分析实质上也是一种分类，不过前述的分类其每个训练样本的数据元组都预先设定了类标识，挖掘的目标是根据样本数据集提取的类信息对源数据集进行分类并用此分类预测未来数据的可能行为；而聚类分析事先并不知道最终欲分成的类的情况，只是挖掘算法自动地根据信息相似度原则直接对数据集进行聚类的一种方法。聚类的目标是8

16、期望最终在同一类数据集内对象间的差别尽可能小，而不同类数据集内对象间的差别则要尽可能的大。因此，聚类的意义在于将事先可能并不了解的内容组织成清晰的按类分层的结构，把类似的数据集组织在一起。通过聚类分析，海量数据集内原本密集、稀疏错杂的局面将一目了然，数据在全局的分布模式将无比清晰，数据属性之间的有效信息及可用规则也将呈现。聚类分析主要以机器学习、神经网络等技术为基础，有代表性的聚类算法几乎都是基于传统的欧氏集合距离的聚类方法，例如欧氏距离、明考斯基距离、曼哈坦距离等等。最为经典的聚类分析算法是 K-Means 算法。1.2.2 云计算支持下的数据挖掘算法提供数据挖掘产品和方案的 IT 企业有很多，诸如专业的数据挖掘厂商 Pilot、Lockheed、SGI 等，软件及数据库服务商如 Oracle、IBM、 Microsoft 等。但就目前国内外的现状而言，完整的成熟的基于云计算的数据挖掘产品，还并未出现，更多

展开阅读全文