江苏大学数据挖掘报告

资源描述

《江苏大学数据挖掘报告》由会员分享，可在线阅读，更多相关《江苏大学数据挖掘报告（9页珍藏版）》请在金锄头文库上搜索。

1、空间数据挖掘：空间数据挖掘：空间数据挖掘（spatial data mining）是在数据挖掘的基础之上，结合地理信息系统（GIS）、遥感图像处理、全球定位系统（GPS）、模式识别、可视化等相关的研究领域而形成的一个分支学科，也称为空间数据挖掘和知识发现。简单来说，空间数据挖掘即数据变为知识。1.传统空间数据挖掘传统空间数据挖掘空间数据挖掘所用理论方法的好坏直接影响到所发现知识的质量。可用的理论方法主要有确定集合论、扩展集合论、仿生学方法、可视化、决策树等，其中包括：概率论、证据理论、空间统计学、规则归纳、聚类分析、空间分析、神经网络、遗传算法等 3。经过多年研究，上述理论和算法都取得

2、了很大的进展，但也存在一些问题。（1）没有考虑空间数据与一般数据在存储、处理和特性等方面的区别，如面对高维海量的空间数据，目前的 GIS 不足以描述空间要素的多维信息结构，不能方便地进行多维信息的空间概括性分析，而且效率低。（2）被污染的空间数据会直接影响空间数据挖掘，使其不能提供可靠的知识、优质的服务和决策支持。从现实世界采集的数据绝大多数都是有污染的，无论采用什么方式获取的空间数据，都无可避免的存在一些问题或错误。如何减少受污染的数据对最终挖掘结果的影响，一直都是空间数据挖掘需要面临的重要问题。（3）空间数据具有明显的不确定性。主要是由数据采样、数据模型抽象、空间概念和空间数据转换导致的

3、。有一些对空间数据不确定性的研究，但主要是针对空间位置的不确定性，对数据本身的不确定性研究还显不足。（4）目前的空间数据挖掘技术还缺少适当的空间知识表达方法。例如：如何描述知识发现中的支持度、置信度、强弱规则等专业名词？如何描述不确定的空间数据的随机性和模糊性？（5）空间数据挖掘产生的所有模式并非都是用户需要的。因此需要一种技术来评估基于主观度量所发现的模式的兴趣度。2.大数据背景下的空间数据挖掘大数据背景下的空间数据挖掘随着大数据时代的来临，在对空间数据进行搜索的基础上，能够从大数据信息中挖掘出更多的知识，转化这些数据，以后便能利用这些数据进行有效的利用。不仅有百度的搜索日志分析，腾讯、

4、淘宝和支付宝的数据仓库等也采用了数据挖掘技术处理大规模数据。2010 年 4 月，淘宝推出“数据魔方” ，其千亿级海量数据库每天支持 4 5 千万的更新操作，每天更新超过 20 亿，更新数据量超过 2.5。2012 年 3 月，我国科技部发布的“十二五国家科技计划信息技术领域 2013 年度备选项目征集指南” ，把大数据研究列在了首位3。可见，大数据下的空间数据挖掘具有非常重要的显示意义。2.1 常用的空间数据挖掘方法常用的空间数据挖掘方法（1 1）空间分析法）空间分析法利用 GIS 的各种空间分析模型和空间操作对空间数据库中的数据进行深加工，从而产生新的信息和知识2。目前常用的空间分析方法

5、有综合属性数据分析、拓扑分析、缓冲区分析、密度分析等，可发现目标在空间上的相连、相邻和共生等关联规则，或发现目标之间的最短路径、最优路径等辅助决策的知识。空间分析方法常作为预处理和特征提取方法与其它数据挖掘方法结合使用。（2 2）归纳学习法归纳学习法归纳学习方法是从大量的经验数据中归纳抽取出一般的规则和模式，其大部分算法来源于机器学习领域。Han Jiawei 教授等提出了一种面向属性的归纳方法，专门用于从数据库中发现知识，通过概念树的提升对数据进行概括和综合，归纳出高层次的模式或特征。裴健等对面向属性的归纳方法进行了扩展，形成了基于空间属性的归纳方法。（3 3）神经网络法神经网络法神经网络

6、是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统，具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能。大量神经元集体通过训练来学习待分析数据中的模式，适于从环境信息复杂、背景知识模糊、推理规则不明确的非线性空间系统中挖掘分类知识。（4 4）云理论）云理论这是李德毅博士提出的用于处理不确定性的一种新理论，包括云模型 (Cloud Model)，虚拟云 (Virtual Cloud)、云运算 (Cloud operation)、云变换 (Cloud Transform)和不确定性推理 (Reasoning under Uncertainty)等主要内容。运用云理

7、论进行空间数据挖掘，可进行概念和知识的表达、定量和定性的转化、概念的综合与分解、从数据中生成概念和概念层次结构、不确定性推理和预测等。（5 5）数据可视化法）数据可视化法人类的可视化能力，允许人类对大量抽象的数据进行分析。人的空间认知能力目前尚无法全部用计算机代替，这就需要可视化技术来帮助人们更好的对外界的信息数据进行利用和分析。海量的数据只有通过可视化技术变成图形或图像，才能激发人的形象思维。数据可视化方法可以把海量的数据通过各种不同的方式展现在人们面前，辅助人们发现事物的特征、结构、相互联系等。2.2 空间数据挖掘下的数据智能空间数据挖掘下的数据智能空间大数据促使世界的数字基础架构和物理基

8、础设施相互融合，几乎任何人或任何事物都能够低成本地实现数字联网，很容易地把传感器嵌入到各种生态系统中，装备全球的各种基础设施和设备，通过互联网实现人类社会与物理系统的整合，在此基础上，再通过超级计算机和云计算，就可以使得人类以更加精细、动态的方式管理生产和生活，从而达到智能状态。如下图所示：图 13.大数据下的空间数据挖掘应用大数据下的空间数据挖掘应用随着国民经济的快速发展，计算机技术和空间信息技术的不断进步和普及，具有时间属性并随时间变化而变化的空间数据极速增加。大数据下的空间数据挖掘被广泛地应用在国防、工业、农业、交通、气象等方面。如下图所示：图 2(1)(1)国防军事国防军事大数据创新了

9、军事管理里方法，提高军事管理水平。2013 年，江西省新余市被列为全国“智慧城市”建设试点，他们一并启动了“智慧动员”建设，让国防动员建设搭上了“智慧城市”建设快车。(2)(2)教育教学教育教学数据挖掘技术的应用,可以分析学生的心理特点,可以使教师根据相关数据信息资源调整教学活动;可以利用数据挖掘技术分析学生学习成绩,了解学生学习薄弱之处,以便教师有针对性地教育、指导学生;可以利用数据挖掘技术进行教学资源的优化配置,使得教学资源利用率最大化,为提高教学水平创造条件。(3) 交通交通智能交通，随着物联网和车联网，分布式计算，基于大数据的实时流处理等各种技术的不断城市，智能的交通导航和趋势分析预测

10、将逐步成为可能。实时的车辆追踪，随着智慧城市的建设，城市里面到处都是摄像头采集数据，当锁定一个车辆后如何根据车辆的特征或车牌号等信息，实时的追踪到车辆的行走路线和位置。(4)医疗医疗数据挖掘的有关分类分析可以应用于疾病的诊断。医学领域中越来越多地应用图像作为疾病诊断的工具，如 SPECT、CT、MRI、PET 等，数据挖掘可以应用于医学图像的分析。Sacha 等成功地运用基于贝叶斯分类的数据挖掘模式对心肌 SPECT 图像进行分类诊断。 4.空间数据挖掘下的大数据架构空间数据挖掘下的大数据架构面对海量的数据，除了优化传统的空间数据挖掘算法，提高空间数据质量以外，采用专门处理大数据的平台也是一个

11、重要的选择，这就必须提到云计算。云计算是一种可以提供更强大的处理能力、更廉价的处理条件的完善系统。云计算（cloud computing）是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。空间数据挖掘下的云计算主要以分布式文件系统为核心。其中，分布式存储主要为分布式文件存储和分布式数据库存储。通常认为云计算包括以下 3 个层次的服务：基础设施即服务（IaaS）、平台即服务（PaaS）、SaaS；其中IaaS 提供以硬件设备为基础的计算、存储和网络服务，实现了对硬件资源的抽象并服务化提供，使得分布式

12、计算和分布式存储成为现实。分布式文件系统有效地解决了海量数据存储问题。具有代表性的就是 Google 文件系统（GFS）和Hadoop 分布式文件 HDFS。当今时代的云计算主要以 Hadoop 作为技术基础。Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。他的标志是一只会飞的小象，名字来源于 Doug Cutting 儿子的玩具 Hadoop。Hadoop 的生态系统如下：图 3其中，最底层是分布式文件系统 HDFS，它源自于 Google 的 GFS 论文，发表于 2003 年 10 月，HDFS 是 GFS 克隆版。是 Hadoop 体系中数据存

13、储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS 简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。核心是 MapReduce（分布式计算框架）：MapReduce 是一种计算模型，用以进行大数据量的计算。其中 Map 对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce 则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。除此之外，Hadoop 还有数据仓库 Hive，数据六处理Pig，数据挖掘库 Mahout。Hbase HBase 是一个针对结构化数据

14、的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase 采用了 BigTable 的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase 提供了对大规模数据的随机、实时读写访问，同时，HBase 中保存的数据可以使用 MapReduce 来处理，它将数据存储和并行计算完美地结合在一起。Hadoop 是在 Zookeeper 的基础上的进行搭建的。Hadoop 生态系统构成了 hadoop 云计算的基本架构，对大数据进行了有效的处理。关于 Hadoop 的产生影响较为深入的是引爆大数据时代的google

15、三大论文，。但是 Hadoop 架构对于数据的处理还是存在一个缺陷，因为她具有额外的复制、序列化和磁盘开销，所以出现了基于 Hadoop 的 spark 技术。以下是 Spark的生态系统：图 4Spark 的标志上有一颗五角星，原因是因为 spark 快。Spark 生态系统又叫做伯克利数据分析栈。它比 Spark 快的主要原因是他是基于内存计算的。Spark生态系统是伯克利 APMLab 实验室打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的一个平台。伯克利 AMPLab 运用大数据、云计算、通信等各种资源以及各

16、种灵活的技术方案，对海量不透明的数据进行甄别并转化为有用的信息，以供人们更好的理解世界。该生态圈已经涉及到机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。Spark 生态圈以 Spark Core 为核心，从HDFS、Amazon S3 和 HBase 等持久层读取数据，以 MESS、YARN 和自身携带的Standalone 为资源管理器调度 Job 完成 Spark 应用程序的计算。这些应用程序可以来自于不同的组件，如 Spark Shell/Spark Submit 的批处理、Spark Streaming 的实时处理应用、Spark SQL 的即席查询、BlinkDB 的权衡查询、MLlib/MLbase 的机器学习、GraphX 的图处理和 SparkR 的数学计算等等。5.空间数据挖掘与可视化技术空间数据挖掘与可视化技术数据挖掘最困难的一部分就是数据的展示。如何清晰有效的表达数据信息，解读数据之间的关系一直都是一个难题。与数据可视化配合使用则可以很好的解决这个问题。在空间数据挖掘中，配合以可视化技术，可以形

展开阅读全文