第九章-数据挖掘和数据可视化

上传人:鲁** 文档编号:587525834 上传时间:2024-09-06 格式:PPT 页数:45 大小:505KB
返回 下载 相关 举报
第九章-数据挖掘和数据可视化_第1页
第1页 / 共45页
第九章-数据挖掘和数据可视化_第2页
第2页 / 共45页
第九章-数据挖掘和数据可视化_第3页
第3页 / 共45页
第九章-数据挖掘和数据可视化_第4页
第4页 / 共45页
第九章-数据挖掘和数据可视化_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《第九章-数据挖掘和数据可视化》由会员分享,可在线阅读,更多相关《第九章-数据挖掘和数据可视化(45页珍藏版)》请在金锄头文库上搜索。

1、决策支持系统决策支持系统第九章第九章第九章第九章 数据挖掘与数据可视化数据挖掘与数据可视化本章学习目的与要求l 理解数据挖掘的基本概念;理解数据挖掘的基本概念;l 掌握数据挖掘常用的算法;掌握数据挖掘常用的算法;l 理解数据可视化的基本概念;理解数据可视化的基本概念;内容提示内容提示第一节第一节 数据挖掘数据挖掘第二节第二节 数据可视化数据可视化第一节第一节 数据挖掘数据挖掘第一节 数据挖掘u 数据挖掘的概念;u 数据挖掘的任务。 (一)数据挖掘概念-前言u 信息产业的发展引发了数据的大量聚集,如一个中等规模企业每天要产生100MB以上来自各生产经营等多方面的商业数据;在科研方面,以美国宇航局

2、的数据库为例,每天从卫星下载的数据量就达34TB之多。u据估计,1993年全球数据存贮容量约为二千TB,到2000年增加到三百万TB,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间” 和“数据过剩” 的巨大压力。前言u 人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动;u 而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。u 从数据到知识到智慧,需要经过分析加工处理精炼的过程。前言数据与知识间的关系数据与知识间的关系数据到知识的转变u 数据仓库的出现,为更深入对数据进行分析提供了条件,它不

3、同于管理日常工作数据的数据库,它更便于分析针对特定主题的集成化的、时变的的数据,且这些数据一旦存入就不再发生变化;u OLAP是数据分析手段的一大进步,以往的分析工具所得到的报告结果只能回答“什么”(WHAT),而OLAP的分析结果能回答“为什么”(WHY)。数据到知识的转变u 但OLAP是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,由用户指导的信息分析与知识发现过程;u 由于数据仓库中的数据来源于多个数据源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时准确地做出科学的经营决策,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。数

4、据挖掘的产生u 九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知识发现软件工具,从而形成了近年来软件开发市场的热点。u 目前数据挖掘工具已开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要里程碑。数据挖掘的产生数据到知识的演化过程示意图数据到知识的演化过程示意图(一)数据挖掘的概念u 数据挖掘(Data Mining, DM):又名数据库中的知识发现(Knowledge discovery from database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模

5、式或规律等知识的复杂过程。u 简单地讲就是从大量数据中挖掘或抽取出知识。数据挖掘的步骤数据挖掘过程示意图数据挖掘过程示意图数据挖掘的过程 整个知识挖掘过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:(1)数据清洗数据清洗:清除数据噪声和与挖掘主题明显无关的数据;(2)数据集成数据集成:将来自多数据源中的相关数据组合到一起;(3)数据转换数据转换:将数据转换为易于进行数据挖掘的数据存储形式。数据挖掘的过程(4)数据挖掘数据挖掘:利用智能方法挖掘数据模式或规律知识;(5)模式评估模式评估:根据一定评估标准从挖掘结果筛选出有意义的模式知识;(6)知识表示知识表示

6、:利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。(二)数据挖掘的任务 利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。(二)数据挖掘的任务 数据挖掘功能以及所能够挖掘的知识类型说明描述如下:(1 1)关联分析;)关联分析;(2 2)分类与预测;)分类与预测;(3 3)聚类分析;)聚类分析;(4 4)异类分析;)异类分析;(5 5)演化分析)演化分析。(1)关联分析 关联分析(association analysis )就是从给定的数据

7、集发现频繁出现的项集模式知识(又称为关联规则,association rules)。 关联分析广泛用于市场营销、事务分析等应用领域。通常关联规则具有:X Y 形式,表示“数据库中的满足 X 中条件的记录也一定满足 Y 中的条件”。关联分析示例 一个数据挖掘系统可以从一个商场的销售(交易事务处理)记录数据中,挖掘出如下所示的关联规则:Age(X,”20-29”) income(X, “20K-30K” )buys(X,”MP3”)support=2%, confidence=60% 上述关联规则表示:该商场有2%的顾客年龄在20岁到29岁且收入在2万到3万之间,这群顾客中有60%的人购买了MP3

8、,或者说这群顾客购买MP3 的概率为60%。(2)分类与预测 分类(classification)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。 分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。(2)分类与预测分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于A级、B级还是C级。但在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测(prediction)。尽管预测既包括连续数值的预测,也包括有限离散值的分类

9、;但一般还是使用预测来表示对连续数值的预测;而使用分类来表示对有限离散值的预测分类与预测示例表中给出打高尔夫球与天气的关系,要求根据条件属性的不同取值来决定是否可以打高尔夫球。 IDIDOutlookOutlookTemperatuTemperaturereHumidityHumidityWindyWindyClassClass1 1OvercastOvercastHotHotHighHighNotNotN N2 2OvercastOvercastHotHotHighHighVeryVeryN N3 3OvercastOvercastHotHotHighHighMediumMediumN N3

10、838SunnySunnyHotHotHighHighMediumMediumP P3939RainRainMildMildHighHighNotNotN N4040RainRainMildMildHighHighMediumMediumN N分类与预测示例分类结果(决策树)分类结果(决策树)(3)聚类分析u 聚类分析(clustering analysis)与分类预测方法明显不同之处在于:分类所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;而聚类分析所处理的数据均是无类别归属。因此聚类分析属于无教师监督学习方法。u 聚类原则:类内距离最小,类间距离最大。(4)异类分

11、析u 一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类(outlier)。u 对异类数据的分析处理通常就称为异类挖掘。(4)异类分析u 之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其排除在数据挖掘的分析处理范围之内。u 但在一些应用场合,如各种商业欺诈行为的自动检测,小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值。u 例如:可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为(异类数)。(5)演化分析u 数据演化分析(evolution a

12、nalysis)就是对随时间变化的数据对象的变化规律和趋势进行建模描述。u 这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关数据分析(这其中又包括:时序数据分析、序列或周期模式匹配,以及基于相似性的数据分析)。演化分析示例 例如:利用演化分析方法可对股市主要股票交易数据(时序数据)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律,这种规律或许能够帮助预测股票市场上的股票价格,从而有效提高投资回报率。第二节第二节 数据可视化数据可视化第二节 数据可视化u 数据可视化的概念;u 数据可视化的意义。 (一)数据可视化的概念u 数据可视化是关于数据之视觉表

13、现形式的研究。u 数据可视化是当前的一个热点问题,特别在交互设计领域,如何把数据特别是大规模的数据进行可视化就成为了一个非常热门的问题 。(一)数据可视化的概念u可视化可视化(Visualization):利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。u 它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术 。u 数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息 。u 当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面 。u 通

14、过数据可视化技术,可以发现大量金融、通信和商业数据中隐含的规律,从而为决策提供依据。(一)数据可视化的概念(二)数据可视化的意义 数据可视化为我们提供了一条清晰有效地传达与沟通信息的渠道:u (1)交互性。用户可以方便地以交互的方式管理和开发数据 ;u(2)多维性。可以看到表示对象或事件的数据的多个属性或变量,而数据可以按其每一维的值,将其分类、排序、组合和显示 ;u(3)可视性。数据可以用图象、曲线、二维图形、三维体和动画来显示,并可对其模式和相互关系进行可视化分析 。数据可视化的应用(1)医学:长期以来人类就有认识自身内部结构的愿望。直到70年代计算机断层扫描(CT)和核磁共振图像(MRI

15、)技术和可视化技术的出现,才使获取人体内部数据的愿望成为现实。 可视化人体计划 (VHP)数据集的出现,标志计算机三维重构图像和虚拟现实技术进入了医学领域,从而大大促进了医学的发展和普及。人类大脑的三维图像人类大脑的三维图像数据可视化的应用(2)油气勘探:目前石油工业面临的一个严峻问题是:如何寻找规模小而埋藏深的油气田。油气勘探的主要方式,是通过天然地震波或人工爆炸产生的声波在地质构造中的传播,来重构大范围内的地质构造,并通过测井数据了解局部区域的地层结构,探明油藏气藏位置及其分布,估计蕴藏量及其勘探价值。由于地震数据及测井数据的数据量极其庞大,而且分布不均匀,因而无法根据纸面上的数据作出分析

16、。利用可视化技术可以从大量的地质勘探数据或测井数据中,构造出感兴趣的等值面、等值线,并显示其范围及走向,并用不同颜色显示出多种参数及其 相互关系,从而使专业人员能对原始数据作出正确解释,得到矿藏是否存在、矿藏位置及储量大小等重要信息 。数据可视化的应用油藏三维图油藏三维图数据可视化的应用(3)气象预报:气象预报的准确性依赖于对大量数据的计算和对计算结果的分析。 一方面,科学计算可视化可将大量的数据转换为图像,在屏幕上显示出某一时刻的等压面、等温面、旋涡、云层的位置及运动、暴雨区的位置及其强度、风力的大小及方向等,使预报人员能对未来的天气作出准确的分析和预测。 另一方面,根据全球的气象监测数据和

17、计算结果,可将不同时期全球的气温分布、气压分布、雨量分布及风力风向等以图像形式表示出来,从而对全球的气象情况及其变化趋势进行研究和预测。 天气预报图,包括云状,液态水和风天气预报图,包括云状,液态水和风数据可视化的应用(4)工程: 计算机辅助工程(CAE)包括计算机辅助设计(CAD)、计算机辅助制造(CAM)和计算机辅助运行等多项内容。 可视化技术有助于整个工程过程一体化和流线化,并能使工程的领导和技术人员看到和了解过程中参数变化对整体的动态影响,从而达到缩短研制周期、节省工程全寿命费用的目的 。 美国航空航天局阿姆斯研究中心的虚拟风洞美国航空航天局阿姆斯研究中心的虚拟风洞 思考与练习思考与练习1)数据挖掘技术的概念?)数据挖掘技术的概念?2)数据可视化技术的概念?)数据可视化技术的概念?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号