决策支持系统与数据挖掘.ppt

上传人:汽*** 文档编号:570547705 上传时间:2024-08-05 格式:PPT 页数:133 大小:6.09MB
返回 下载 相关 举报
决策支持系统与数据挖掘.ppt_第1页
第1页 / 共133页
决策支持系统与数据挖掘.ppt_第2页
第2页 / 共133页
决策支持系统与数据挖掘.ppt_第3页
第3页 / 共133页
决策支持系统与数据挖掘.ppt_第4页
第4页 / 共133页
决策支持系统与数据挖掘.ppt_第5页
第5页 / 共133页
点击查看更多>>
资源描述

《决策支持系统与数据挖掘.ppt》由会员分享,可在线阅读,更多相关《决策支持系统与数据挖掘.ppt(133页珍藏版)》请在金锄头文库上搜索。

1、管理信息系统(管理信息系统(MIS)李修德李修德2012.10第3次上机:设计表单(FORM)1第第3次上机内容和要求:次上机内容和要求:内容:表单设计内容:表单设计要求:要求:1、 预习预习VF教材教材(绿皮书绿皮书)的第的第7章章 表单设计表单设计2、用表单向导为、用表单向导为三张数据表三张数据表设计表单,如设计表单,如P157页图页图7-153、用表单向导设计多表表单,并存放在表单设计器上修、用表单向导设计多表表单,并存放在表单设计器上修 改(利用属性表、控件等工具),要求做改(利用属性表、控件等工具),要求做两个多表表单两个多表表单4、做、做一个一个“欢迎使用教学管理信息系统欢迎使用教

2、学管理信息系统”的表单。的表单。 如如P170 页图页图7-27。 第8章 决策支持系统与商务智能(1) 第8章 (1) 决策支持和数据仓库 内容提要:内容提要: 决策支持系统(DSS) 联机分析处理(OLAP) 数据仓库和数据挖掘 数据仓库在商业中的应用数据仓库在商业中的应用 主要术语和概念 主要参考资料数据仓库数据仓库Data warehouse已讲内容与新内容的关系营销系统营销系统生产系统生产系统财务系统财务系统人力管理人力管理决策支持系统决策支持系统DSS数据仓库数据仓库Data warehouse人工智能人工智能AI商务智能商务智能BI计算机计算机数据库数据库网络网络7种种策略策略T

3、CSOAKWSMISDSSESS4种种战略战略MRPMRPIIERPSCMCRMEC数据挖掘数据挖掘Datamining本章内容提要:相互关系数据仓库数据仓库OLAP决策支持系统决策支持系统数据挖掘技术数据挖掘技术人工智能人工智能商务智能商务智能决策支持系统、商务智能与数据仓库定义:定义:决策支持系统决策支持系统(decision support system decision support system DSSDSS)为交互式计算机系统)为交互式计算机系统, ,运用数据、模型分析、运用数据、模型分析、专家知识及其他资源通过友善的人机接口互动,协专家知识及其他资源通过友善的人机接口互动,协助

4、个人或团体决策者提升半结构化决策的绩效和满助个人或团体决策者提升半结构化决策的绩效和满足。在足。在IBMIBM中,又称为中,又称为商务智能商务智能(business business intelligence intelligence BIBI)。)。定义:定义:数据仓库数据仓库(data warehouse data warehouse DWDW)是一种数)是一种数据库概念的延伸与推广,以适应决策支持需要的一据库概念的延伸与推广,以适应决策支持需要的一种数据的集合。种数据的集合。数据挖掘与联机分析处理定义:定义:数据挖掘数据挖掘(data mining DM)是)是一种一种探索性探索性的分析

5、方法。的分析方法。 (根据已经有的数据根据已经有的数据,挖掘其中的规律挖掘其中的规律)定义:定义:联机分析处理联机分析处理(on-line analytical processes OLAP) :是一种:是一种验证性验证性分析方法。分析方法。 (先定方法先定方法,后由数据验证后由数据验证)决策支持系统 DSSDSS和MIS的不同1、MIS 主要为中层管理提供主要为中层管理提供 信息服务信息服务2、 主要是通过查询或报表主要是通过查询或报表 进行联机事务处理(进行联机事务处理(OLTP)3、 问题问题: 结构化问题结构化问题4、 使用:使用:5、 主要技术主要技术: 关系数据库的关系数据库的 关

6、系运算关系运算1、DSS 支持高层的决策支持高层的决策2、 主要是通过对话系统主要是通过对话系统 进行联机分析处理(进行联机分析处理(OLAP)3、 问题问题:半结构化问题半结构化问题4、使用、使用 历史性数据库历史性数据库5、主要技术:数据挖掘:、主要技术:数据挖掘: 依赖性分析、聚类分析、依赖性分析、聚类分析、 神经网络、遗传算法、神经网络、遗传算法、 粗糙集理论粗糙集理论 数据库数据库数据仓库数据仓库决策支持系统(DSS)的半结构化问题决策支持系统决策支持系统(DSS)定义定义: 为交互式计算机系统为交互式计算机系统, ,运用数据、模型分析、专家知运用数据、模型分析、专家知识及其他资源通

7、过友善的人机接口互动,协助个人或团体识及其他资源通过友善的人机接口互动,协助个人或团体决策者提升半结构化决策的绩效和满意决策。决策者提升半结构化决策的绩效和满意决策。 给我销售量最好的产品名单给我销售量最好的产品名单 告诉我出现问题的地区告诉我出现问题的地区 告诉我为什么告诉我为什么(向下钻取向下钻取) 让我看看其它数据让我看看其它数据(横向钻取横向钻取) 显示最大的利润显示最大的利润 当一个地区的销售低于目标时当一个地区的销售低于目标时, 提醒我提醒我半结构化问题:半结构化问题:股票管理、股票管理、贸易市场贸易市场开发开发经费预算经费预算资本获利分析资本获利分析等等 问问 题题决策支持系统(

8、DSS)的基本模式DSS的基本模式:真实系统决策环境操作响应管理者管理者协作协作人员人员与人的行为有关的信息处理数据MIS信息外部数据问题对话系统对话系统数据库数据库系统模型库模型库方法库方法库知识库知识库DSS决策支持系统(DSS)的基本构件 基本构件基本构件人人 机对话系统:机对话系统:核心是人人机界面机界面提问方式:“如果.则.”能够给用户必要的提示和帮助数据库数据库:MIS的的DB支持日常支持日常事务处理事务处理DSS的数据的数据仓库可以用仓库可以用联机分析联机分析处理处理(OLAP)支持决策。支持决策。方法库方法库:包括通用算法和包括通用算法和标准函数标准函数:排序算排序算法、分类算

9、法、法、分类算法、最小生成树算法最小生成树算法最短路径算法、最短路径算法、线形规划、整数线形规划、整数规划、动态规划、规划、动态规划、各种统计算法、各种统计算法、各种组合算法各种组合算法等等知识库知识库:包括包括知识的获取知识的获取,知识的解释、知知识的解释、知识的表示、知识识的表示、知识推理、知识库的推理、知识库的管理和维护管理和维护。DSS的知识库使的知识库使用的技术和用的技术和专家专家系统与人工智能系统与人工智能技术一致。技术一致。模型库模型库:可以提供推理可以提供推理比较选择、分析比较选择、分析整个问题的模整个问题的模型型,DSS是以模是以模型驱动型驱动的的,可根可根据具体问题生成据具

10、体问题生成决策模型决策模型,输出输出用于制定或估计用于制定或估计决策决策.数据库、数据仓库、知识库、方法库数据库、数据仓库、知识库、方法库数据库:数据库:指长期储存在计算机内的、有组指长期储存在计算机内的、有组织的、可共享的数据集合织的、可共享的数据集合 数据仓库:数据仓库:不同于数据库。数据库不同于数据库。数据库系统是一种通用的平台,用来管理企系统是一种通用的平台,用来管理企业的数据;而数据仓库是一种概念,业的数据;而数据仓库是一种概念,在此概念下进行的构造过程,我们叫在此概念下进行的构造过程,我们叫它数据仓库处理。所以,数据仓库不它数据仓库处理。所以,数据仓库不是花钱可以购买的现成产品,它

11、是一是花钱可以购买的现成产品,它是一个建立的过程。个建立的过程。 知识库知识库(Knowledge Base)是知识工程中结构化,易操作,是知识工程中结构化,易操作,易利用,全面有组织的知识集群,易利用,全面有组织的知识集群,是针对某一是针对某一(或某些或某些)领域问题求领域问题求解的需要,采用某种知识表示方解的需要,采用某种知识表示方式在计算机存储器中、式在计算机存储器中、组织、管组织、管理和使用的互相联系的知识片存理和使用的互相联系的知识片存储集合储集合。方法库方法库基基本本数数学学方方法法统统计计方方法法优优化化方方法法预预测测方方法法计计划划方方法法金金融融方方法法计计划划评评审审时时

12、间间序序列列矩矩阵阵运运算算线线性性规规划划判判别别分分析析因因子子分分析析关关联联分分析析初初等等函函数数算算法法插插值值算算法法拟拟合合算算法法平平滑滑算算法法外外推推算算法法回回归归分分析析数据仓库建立过程建立过程ETL (Extract Transformation Load)数据加载:数据加载:包括数据的抽取、清洗(包括数据的抽取、清洗(Data Cleaning)、转换和加载)、转换和加载方法库方法库中的方法模块方法库中的方法模块方法库基本数学方法统计方法优化方法预测方法计划方法金融方法计划评审矩阵计算时间序列线性规划判别分析因子分析二元相关分析方差分析回归分析外推法平滑法拟合法插

13、值法初等函数法方法库方法库的输出报表图形工程造价与管理知识库知识库项目管理知识库知识库 DSS Image Library Browser DSS的主要关键要素和决策流程决策流程DSS的主要的主要关键要素(关键要素(4个)个)即影响即影响DSS结果的因素:结果的因素:1、环境环境(如环境的压力、(如环境的压力、 主主 管的支持、权力和管的支持、权力和 政治结构等)政治结构等)2、任务任务:决策的工作项目:决策的工作项目3、使用者使用者:使用者的认知方:使用者的认知方 式、动机、期望、使用方式式、动机、期望、使用方式4、DSS系统系统:系统设计的质:系统设计的质 量、推动和导人策略等量、推动和导

14、人策略等问题认知情报搜集方案设计选择方案推动结果决策的流程:决策的流程:西蒙的决策过程西蒙的决策过程DSS Liftoff In Flight CLIME-DSS-2. Leicester(英国累斯特)(英国累斯特), DSS (STScI/AURUA) 商务商务DSS系统决策支持系统(DSS)的发展趋势发展趋势决策支持系统(DSS)的发展趋势发展趋势1、智能决策支持系统(、智能决策支持系统(IDSS):):人机接口(对话机)自然语言处理系统自然语言处理系统问题处理系统模型库管理系统数据库管理系统方法库管理系统知识库管理系统推理机推理机模型库数据库方法库知识库用户企业智能决策支持系统架构图ID

15、SS智能决策支持系统智能决策支持系统决策支持系统(DSS)的发展趋势发展趋势2、群体决策支持系统(、群体决策支持系统(GDSS)决决策策室室大屏幕大屏幕大大屏屏幕幕大屏幕远程电信会议远程电信会议远程决策远程决策决决策策局局网网群体决策支持GDSS的类型及相互关系群组决策支持系统(群组决策支持系统(GDSS) 就是由就是由DSS演化来的。演化来的。包括:计算机辅助协同工作(包括:计算机辅助协同工作(CSCW) 群组决策支持系统(群组决策支持系统(GDSS) 电子会议系统(电子会议系统(EMS)它们之间的关系如图:它们之间的关系如图: GDSS专家专家Delphi法法线上投票线上投票多目标决策多目

16、标决策 EMS电子会议电子会议线上讨论线上讨论 CSCW共同编辑共同编辑协同设计协同设计GDSS群体决策支持系统the GDSS tools, word processing 联机分析处理 OLAPOLAP技术是与数据仓库技术相伴发展起来的,1993年,“关系数据库”之父E。F。Codd首次提出了OLAP的概念,专门支持复杂的分析操作。OLAP的主要特征是能够提供数据的多维概念视图。多维信息被抽象为立方体,它包括维和度量值,维是我们说的观察角度,度量值是我们关心的指标值。可以使用户从多角度、多侧面、多层次直观地考察数据仓库中数据,深入理解数据中的信息和内含。基本概念联锁商店的销售金额销售金额(

17、主题主题)的维维1、按时间角度分析、统计其销售金额(季度)按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(产品)、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售金额(地域)、按联锁商店不同地域分析统计的销售金额(地域)观察观察角度角度称为称为“维维”,观察,观察深度深度称为称为“层层”。一个维中可以允许有若干。一个维中可以允许有若干层层。NO1NO2NO3ALL一 二 三 四 all (季)(季) TV PC VCDALL产产品品商商店店什么是联机分析处理(OLAP)什么是联机分析处理(什么是联机分析处理(OLAP) OLAP是一种

18、验证性分析软件,它具有归纳的作用。它将数据仓库中的数据作为分析对象,通过多种复杂操作,可以对高层管理人员提供有力的决策支持。它可以满足分析人员的要求,进行快速灵活地大数据量复杂的操作处理。并且以一种直观、易懂的形式将结果展示给决策人员。OLAP与OLTP的比较比较项目比较项目OLAP(联机分析处理)联机分析处理)OLTP(联机事务处理)(联机事务处理)应用基础应用基础数据仓库数据仓库DBMS用户用户决策者(高层管理)决策者(高层管理) 一般操作者(低、中)一般操作者(低、中)目的目的为决策提供支持为决策提供支持为日常工作服务为日常工作服务数据特征数据特征导出数据导出数据原始数据原始数据数据细节

19、数据细节综合数据细节程度低综合数据细节程度低 细节程度高细节程度高时间特征时间特征历史数据,一个时段历史数据,一个时段 当前数据当前数据数据量需求数据量需求一次处理需大量数据一次处理需大量数据 一次处理需少量数据一次处理需少量数据Create OLAP NET OLAP control界面 简单联机分析轴侧图结果OLAP的分析结果Analyzer OLAP OLAP Example 1 OLAP Market分析 什么是联机分析处理(OLAP)2、OLAP试测环境构建的4个过程:OLAP 主主 题题OLAP概念模型概念模型-星形、雪花、星座模型星形、雪花、星座模型OLAP 逻辑模型逻辑模型-多

20、维数据模型多维数据模型OLAP 物理模型物理模型-ROLAP / MOLAPOLAP联机分析概念模型基本概念联锁商店的销售金额销售金额(主题主题)的维度1、按时间角度分析、统计其销售金额(季度)按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(产品)、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售金额(地域)、按联锁商店不同地域分析统计的销售金额(地域)观察观察深度深度称为称为“层层”。一个维中可以允许有若干层。一个维中可以允许有若干层。NO1NO2NO3ALL一 二 三 四 all (季)(季) TV PC VCDALL产产品品商商

21、店店OLAP vs 联机分析处理的基本数据模型OLAP的基本概念的基本概念模型模型:1、星型模型(星型模型(star schema) 星型模型的主体是事实表(如:销售表)其主要事实称为量或度量量或度量(如:销售金额),另一种表称为维表维表,用以建立多维结构中的维值,一般有一个事实表和n个维表。在维表 中给出取值条件,在事实表中获得值的结果。商店标识符产品标识符日期标识符 单价 金额日期标识符 日 月 季 年 产品标识符 产品名 类 名 大类名 现存货物日期表(维表)销售表(销售表(事实表事实表)商店表(维表)商店表(维表)商店标识符 商店名 市名 省名 国名 洲名产品表(维表)产品表(维表)实

22、例实例联机分析处理的基本数据模型2、雪花模式、雪花模式 很多情况维呈现层次状,即具有一定深度。就成为雪花模式。商店标识符 商店名 市标识符 产品标识符 类标识符 产品名 现存货物商店标识符产品标识符日期标识符 单价 牺牲金额日期标识符 月标识符 月年标识符季标识符年标识符季月标识符季标识符月类标识符大类标识符类名国标识符国名洲标识符省标识符省名国标识符市标识符市名省标识符大类标识符大类名洲标识符洲名销售表(事实表)事实表)产品表类表洲表大类表商店表市表省表国表年表日期表月表季表联机分析处理的基本数据模型3、星座模式、星座模式 通过共享维,将多个星型模式连接在一起,构成星座模式。 产品标识符 产

23、品名 类 名 大类名 现存货物日期标识符 日 月 季 年商店标识符产品标识符日期标识符 单价 牺牲金额商店标识符 商店名 市名 省名 国名 洲名产品标识符 日期标识符 供应商标识 单价 数量 金额供应商标识符 供应商名 市名 省名 国名 洲名事实表事实表案例机构表机构表联机分析处理的实例:银行交易分析OLAP的操作实例的操作实例 (如(如:银行交易分析)银行交易分析)1、雪花模型:、雪花模型:帐号ID统计日期机构代号发生金额发生笔数帐号ID帐户类名称科目名称帐户名称日期ID月ID日月ID年ID 月年ID年省行代号ID省行名时间表帐户表帐户表帐户交易事实表帐户交易事实表交易分析雪花模型交易分析雪

24、花模型OLAP的逻辑模型是的逻辑模型是四维四维数据模型,它的多维数组形式为(时间,帐号,数据模型,它的多维数组形式为(时间,帐号,机构,发生金额与笔数)如(机构,发生金额与笔数)如(2004年年1月月15日,日,4321567,工行汉口分,工行汉口分理处,理处,360万元,万元,567笔)笔)联机分析处理的实例:银行交易分析2、银行交易量分析、银行交易量分析:年年季季月月发生额发生额2003q1119779862903。302003q1210791201658。282003q1318749783281。052003q2419138629532。602003q2517192112346。6320

25、03q2620601215354。17年年季季月月发生笔数发生笔数2003q1181,7622003q1253,9652003q1385,3682003q2479,3962003q2568,3342003q26124,123发生发生金额金额发生发生笔数笔数案例分析结果发现发现2月份交易额萎缩,月份交易额萎缩,1月和月和4月进出月进出资金量较大,但交易笔数相对比较小。资金量较大,但交易笔数相对比较小。这表明客户进行大笔资金调度,进一这表明客户进行大笔资金调度,进一步对帐户做切片操作,最终可以将进步对帐户做切片操作,最终可以将进行大笔资金调度的客户锁定。行大笔资金调度的客户锁定。联机分析处理的基本

26、概念基本概念基本概念:1、对象(、对象(Object) 关注和聚焦的分析客体称为对象。如:联锁商店的销售金额。关注和聚焦的分析客体称为对象。如:联锁商店的销售金额。2、维(、维(dimension) 对对象的观察角度称为对对象的观察角度称为“维维”。如在联锁商店的销售金额可以有三维:。如在联锁商店的销售金额可以有三维: 时间维:按时间角度分析、统计其销售金额。时间维:按时间角度分析、统计其销售金额。 商品维:按不同商品角度分析统计的销售金额。商品维:按不同商品角度分析统计的销售金额。 地域维:按联锁商店不同地域分析统计的销售金额。地域维:按联锁商店不同地域分析统计的销售金额。3、层(、层(la

27、yer) 观察深度称为观察深度称为“层层”。一个维中可以允许有若干层。如:在联锁商店。一个维中可以允许有若干层。如:在联锁商店的的 时间维时间维可以有日、旬、月、季、年等层可以有日、旬、月、季、年等层 商品维商品维可以有商品类(如家电类)商品大类(如电气产品大类)等可以有商品类(如家电类)商品大类(如电气产品大类)等 地域维地域维可以有市、省、国、洲等可以有市、省、国、洲等联机分析处理的多维数据模型多维数据模型(逻辑模型逻辑模型)OLAP的多维结构的多维结构 多维结构由多个维组成,当每个维确定一个取值时,即可获得一个多维结构中的变量。这个变量称为数据单元,或单元单元。(cell)这种表示方式称

28、为多维数组。也称为数据立方体数据立方体。(如:产品维成员:vcd;日期维成员:2003年3月19日;商店维成员:NO。1 ) 商商店店NO1NO2NO3ALL一 二 三 四 all(季)季) TV PC VCDALL产产品品多维结构的操作:多维结构的操作:1、切片、切片2、切块、切块3、旋转、旋转4、钻探(、钻探(下钻下钻如地域如地域 时间时间 和和上探上探(反方(反方 向向 ) )数据仓库的操作(下钻、上卷)With the Oracle OLAP data model Relationships between common OLAP Oracle OLAP SAP OLAP MS SQL

29、 Server2005的功能:分析服务数据仓库DW与数据挖掘DM数据仓库引论数据仓库数据仓库(data warehouse)在1988年Devlin 和 Murphy发表了首篇数据仓库的论文,在19931993年年,由 William H.Inmon 所写的Building the Data Warehouse首次系统地阐述了数据仓库的思想和理论。知识发现知识发现( Knowledge Discovery in Database KDD KDD )在19891989年年8 8月月第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现技术。数据挖掘数据挖掘(Data Minin

30、g DM DM )在19951995年年,在美国计算机年会(ACM)上,首次提出数据挖掘的概念。数据挖掘数据挖掘是是KDDKDD过程中最为关键的步骤过程中最为关键的步骤,在实际使用中两个术语的应用往往不加区别。数据仓库定义:数据仓库数据仓库是一个面向主题面向主题的,集成的,随时间变化的非易失性数据的集合,用于支持管理层的决策过程。数据仓库数据仓库的的特性: 1、面向主题性主题性(创建和使用都围绕主题:产品、客户等) 2、数据集成性集成性(从业务处理系统获取,如:OLTP、EC 等,要经过数据预处理:挑选、清理、综合) 3、数据的时变性时变性(数据不能长期不变) 4、数据的非易失性非易失性(数据

31、不能更改) 5、数据的集合性集合性(多维数据库方式进行存储的多维模式) 6、支持决策作用支持决策作用(根本的目的是对决策的支持,以便提 高管理决策的质量和效果)清洗操作,最后加载到数据仓库数据仓库中 数据数据准备准备数据仓库数据仓库与数据数据集市 决策分析与多维分析、数据挖掘等的关系决策分析与多维分析、数据挖掘等的关系数据库数据库数据仓库数据仓库决策分析决策分析数据挖掘数据挖掘关系数关系数据模型据模型多维数多维数据模型据模型关系型分析关系型分析多维分析多维分析以数据仓库为基础的电子商务架构数据仓库典型产品简介公司公司产品产品管理管理数据抽取数据抽取建模建模OLAP 数据挖掘数据挖掘数据展示数据

32、展示接口接口OracleOracle v9。i强良好强MSSQL Server强强SASSAS强特色Business ObjectBusiness ObjectBrioBrioCrystalDecisionsCrystal青大海青大海威威HIGHWAY强强参考:徐洁磐参考:徐洁磐 数据仓库与决策支持系统数据仓库与决策支持系统 科学出版社科学出版社 P192224 数据仓库数据仓库市场保持了良好的增长 数据挖掘、知识发现什么是数据挖掘(DM)什么是什么是数据挖掘数据挖掘(data mining)从数据仓库中利用知识发从数据仓库中利用知识发现技术(如:现技术(如:依赖性分析、聚类分析、基于神经网依

33、赖性分析、聚类分析、基于神经网络的数据挖掘技术、基于遗传算法的数据挖掘技术、络的数据挖掘技术、基于遗传算法的数据挖掘技术、基于粗糙集的数据挖掘技术等基于粗糙集的数据挖掘技术等)寻求商业模式。)寻求商业模式。数据挖掘的数据挖掘的目标目标: 1、找到、找到更好的顾客更好的顾客 2、增加市场分额和获取、增加市场分额和获取更高利润更高利润 3、了解顾客的全面关系、了解顾客的全面关系,制定制定定价策略定价策略和和产品包装产品包装方式方式。 4、分辨、分辨顾客的生命期信息顾客的生命期信息 5、分析、分析购卖行为购卖行为和和促销反映促销反映,增加促销效益增加促销效益。 什么是数据知识发现(KDD)数据知识发

34、现知识发现(knowledge discovery database KDD) 1996年年 fayyad 的定义:知识发现是从数据集中识别有效模式的非平凡过程,该模式是新颖的,有潜在应用价值的和最终可以理解的。 数据挖掘是知识发现的关键过程。数据挖掘是知识发现的关键过程。商务智能中的商务智能中的KDD过程:过程:数据数据目标数据目标数据预处理预处理后数据后数据转化后转化后数据数据商商务务智智能能模式模式数据选择预处理数据转化数据挖掘数据挖掘解释/评价数据挖掘的14种算法关联规则关联规则分类分析分类分析聚类分析聚类分析APRIoRI算法算法回回归归分分析析差差异异分分析析划分法层次法基于密度方

35、法基于网格方法决决策策树树算算法法粗粗集集算算法法人人工工神神经经网网络络贝贝叶叶斯斯方方法法遗遗传传算算法法数据挖掘的主要技术(算法)内容数据挖掘主要技术数据挖掘主要技术1、描述(归纳)、描述(归纳)2、分类预测、分类预测3、聚类分析、聚类分析4、关联分析、关联分析5、依赖性分析、依赖性分析6、粗糙集、粗糙集7、模糊技术、模糊技术MS SQL Server 2005 的的 数据挖掘算法:数据挖掘算法:1、贝叶斯算法、贝叶斯算法2、决策树算法、决策树算法3、时序算法、时序算法4、聚类算法、聚类算法5、序列聚类算法、序列聚类算法6、关联规则算法、关联规则算法7、神经网络算法、神经网络算法8、文本

36、挖掘技术、文本挖掘技术数据挖掘数据挖掘的方法四类重要的数据挖掘方法聚类聚类分析分析关联关联分析分析异常检测异常检测预测预测建模建模数据挖掘技术(DM)1、分类和预测:、分类和预测: 分类分类在机器学习中称为在机器学习中称为模式识别模式识别,分类技术包括,分类技术包括统计方法(统计方法(logistic 回归、线形判别、二次判别、回归、线形判别、二次判别、费歇尔判别)费歇尔判别)k近邻分类、决策树分类、基于关近邻分类、决策树分类、基于关联规则的分类、贝叶斯分类、神经元网络分类、联规则的分类、贝叶斯分类、神经元网络分类、支持向量机分类支持向量机分类 预测预测是对业务信息所代表的对象的是对业务信息所

37、代表的对象的显著性显著性区别,区别,对对象的区别对待,进而达到对对象的区别对待,进而达到控制成本或者提高控制成本或者提高效率效率。数据挖掘数据挖掘技术:预测方法 、预测方法、预测方法聚类分析聚类分析、聚类分析、聚类分析是多元分析的一种是多元分析的一种,也是非监督模式的一个重要分支。它把一个也是非监督模式的一个重要分支。它把一个没有类别没有类别标记的样本集,按某种准则划分成若干个子集(类)标记的样本集,按某种准则划分成若干个子集(类),使相似的样本,使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。尽可能归为一类,而不相似的样本尽量划分到不同的类中。 传统的聚类分析是一种传统的聚类

38、分析是一种硬划分硬划分,它把每个待划分的对象严格地划分,它把每个待划分的对象严格地划分到某类中,具有非此即彼的性质。而实际上大多数对象并没有严格的到某类中,具有非此即彼的性质。而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性。具有亦此亦彼的性质,属性,它们在性态和类属方面存在着中介性。具有亦此亦彼的性质,因此适合进行因此适合进行软划分软划分。分类算法将数据按含义划分成组,用户可以用。分类算法将数据按含义划分成组,用户可以用此算法生成此算法生成侧面侧面,例如,例如:感兴趣的顾客侧面。感兴趣的顾客侧面。 一些常见的聚类算法包括:一些常见的聚类算法包括: 模式识别、侧面生成、线模

39、式识别、侧面生成、线形聚族和概念聚族形聚族和概念聚族。 数据挖掘技术(DM)聚类分析聚类分析:是将一个数据集合按照某个标准分成几:是将一个数据集合按照某个标准分成几个簇。个簇。分类分类聚类聚类收入收入债债务务贷款贷款不不贷贷款款收入收入债债务务123分类分类蛋白质的聚类分析SPSS数据挖掘方法-聚类分析聚类分析 关联规则关联规则4、关联规则挖掘:、关联规则挖掘: 对不同类型之间的相互关系分析对不同类型之间的相互关系分析其其潜在的逻辑规律潜在的逻辑规律,为业务运作提供,为业务运作提供决策支持。是在给定的事务数据库中决策支持。是在给定的事务数据库中找出找出最小支持度最小支持度和和最小置信度最小置信

40、度的规则的规则 如:如:x y数据挖掘数据挖掘软件SPSS(贝叶斯网络) 数据挖掘数据挖掘技术:逻辑斯蒂回归 数据挖掘技术(DM)3、依赖性分析、依赖性分析:1、基本概念:、基本概念: 规则规则:一般形式为:一般形式为 “IF 条件成立,条件成立,THEN 结论结论”。 通过关联规则,可以发现这三种规则:通过关联规则,可以发现这三种规则:有用的、有用的、 价值不高的、价值不高的、 费解的。费解的。 价值不高的规则价值不高的规则往往是对一些商业领域内众所周知的规往往是对一些商业领域内众所周知的规则的重现。如:今天是情人节,那么鲜花的价格肯定会暴则的重现。如:今天是情人节,那么鲜花的价格肯定会暴涨

41、。涨。 费解的规则费解的规则往往是数据中一些偶然的东西。如:有一天往往是数据中一些偶然的东西。如:有一天某个超市发现购买消暑商品的顾客增加,但是只有这一天某个超市发现购买消暑商品的顾客增加,但是只有这一天特别突出,前后消量趋于平常。特别突出,前后消量趋于平常。 有用的规则有用的规则多是那些多是那些“潜在的,别人没有发现的也没有潜在的,别人没有发现的也没有广泛运用在商业中的规则广泛运用在商业中的规则” 如如:尿布与啤酒之间的依赖性尿布与啤酒之间的依赖性依赖性分析原理依赖性分析原理依赖性分析原理:依赖性分析原理: 依赖性分析算法在数据仓库的条目或对象之间依赖性分析算法在数据仓库的条目或对象之间抽取

42、依赖性抽取依赖性.利用依赖性分析算法利用依赖性分析算法可以从某一对象可以从某一对象的信息来推断另一数据对象的信息的信息来推断另一数据对象的信息. 一组依赖性可以表示为一组依赖性可以表示为依赖图依赖图.人们利用依赖性人们利用依赖性分析是分析是为了解变动,并了解变动发生的可能原因为了解变动,并了解变动发生的可能原因.如如: 销后服务对产品销售的影响销后服务对产品销售的影响.依赖性分析依赖性分析支持度:支持度:如果如果88%的顾客购买了商品的顾客购买了商品A,就说商,就说商品品A 的支持度为的支持度为 0。88 即即 suport = 0。88 最小支持度最小支持度: 如果某种规则发生的概率低于指定

43、的最小支持度(min support),则我们可以 不考虑这种规则。 P(AB) min support 最小支持度用来去除可能性很小的规则, 也就是费解的规则费解的规则数据挖掘技术(DM)最小置信度最小置信度: P(AB) min confidence P(A) 如果某个规则成立的概率很小,则这个规则没有什么用途。因为这两件事物的联系很小。 事实上只有高于最小高于最小支持度支持度并且并且高于最小高于最小可信度可信度的规则才被保留保留。 收入成本其他服务存货服务产品顾客依赖性分析图依赖性分析图依赖性分析依赖性分析案例“尿布与啤酒的依赖” 可信度可信度: confidence = P(条件和结论

44、) P(条件)例如在超市中,A,B,C商品的购买率如右表所示,我们定义如下规则: IF B THEN A ,则 它的可信度可信度是: P(A and B and C) P(B and C) = 5%/15% = 0。33 元组元组(商品商品) 购买概率购买概率 A 45% B 42.5% C 40% A和和B 25% A和和C 20% B和和C 15% A和和B和和C 5%依赖性分析依赖性分析案例“尿布与啤酒的依赖”序号序号 顾客顾客 商品名称商品名称 时间时间 1 tom 啤酒啤酒 尿布尿布 香烟香烟2000/1/1 2 john 啤酒啤酒 可乐可乐 尿布尿布 2000/1/2 3 kate

45、 啤酒啤酒 罐头罐头 卫生巾卫生巾 2000/1/3 4 benny 啤酒啤酒 尿布尿布 卫生巾卫生巾 2000/1/4产品1产品2 置信度啤酒尿布0.75啤酒卫生巾0.5尿布啤酒0.75卫生巾啤酒0.5支持度支持度 = 同时购买啤酒和尿布的销售次数 总销售次数 置信度置信度:大于大于40%置信度置信度的情况的情况大于大于60%支持支持度的度的情况情况产品1产品2置信度支持度啤酒尿布0.750.75尿布啤酒0.751卫生巾啤酒0.51香港大型商业中心对交通的依赖性分析依赖性分析 城市对房地产业的依赖性依赖性比较 依赖性分析软件粗糙集(粗糙集(rough set)技术)技术4、粗糙集(粗糙集(r

46、ough set)理论理论 是一种研究不精确、不确定性的数学工具,是一种研究不精确、不确定性的数学工具, 由波兰数学家由波兰数学家Z。Pawlak 在在1982年首先提出,年首先提出, 1991年他的年他的粗糙集合粗糙集合专著出版。专著出版。 在粗糙集理论中,在粗糙集理论中,知识知识这个概念被这个概念被视为一种分视为一种分类能力类能力,通过分类将,通过分类将差异不大的个体划分为一类差异不大的个体划分为一类,它们,它们之间构成一种不可分辨关系,又被称为之间构成一种不可分辨关系,又被称为不可分辨划分不可分辨划分。它。它正是将这种划分后的每一类作为研究对象,正是将这种划分后的每一类作为研究对象,研究

47、其某一概研究其某一概念的念的肯定支持,或肯定不支持,或可能支持(也可能不支肯定支持,或肯定不支持,或可能支持(也可能不支持)的程度持)的程度,并用,并用粗糙隶属函数粗糙隶属函数加以定量描述。加以定量描述。 粗糙集(粗糙集(rough set)技术)技术应用应用粗糙集合粗糙集合进行数据挖掘:进行数据挖掘: 数据挖掘研究的实施对象多为关系数据库,数据挖掘研究的实施对象多为关系数据库,关系表关系表可被看可被看作是作是粗糙集理论粗糙集理论中的中的决策表决策表(也称为(也称为信息表信息表)这给粗糙集方法)这给粗糙集方法的应用带来极大的方便。现实世界中的规则有确定性的,也有的应用带来极大的方便。现实世界中

48、的规则有确定性的,也有不确定性的,不确定性的,从数据库中发现不确定的知识,为粗糙集方法的从数据库中发现不确定的知识,为粗糙集方法的用武之地。用武之地。运用粗糙集方法得到的知识发现算法可以极大地提运用粗糙集方法得到的知识发现算法可以极大地提高效率。所以在高效率。所以在知识获取、机器学习、规则生成、决策分析、知识获取、机器学习、规则生成、决策分析、智能控制智能控制等领域获得了广泛应用。等领域获得了广泛应用。 在在科研、金融、天文、医疗科研、金融、天文、医疗等领域庞大数据的发掘中,可以等领域庞大数据的发掘中,可以发现隐含在数据中的许多有价值的知识。发现隐含在数据中的许多有价值的知识。基于粗糙集理论粗

49、糙集理论的知识获取系统的知识获取系统模糊技术5、模糊技术:、模糊技术: 扎德扎德提出的模糊集合论为模糊信息的描述和处理提供了数学基础。提出的模糊集合论为模糊信息的描述和处理提供了数学基础。模糊集合是传统集合的扩展。模糊集合的模糊集合是传统集合的扩展。模糊集合的隶属函数隶属函数的值域为的值域为0,1 ,当模糊集合的隶属函数的值域为当模糊集合的隶属函数的值域为1,1 时,该模糊集合就退化为传统时,该模糊集合就退化为传统的集合。的集合。 在对数据源进行挖掘分析时,可为指定的属性引人模在对数据源进行挖掘分析时,可为指定的属性引人模糊概念,使用模糊集的方法用糊概念,使用模糊集的方法用隶属度隶属度对对属性

50、值属性值进行转换,进行转换,使数据源中的属性值便于人们的理解和计算机分析处理。使数据源中的属性值便于人们的理解和计算机分析处理。为为每个属性引人一个模糊概念每个属性引人一个模糊概念 模糊技术6、模糊技术:、模糊技术: 如:如:收视率收视率为为“高高”或或“低低”等,并确定相应的隶等,并确定相应的隶属函数,然后进一步扫描数据源,对每个事件的各属性的属函数,然后进一步扫描数据源,对每个事件的各属性的取值用相应的取值用相应的隶属度隶属度代替。原来代替。原来属性之间的关联属性之间的关联就变成就变成模模糊意义上的关联糊意义上的关联。所形成的关联规则,即为模糊关联规则。所形成的关联规则,即为模糊关联规则。

51、 模糊关联规则模糊关联规则的的模糊性不仅体现在模糊概念的模糊性,模糊性不仅体现在模糊概念的模糊性,而且体现在隶属函数确定的模糊性而且体现在隶属函数确定的模糊性,因为隶属函数的确定,因为隶属函数的确定也有一定的模糊性,而不同的隶属函数所得到的属性值也也有一定的模糊性,而不同的隶属函数所得到的属性值也会不同,从而可能导致挖掘结论不同。会不同,从而可能导致挖掘结论不同。 模糊集还用于分类,对于数据挖掘系统进行分类,模糊集还用于分类,对于数据挖掘系统进行分类,模模糊逻辑糊逻辑是有用的。它提供了在高度抽象层处理的便利。是有用的。它提供了在高度抽象层处理的便利。模糊模糊查询技术技术在公交管理中的应用 数据

52、挖掘在解决方法上的分类 分析问题分析问题 示例示例 SQL Server 2005算法算法分类分类:为案例分布预定义的级别:为案例分布预定义的级别(如:好(如:好 与与 差)差)信用风险分析信用风险分析 客户流失分析客户流失分析客户挽留客户挽留决策树决策树 贝叶斯算法贝叶斯算法 神经网络神经网络分割分割:开发一种按相似案例分组:开发一种按相似案例分组的分类方法的分类方法客户资料分析客户资料分析 邮件推销活动邮件推销活动 聚类分析聚类分析顺序聚类顺序聚类关联关联:相关性高级计算:相关性高级计算购物篮分析购物篮分析 高级资料研究高级资料研究决策树决策树 相关规则相关规则时间序列预测时间序列预测:预

53、测未来:预测未来预测销售预测销售 预测股票价格预测股票价格时间序列时间序列预测预测:根据相似案例(如:现有:根据相似案例(如:现有客户)的值预测新方案的值客户)的值预测新方案的值提供保险率提供保险率 预测客户收入预测客户收入预测温度预测温度全部全部偏差分析偏差分析:发现案例或群体与其:发现案例或群体与其他案例和群体的差别他案例和群体的差别信用卡欺骗检测信用卡欺骗检测 网络入侵分析网络入侵分析全部全部数据挖掘功能和应用领域应用领域应用领域挖掘功能的例子挖掘功能的例子 挖掘过程挖掘过程挖掘技术挖掘技术欺诈检测欺诈检测信用卡欺诈内部查帐商店失窃确定标准状况变化数据可视化基于记忆的推理风险评估风险评估

54、信用卡升级抵押贷款客户保持客户信贷分类链接的检测和分析决策树基于记忆的推理市场分析市场分析市场篮子分析目标销售客户个性行销预测性的建模数据库分割类检测决策树链接分析遗传算法数据挖掘数据挖掘:SQL Server 2005SQLserver2005 数据挖掘数据挖掘研究 使用Access 2007开始数据挖掘数据挖掘 数据挖掘在人力资源方面的应用DM(数据挖掘数据挖掘)上海数据库开发 生物医学文献数据挖掘软件SQL Server分析服务中的数据挖掘数据挖掘 数据挖掘工具的比较工具名称工具名称IBM DB2DB Minner2.0SASDarwinMine SetMasa 3.0产品提产品提供供I

55、BM公司公司DB Miner TechnologySAS InstituteThinkingMachineSGI公司公司 和和 美国美国Standford创我科技创我科技可提供可提供的竞争的竞争能力能力强大并行强大并行计算能力计算能力多任务挖掘工多任务挖掘工具具,通过通过DMQL进行进行数理统计数理统计分析软件分析软件数据挖掘数据挖掘核心竞争力核心竞争力数据库和技数据库和技术领先术领先多种关系多种关系数据库数据库多种数据多种数据获取、筛获取、筛选、转换选、转换价格价格咨询和购咨询和购卖硬件费卖硬件费用昂贵用昂贵比较便宜比较便宜昂贵,多昂贵,多采用租赁采用租赁软件免费,软件免费,数据展示和数据展

56、示和准备费用高准备费用高比较便宜比较便宜比较便宜比较便宜运行平运行平台台多平台多平台多平台多平台多平台多平台多平台多平台Oracle数据数据库库多平台多平台Windows平台平台数据挖掘工具的比较工具名称工具名称IBM DB2DB Minner2.0SASDarwinMine SetMasa 3.0用户界用户界面面使用复杂使用复杂的数据可的数据可视化技术视化技术可视化界可视化界面面可视化界可视化界面,操作面,操作复杂复杂可视化界面,可视化界面,比强的用户比强的用户界面界面可视化显可视化显示,操作示,操作简单简单有经验用有经验用户可自由户可自由优化参数优化参数建模技建模技术与算术与算法法有广泛的

57、有广泛的数据挖掘数据挖掘技术和算技术和算法集,统法集,统计功能差计功能差算法简单,算法简单,主要与主要与SQL Server的的OLAP 集集成成提供所以提供所以的数据挖的数据挖掘方法,掘方法,包括统计包括统计分析、时分析、时序分析序分析仅有聚类,仅有聚类,没有关联和没有关联和序列规则算序列规则算法法构造表达构造表达式由已有式由已有的数据项的数据项生成新的生成新的数据项数据项多种可行多种可行的数据挖的数据挖掘算法,掘算法,可以嵌人可以嵌人其它软件其它软件代码代码模型发模型发布布具有大量具有大量数据挖掘数据挖掘和程序接和程序接口口开放式体开放式体系结构系结构用特有的用特有的SQL语言语言后台用特

58、后台用特别程序发别程序发布包布包采用采用C、C+、Java手工编手工编码输出程序码输出程序支持国际支持国际字符,可字符,可以直接发以直接发表到表到Web发布简单,发布简单,有模板有模板小结本章小结数据仓库数据仓库OLAP决策支持系统决策支持系统数据挖掘技术数据挖掘技术人工智能人工智能商务智能商务智能本章小结数据挖掘技术数据挖掘技术1、描述(归纳)2、分类预测3、聚类分析4、关联分析5、依赖性分析6、粗糙集7、模糊技术MS SQL Server 2005 的的 数据挖掘算法:数据挖掘算法:1、贝叶斯算法、贝叶斯算法2、决策树算法、决策树算法3、时序算法、时序算法4、聚类算法、聚类算法5、序列聚类

59、算法、序列聚类算法6、关联规则算法、关联规则算法7、神经网络算法、神经网络算法8、文本挖掘技术、文本挖掘技术第八章 决策支持与商务智能主要的概念和术语:主要的概念和术语:联机事物处理联机事物处理(OLTP); 联机分析处理联机分析处理(OLAP );数据挖掘数据挖掘( DM :data mining);数据仓库数据仓库(DataWareHouce);人工智能(人工智能(AI)商务智能(商务智能(BI)数据库知识发现数据库知识发现(KDD)决策支持系统决策支持系统(DSS)管理信息系统(管理信息系统(MIS)主要的问题:主要的问题:1、MIS与与DSS有什么不同?(数据库与数据仓库有什么不同?(

60、数据库与数据仓库及知识库、模型库和方法库;及知识库、模型库和方法库;OLTP与与OLAP:结:结构化问题与半结构化问题;中层与高层管理)构化问题与半结构化问题;中层与高层管理)2、知识的表示有哪三种方法?(产生式规则、框、知识的表示有哪三种方法?(产生式规则、框架、语义网络)架、语义网络)3、OLTP与与OLAP有什么不同?有什么不同?(通过查询解决事通过查询解决事务的能力务的能力;通过数据分析辅助解决决策问题通过数据分析辅助解决决策问题)4、数据挖掘的主要任务是什么?(归纳、分类和、数据挖掘的主要任务是什么?(归纳、分类和预测、聚类分析)预测、聚类分析)5、数据挖掘的主要技术是什么?(统计算

61、法、数据挖掘的主要技术是什么?(统计算法神经网络、遗传算法、聚类分析、模糊分析神经网络、遗传算法、聚类分析、模糊分析粗糙集)粗糙集)6、商务智能的主要技术是什么?(专家系统、遗、商务智能的主要技术是什么?(专家系统、遗传算法、神经网络、智能代理)传算法、神经网络、智能代理)主要参考资料1、 美美Paulraj Ponniah 著著 段云峰段云峰 译译 数据仓库基础数据仓库基础 电子工业出版社电子工业出版社2、徐洁磐、徐洁磐 数据仓库与决策支持系统数据仓库与决策支持系统 科学出版社科学出版社3、刘翔、刘翔 数据仓库与数据挖掘技术数据仓库与数据挖掘技术 上海交通大学出版社上海交通大学出版社4、郭秋

62、萍、郭秋萍 企业数据挖掘企业数据挖掘 理论与实践理论与实践 黄河水利出版社黄河水利出版社5、胡运发、胡运发 数据与知识工程导轮数据与知识工程导轮 清华大学出版社清华大学出版社6、美美 ZhaoHui Tang 著著 数据挖掘原理与应用数据挖掘原理与应用 清华大学出版社清华大学出版社7、谢邦昌、谢邦昌 商务智能与数据挖掘商务智能与数据挖掘 M SQL Server 应用应用 机械工业出版社机械工业出版社 2008年年3月月主要术语和概念主要术语和概念:主要术语和概念: 决策模型决策模型; 决策过程决策过程; 决策支持系统决策支持系统(DSS); 模型库模型库; 方法方法库库; 知识库知识库; 专

63、家系统专家系统/基于知识的系统基于知识的系统(ES);知识工程师知识工程师(Knowledge Engineer););知识工作者(知识工作者(Knowledge Worker););人工智能人工智能(AI); ROMC方法方法(表述表述 representation 操作操作 operation 记忆辅助记忆辅助 memory aids 控制机制控制机制 control mechanisms ); 智能决策支持智能决策支持(IDSS); 群体决策支持系统群体决策支持系统(GDSS);群件(群件(Groupware);); 知识获取知识获取(知识发现知识发现)(Knowledge Acquis

64、ition); 知识知识推理推理; 知识表达知识表达; 产生式规则产生式规则; 框架框架; 语义网络语义网络; 继承推理继承推理; 匹配推理匹配推理; 散射激活推理散射激活推理; 模糊数学模糊数学; 主要术语和概念人工神经网络(人工神经网络(Neural network); 遗传算法(遗传算法(Genetic Algorithm);地理信息系统(地理信息系统(GIS););全球定位系统全球定位系统(GPS);); 自动语音识别(自动语音识别(ASR););离散式语音识别离散式语音识别(DASR););连续自动语音识别(连续自动语音识别(CASR););自动虚拟环自动虚拟环境(境(CAVE);)

65、; 联机事物处理联机事物处理(OLTP); 联机分析处理联机分析处理(OLAP ); 数据仓库数据仓库(DWH);维维; 类别类别(category); 切片切片(slice); 切块切块(dice); 下钻下钻/上卷上卷(drill down / roll up); 旋转旋转(rotate); OLAP准则准则; 数据挖掘数据挖掘(data mining); 概念描概念描述述(归纳或简约归纳或简约) ;分类分类; 预测预测; 接类、聚类接类、聚类; 关联关联; 客户关客户关系管理系管理; 供应链管理供应链管理决策支持和商务智能 结束结束 谢谢 谢谢决策支持系统(DSS)的历史演变信息系统信息系统(基于计算机)(基于计算机)个人个人DSS数据库数据库数据仓库数据仓库经理信息系统经理信息系统(EIS)在线分析处理在线分析处理OLAP人工智能人工智能专家系统专家系统知识库系统知识库系统数据挖掘数据挖掘智能决策智能决策IDSS互联网互联网企业信息门户企业信息门户Web-basedGDSS传输处理与传输处理与报告系统报告系统智能代理智能代理产品推荐系统产品推荐系统

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号