商务智能大纲一、商务智能概要商务智能的标准定义商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力商务智能的对象和技术1.企业: “组织机构”或“实体” ,企业机构或非企业性机构,比如政府部门、教育机构、医疗机构和公用事业等,都应该而且能够利用商务智能 2现代信息技术:能保证从不同的数据源(提取有用的数据,对数据进行清理以保证数据的质量,将数据经转换、重构后存入数据仓库或数据集市(这时数据变为信息),然后寻找合适的查询、报告和分析工具和数据挖掘工具对信息进行处理(这时信息变为辅助决策的知识),最后将知识呈现于用户面前,转变为决策商务智能的分析过程3.收集-收集数据是管理和分析数据的前提 内部结构化比如ERP、CRM、SCM和电子商务等系统 ,内部非结构化、外部数据市场调研报告、人口统计报告、顾客信用报告 4.管理-这里的“管理”主要是指对数据的储存、提取、清洗、转换、装载、整合等工作,其目的主要是为了提高数据的质量和安全性 5.分析-数据查询、数据报告、多维分析、数据挖掘、高级统计分析 6.结构化——结构化的数据主要是指储存于各个交易系统背后的关系型数据库中的数据,通常都是以表格的形式存在和展现的。
传统的商务智能概念只包括这种结构化的、可定量的数据7.非结构化——以零散的文件形式存在和展现的,通过文件管理和内容管理(Document Management & Content Management)软件来进行的 商务智能的作用8.商务数据和信息包括一切可能对商务产生影响的、直接和间接的数据和信息 9.创造和累计商务知识和见解——这是商务智能的第一层的目的和功能,也是最直接的目的和功能;“知识和见解”正是“智能”得名的由来10.改善商务决策水平——这是商务智能的更高一层的目的和功能,企业能否利用好这一功能、实现这一目的在很大程度上取决于领导者的意识和胸襟以及企业文化中决策科学化和民主化的成分11.采取有效的商务行动——采取有效的商务行动是创造和累计商务知识和见解、改善商务决策水平的目的和动力 12.完善各种商务流程——残缺、散乱、僵化、低效的商务流程是企业的顽疾,商务智能能够为这一顽疾的诊断和治疗做出一定的贡献; 优化后自动化(请注意先后顺序)的商务流程反过来也会促进商务智能的发展 商务智能的组成和技术• 商务智能的结构主要由两部分组成: 数据仓库环境 分析环境• 商务智能主要由三种技术构成: 数据仓库(Data Warehouse) 联机分析处理( On-line Analytical Processing ) 数据挖掘(Data Mining)三大技术的作用• 在三大技术支柱中,数据仓库是商务智能的基础。
• 联机分析处理(OLAP)是以海量数据为基础的复杂分析技术• 数据挖掘(Data Mining)是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程商务智能的效用• 理解业务 认识是哪些趋势、哪些非正常情况和哪些行为正对业务产生影响• 衡量绩效 商务智能可以用来确立对员工的期望,帮助他们跟踪并管理其绩效• 改善关系 改善企业与顾客、员工、供应商、股东和大众的关系 • 创造获利机会掌握各种商务信息的企业可以出售这些信息从而获取利润 二、数据仓库概要数据仓库的定义• 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程• A Data Warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management’s decision making process• - William Harvery Inmon “Building the Data Warehouse”• DW建立目标就是把企业范围内的所有数据集成在一个大仓库中,让用户能运行查询、产生报告和执行分析。
数据仓库的特征• 面向主题——数据仓库中的数据按照主题进行组织;• 集成——从多个数据源将数据集合到数据仓库中,并集成为一个整体;• 稳定——数据仓库中的数据通常是历史数据,很少进行更新;• 时变——数据仓库中的所有数据都有特定的时间标识. 数据仓库与数据库的区别对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位粒度的重要性 在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型在数据仓库中的数据量大小与查询的详细程度之间要作出权衡数据集市的定义 数据集市是整个企业数据的一个子集,包括特定业务单元、部门或用户集的值数据集市是根据特定主题而不是根据数据集市数据库的大小来定义。
三、数据挖掘概要• 数据挖掘发展概述 (发展历程及数据、信息与知识三者关系)• 数据挖掘的定义• 数据挖掘的步骤• 数据挖掘的主要功能• 数据挖掘的应用技术的发展+需求的升级进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息数据挖掘的技术定义数据挖掘(Data Mining)从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
知识发现(Knowledge Discovery in Databases)是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识,称为数据库中的知识发现数据挖掘与数据仓库大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中从数据仓库中直接得到进行数据挖掘的数据有许多好处数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经解决了数据挖掘的步骤I• 数据准备 – 数据选择:目标数据– 数据预处理:消除噪声、不一致、冗余等– 数据变换:连续数据离散化、数据转化– 数据归约:特征选择或抽取• 数据挖掘时,需要– 明确任务如数据总结、分类、聚类、关联规则发现、序列模式发现等– 考虑用户的知识需求(得到描述性的知识、预测型的知识)– 根据具体的数据集合,选取有效的挖掘算法数据挖掘的步骤II• 结果的解释评估(interpretation and evaluation)– 对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关的模式– 模式不满足用户需求时,返回到某一步,重新挖掘。
如:重新选择数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖掘算法(如分类方法,不同的方法对不同的数据有不同的效果)– 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户易于理解的形式表示• 评注– 影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量– 数据挖掘的过程是一个不断反馈的过程– 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图或直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解数据挖掘的主要功能 —可以挖掘哪些模式?• 一般功能– 描述性的数据挖掘 – 预测性的数据挖掘• 通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:定性归纳• 一个概念:对一个包含大量数据的数据集合总体情况的概述• 概念描述(concept description):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述• 概念描述的主要方法:– 对目标数据进行概述性的总结,数据泛化– 对两个数据集合概化后,进行对比并将对比结果进行概化。
以表格或对比规则形式给出)关联规则 • 关联规则挖掘就是发现大量数据中项集之间有趣的关联• 基本表示形式: 前提条件⇒结论[支持度, 置信度] buys(x, “diapers”) ⇒buys(x, “beers”) [0.5%, 66%] major(x, “CS”) takes(x, “DB”) ⇒grade(x, “A”) [1%, 75%] • 具体应用:利润最大化 – 商品货架设计:更加适合客户的购物路径 – 货存安排:实现超市的零库存管理 – 用户分类:提供个性化的服务 分类与预测• 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)• 比如:按气候将国家分类,按汽油消耗定额将汽车分类• 导出模型的表示: 判定树、分类规则、神经网络• 可以用来预报某些未知的或丢失的数字值 • 例:• IF age = “<=30” AND student = “no” THEN buys_computer = “no”• IF age = “<=30” AND student = “yes” THEN buys_computer = “yes”• IF age = “31…40” THEN buys_computer = “yes”• IF age = “>40” AND credit_rating = “excellent” THEN buys_compute。