商业智能初级知识扫盲之概念篇

上传人:自*** 文档编号:80905316 上传时间:2019-02-20 格式:DOC 页数:11 大小:54.01KB
返回 下载 相关 举报
商业智能初级知识扫盲之概念篇_第1页
第1页 / 共11页
商业智能初级知识扫盲之概念篇_第2页
第2页 / 共11页
商业智能初级知识扫盲之概念篇_第3页
第3页 / 共11页
商业智能初级知识扫盲之概念篇_第4页
第4页 / 共11页
商业智能初级知识扫盲之概念篇_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《商业智能初级知识扫盲之概念篇》由会员分享,可在线阅读,更多相关《商业智能初级知识扫盲之概念篇(11页珍藏版)》请在金锄头文库上搜索。

1、商业智能初级知识之概念篇商业智能:商业智能定义商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能。可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力(insight),促使他们做出对企业更有利的决策。商业智能组成商业智能一般由数据仓库、联机分析处理OLAP、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。商业智能过程商业智能分析设计详述的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行数据清理,以保证

2、数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者提供决策支持。企业应用商业智能的益处1、促进企业决策流程:商业智能增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质。2、降低整体营运成本:商业智能改善企业的资讯取得能力,大幅降低IT人员撰写程式

3、、制作报表的时间与人力成本,而弹性的模组设计介面,完全不需撰写程式的特色也让日后的维护成本大幅降低。3、协同组织目标与行动:商业智能加强企业的资讯传播能力,消除资讯需求者与IT人员之间的认知差距,并可让更多人获得更有意义的资讯。全面改善企业之体质,使组织内的每个人目标一致、齐心协力。数据仓库数据仓库定义数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。数据仓库特征1、数据仓库是面向主题的。操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主

4、题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。2、数据仓库是集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、数据清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。3、数据仓库是不可更新的。数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;4、数据仓库是随时间而变化的

5、。传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。5、汇总的。操作性数据映射成决策可用的格式。6、大容量。时间序列数据集合通常都非常大。7、非规范化的。Dw数据可以是而且经常是冗余的。8、元数据。将描述数据的数据保存起来。9、数据源。数据来自内部的和外部的非集成操作系统。数据集市数据集市定义数据集市(Data Mart) ,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在

6、于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。数据集市特征1规模小。2有特定的应用。3面向部门。4由业务部门定义、设计和开发。5业务部门管理和维护。6能快速实现。7购买较便宜。8投资快速回收。9工具集的紧密集成。10提供更详

7、细的、预先存在的、数据仓库的摘要子集。11可升级到完整的数据仓库。独立型数据库VS从属型数据库独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。数据仓库规模大、周期长,一些规模比较小的企业用户难以承担。因此,作为快速解决企业当前存在的实际问题的一种有效方法,独立型数据集市成为一种既成事实。独立型数据集市是为满足特定用户(一般是部门级别的)的需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且投资规模也比数据仓库小很多。误区:多个独立的数据集市的累积可以形成一个企业级数据仓库就像人们不可能将大海里的小鱼堆在一起就构成一头大鲸

8、鱼,多个独立的数据集市的累积,是不能形成一个企业级的数据仓库的,这是由数据仓库和数据集市本身的特点决定的。数据集市为各个部门或工作组所用,各个集市之间存在不一致性是难免的。因为脱离数据仓库的缘故,当多个独立型数据集市增长到一定规模之后,由于没有统一的数据仓库协调,企业只会又增加一些信息孤岛,仍然不能以整个企业的视图分析数据。如果企业最终想建设一个全企业统一的数据仓库,想要以整个企业的视图分析数据,独立型数据集市恐怕不是合适的选择;从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定,可以说是数据集市未来建设的主要方向。数据清洗数据清洗定义数据清洗是指发现并纠正数据文件中可识别的错误

9、的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗主要类型1、残缺数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。2、错误数据这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,

10、对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。3、重复数据对于这一类数据特别是维表中会出现这种情况将重复数据记录的所有字段导出来,让客户确认并整理。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送

11、过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。数据挖掘数据挖掘定义数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘步骤数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表

12、示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘相关问题1、数据仓库和数据挖掘的关系为何?若将数据仓库比喻作矿坑,数据挖掘就是深入矿坑采矿的工作。数据挖掘就是从巨大数据仓库中找出有用信息的一种过程与技术。2、olap能不能代替数据挖掘?两者间是截然不同的,主要差异在于数据挖掘用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而数据挖掘则是用来帮助使用者产生假设。

13、3、数据挖掘在各领域应用为何?数据挖掘在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数据库,皆可利用数据挖掘工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。于销售数据中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效行销强调的分众概念与数据库行销方式在导入数据挖掘的技术后,使直效行销的发展性更为强大,例如利用数据挖掘分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化行销的

14、目的;制造业对数据挖掘的需求多运用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,数据挖掘可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向,并预测个别公司的营运以及股价走向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。OLAPOLAP定义联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支

15、持复杂的数据分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。OLAP 和 OLTP的区别联机事务处理OLTP(On-Line Transaction Processing)是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。联机分析处理OLAP(On-Line Analytical Processing)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLAP特点联机分析处理的用户是企业中的专业分析人员及管理决策人员,他们在分析业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模式。例如分析销售数据,可能会综合时间周期、产品类别、分销渠道、地理分布、客户群类等多种因素来考量。这些分析角度虽然可以通过报表来反映,但每一个分析的角度可以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号