《第6章 商务智能基础数据库与信息管理_.ppt》由会员分享,可在线阅读,更多相关《第6章 商务智能基础数据库与信息管理_.ppt(26页珍藏版)》请在金锄头文库上搜索。
1、第六章第六章 商务智能基础:数据库与信息管理商务智能基础:数据库与信息管理开篇案例:惠普能否从企业数据仓库中挖掘成功开篇案例:惠普能否从企业数据仓库中挖掘成功HP的CIO:Randy Mott(兰迪 莫特)惠普有大量的数据,存放在多个应用程序和数据库中,分布于全球各地的不同部门和不同领域。然而,众多的系统和应用程序却无法提供所需要的完整且前后一致的信息。惠普的CIO决定: 建立数据仓库,即在全公司建立一个可共享的信息库,用于提供统一而且准确的商业信息。该数据仓库取代了17种不同的数据库技术,通过连接目前正在使用的1.4万个数据库,使不同地区和部门的员工都可以在第一时间获取所需数据。HP最终将这
2、一数据仓库系统发展为独立产品:Neoview,并销售给其他企业6.1 6.1 传统文件环境下的数据整理传统文件环境下的数据整理6.1.1 6.1.1 文件组织术语和概念文件组织术语和概念字段记录某个数据库中的一份表文件,该文件存储了选修管理信息系统课程的某个数据库中的一份表文件,该文件存储了选修管理信息系统课程的1010级物流专业的同学名单。每列是一个级物流专业的同学名单。每列是一个字段字段,每行为一个,每行为一个记录记录。从数据库原理的角度来看,表中反映了从数据库原理的角度来看,表中反映了“学生学生”这一类这一类实体集实体集(Entity Entity SetSet),表中的每一行是该类型中
3、的一个具体的),表中的每一行是该类型中的一个具体的实体实体,每个实体都具有学号、,每个实体都具有学号、姓名、专业名称等姓名、专业名称等属性属性6.1.2 传统文件环境的问题数据冗余与混乱程序-数据依赖欠缺弹性安全性低缺乏数据共享与实用性同样的这样一张表,如果在学校的学生处、教务处分别存储一份,可能会立即产生各种问题。6.2 6.2 使用数据库管理数据使用数据库管理数据6.2.1 数据库管理系统有了DBMS,用户和程序员不需要直接和数据库打交道,只需要通过各种应用程序去调用数据库即可。这极大地简化了工作量。例如:在网上发布一条微博,用户完全不必关心这条微博存储在哪台网站服务器上的哪个存储区域,以
4、何种格式存储这一切均由DBMS完成。1、DBMS如何解决传统文件环境带来的问题2、关系型数据库管理系统层次型DBMS网型 DBMS关系型DBMS,它是严格的、标准的二维表格关键字(Primary Key)外关键字(Foreign Key)3、关系型DBMS操作4、面向对象数据库管理系统选择投影联接6.2.2 DBMS6.2.2 DBMS的优势的优势Visual Foxpro中的数据定义Access中的数据定义SQL Server中的数据定义SQL语言是几乎所有关系型数据库的通用语言,要深入掌握SQL语言并不容易,为此,许多DBMS允许用户以可视化方式创建查询,然后为用户自动生成对应的SQL语言
5、并执行。如图是在Access中完成一次交叉表查询,生成的SQL语句从功能上看属于数据操纵语言。例如,有某个关系如下例如,有某个关系如下学生(学生(学号学号、姓名、性别、年龄、籍贯、入学分)、姓名、性别、年龄、籍贯、入学分)在该关系中,不同记录之间,只有学号是不能重复的,而其他的都存在出在该关系中,不同记录之间,只有学号是不能重复的,而其他的都存在出现重复项的可能,因此学号就是该关系的关键字。现重复项的可能,因此学号就是该关系的关键字。又如学生的选课关系:又如学生的选课关系:学号课程号成绩1001A1891002A1781001A2891002A278学号、课程号、成绩三项都有可能重复,学号、课
6、程号、成绩三项都有可能重复,因此其中的单独某项不能作为关键字,只因此其中的单独某项不能作为关键字,只能取属性的集合作为关键字。能取属性的集合作为关键字。经过简单分析可以得出,只有学号经过简单分析可以得出,只有学号+ +课程号课程号的组合不可能出现重复项,即该关系的关的组合不可能出现重复项,即该关系的关键字是(学号、课程号)键字是(学号、课程号)6.2.3 设计数据库规范化和实体联系图编号姓名电话市话手机在在WordWord和和ExcelExcel中均允许制作如上的表头,但在数据库中是不允许的中均允许制作如上的表头,但在数据库中是不允许的关系数据库规定:每个属性是不可再分的。若违反这一规定,则称
7、关系数据库规定:每个属性是不可再分的。若违反这一规定,则称其为不满足其为不满足第一范式(第一范式(1NF1NF)。达到第一范式是关系数据库的最基本要求。达到第一范式是关系数据库的最基本要求。再看右表:再看右表:学号姓名籍贯课程号成绩1001张三合肥A1871002李四芜湖A1921001张三合肥A2851002李四芜湖A276显然该关系满显然该关系满足第一范式足第一范式如前所述,该关系的关键字是(学号、课程号)如前所述,该关系的关键字是(学号、课程号)但是:学生的姓名和籍贯被重复存储了,这是不必要的,究其原因在于:但是:学生的姓名和籍贯被重复存储了,这是不必要的,究其原因在于:学号本身就可以直
8、接决定姓名和籍贯,无须借助于课程号来实现。这就学号本身就可以直接决定姓名和籍贯,无须借助于课程号来实现。这就迫使我们要对该关系做出分解,即:迫使我们要对该关系做出分解,即:关系关系1 1:学生(:学生(学号学号、姓名、籍贯)、姓名、籍贯)关系关系2 2:选课(:选课(学号、课程号学号、课程号、成绩)、成绩)分解后可知:上述情况消失了。(虽然学号仍被重复存储了,但这是为分解后可知:上述情况消失了。(虽然学号仍被重复存储了,但这是为了更好地使用数据库而做出的一种妥协)了更好地使用数据库而做出的一种妥协)如果某个关系存在这种情况:如果某个关系存在这种情况:关系的关键字是属性的组合,但是其中某个属性又
9、可以独立地决定其他关系的关键字是属性的组合,但是其中某个属性又可以独立地决定其他属性,则称该关系不满足于属性,则称该关系不满足于第二范式第二范式。换言之:若某关系的关键字是单个属性,则该关系必然满足第二范式。换言之:若某关系的关键字是单个属性,则该关系必然满足第二范式。学号姓名系别系主任1001赵大英语老张1002钱二英语老张1003孙三贸易老李1004李四贸易老李经分析可知:左表中的关键字是学号,经分析可知:左表中的关键字是学号,由于是单属性,因此其必然满足第二范由于是单属性,因此其必然满足第二范式。式。但是:但是:“系主任系主任”仍然出现了重复存储仍然出现了重复存储的现象。的现象。此外,若
10、英语系的学生全部毕业,数据此外,若英语系的学生全部毕业,数据删除,同时也就抹去了删除,同时也就抹去了“老张是英语系老张是英语系的系主任的系主任”这件事实。造成信息丢失。这件事实。造成信息丢失。究其原因:由于究其原因:由于“学号学号”对对“系主任系主任”的决定作用是通过的决定作用是通过“系别系别”来传来传递的,即在实质上,递的,即在实质上,“系别系别”对对“系主任系主任”存在着决定关系。导致了这存在着决定关系。导致了这一问题的出现,其解决办法仍是将原有关系分解,可分解为:一问题的出现,其解决办法仍是将原有关系分解,可分解为:关系关系1 1:学生(学号、姓名、:学生(学号、姓名、系别系别)关系关系
11、2 2:系资料(:系资料(系别系别,系主任),系主任)外关键字消除这种传递后,得到的关系即满足消除这种传递后,得到的关系即满足第三范式第三范式。关系模式是一个逐级包含的过程:即若某个关系满足高级别的范式要求,关系模式是一个逐级包含的过程:即若某个关系满足高级别的范式要求,则其必然满足低级别的范式要求。则其必然满足低级别的范式要求。将关系的模式从低级别向高级别转化,此过程称为将关系的模式从低级别向高级别转化,此过程称为关系的规范化关系的规范化。规范化过程中要注意:不能丢失原关系所包含的相关信息。规范化过程中要注意:不能丢失原关系所包含的相关信息。再来了解一下什么是参照完整性:左图是Access中
12、的截图,图中:Suppliers和Quatations依据SNO字段实施了参照完整性。类别为:一对多两张表成功实施参照完整性后,在左表中的SNO字段可对应右表的多条记录,但是右表的SNO字段中不得出现左表的SNO字段中未出现的值。(但反过来是允许的)实体-联系图,又称为E-R图E-R图中包括:实体、属性和联系三种基本图素。约定:“实体”用方框表示,“联系”用菱形框表示,“属性”用椭圆框表示,框内填入相应的实体、联系及属性的标识。两个实体间可有两个实体间可有3 3种不同联系方式种不同联系方式数据库的分布左图:集中式数据库 右图:分布式数据库6.3 6.3 利用数据库提升商业运作水平和决策能力利用
13、数据库提升商业运作水平和决策能力6.3.1 数据仓库案例:美国国内税务署利用数据仓库揭露税务诈骗美国国内税务署(IRS)美国国内税务署(IRS)是征税和执行税法的部门。自19世纪60年代成立以来,IRS处理的数据随着人口的增长呈现数量级递增。2006年,IRS处理了近1.34亿份纳税申报单,税收额高达1.2万亿美元。IRS和Sybase软件公司合作,建立了数据仓库,极大地提高了效率,通过追征拖欠税款的纳税人,也提高了税收额。这一系统运行良好,对税务诈骗者的审查次数越来越多,而诚实守信纳税者受审查的次数越来越少。6.3.2 6.3.2 商务智能、多维数据分析和数据挖掘商务智能、多维数据分析和数据
14、挖掘博彩业的Harrahs(哈拉斯)借助于商业智能,判断高价值客户,并制定鼓励他们更多投资的方案通过联系分析处理(OLAP)和多维数据分析,用户可以不同方法分析同一数据,从而得到对该数据从不同层面进行解释的结果6.3.3 数据库与万维网6.4 管理数据资源6.4.1 制定信息政策6.4.2 确保数据质量案例分析:注:由于书P207的案例美国反恐监视名单数据库的难题并不符合国情,故更换为此案例。背景知识:20世纪90年代中期,利用假单证、假批文、假印章进行的三假走私、骗汇、骗税违法犯罪活动十分猖獗。据不完全统计,1997年全国海关共查获三假走私案案值为人民币15亿元,1998年达到21亿元。三假
15、走私骗汇、骗税对国家经济造成了严重损害。按照国家外汇管理有关规定,企业出口货物必须事先到外汇管理部门备案,然后在规定的时间内把出口货物换取的外汇结算给外汇指定银行。企业进口设备、原材料需要外汇时,只需要向外汇指定银行出具海关签发的进口报关单证明,就可以自由购汇。1998年东南亚金融危机爆发,我国外汇也大量流失:不法分子根本没有进口货物,而是通过制造假的报关单到银行骗购外汇。 为此,海关总署和外汇管理局联合开发了进口付汇报关单联网核查系统,(即现在“中国电子口岸”的前身)该系统通过海关与外汇部门的联网核查来鉴别进出口付汇报关单的真伪,改变了靠书面单证防伪的做法,1999年1月1日该系统在全国推广使用,并立刻收到了明显的效果1996年全国海关查获的三假走私案案值为人民币7亿元,1997年14.7亿元,1998年21.2亿元。1999年海关实行电子底帐 联网核查新的管理模式后,三假案发案率大幅下降,案值只有3.1亿元,2000年则基本为零。