owerpoint演示文稿-数据库技术

资源描述

《owerpoint演示文稿-数据库技术》由会员分享，可在线阅读，更多相关《owerpoint演示文稿-数据库技术（61页珍藏版）》请在金锄头文库上搜索。

1、第6章数据库技术,顾浩胡乃静董建寅等编著,2,本章学习要求：,了解：数据仓库与数据挖掘技术。掌握：数据库技术。掌握：数据存储技术。掌握：数据备份技术。掌握：数据安全技术。了解：数据大集中技术。,3,6.1 数据库技术,6.1.1 数据库基本概念数据库( DataBase, DB):可认为数据是被长期存放在计算机内、有组织的、可以表现为多种形式的可共享的数据集合。二层意思 :一是数据库是一个实体 ; 二是数据库是数据管理的新方法和技术。数据库技术：是管理数据的技术和手段, 即使数据能按一定格式组织、描述和存储，且具有较小的冗余度、较高的数据独立性和易扩展性，并可为多个用

2、户所共享。数据库系统: 通常是指带有数据库的计算机应用系统，因此，数据库系统不仅包括数据库本身，即实际存储在计算机中的数据，还包括相应的硬件、软件和各类人员。,4,数据库系统组成,硬件：大内存（存放软件）和大外存（数据备份）和高的数据传输率。软件：包括DBMS 、操作系统、数据库应用软件（MIS、DSS、OA）等。数据：是数据库的基本组成内容和操作对象。人员：包括DBA、系统分析员、应用程序员、用户。,5,数据库特点,速度快: 与手工操作相比，其查询迅速，准确，而且可以省去大量的纸面文件数据结构化且统一管理: 把文件系统中简单的记录结构变成记录与记录间的联系所构成的结

3、构化数据。数据冗余度小:使用逻辑文件。具有较高的数据独立性：应用程序与数据无信赖性。数据的共享性好数据控制功能：数据安全性保护数据完整性并发控制数据库恢复,程序A,程序B,程序C,逻辑文件A,逻辑文件B,逻辑文件C,DBMS,DB,6,6.1.2 数据库技术的发展分布式数据库,分布式数据库是一组结构化的数据集合，它们在逻辑上属于同一系统而在物理上分布在计算机网络的不同结点（site)上。分布式数据库中就有全局数据库和局部数据库这样两个概念：全局数据库就是从系统的角度出发，指逻辑上一组结构化的数据集合或逻辑项集局部数据库是从各个场地的角度出发，指物理结点上各个数据

4、库，即子集或物理项集,7,分布式数据库应用案例,银行中的很多业务，并非只限于某一支行的数据库。如银行中的通兑业务，即场地1存款的用户可能到场地2或场地3去取款；银行中的转帐业务，要求从一个支行的帐户中转出若干金额到另一个支行的帐户中去。这些应用要求就要同时更新两个支行（场地）上的数据库。我们把这些应用称为全局应用（或分布应用）。,8,分布式数据库应用案例图,场地1,场地2,场地3,9,其他数据库,主动数据库：主动数据库是相对传统数据库的被动性而言的，所谓主动数据库就是除了完成一切传统数据库的服务外，还具有各种主动服务功能的数据库系统，即DB+AI。多媒体数据库：多媒体数据库是指能够存储查

5、询和管理相互关联的多媒体数据的集合，它必须支持大对象的存储。模糊数据库系统：用于存储、操作和管理模糊数据。并行数据库系统：是在并行机上运行的具有并行处理能力的数据系统。知识库:DB+AI. 空间数据库(Spatial Database System, SDBS):例GIS系统. 数据仓库(Data Warehouse, DW):面向主题、集成、相对稳定、反映历史变化、数据随时间变化。协同数据库等。,10,6.1.3 常见数据库产品,DB2 ：IBM公司的产品, 采用多进程多线索体系结构,可以运行于多种操作系统之上。具有多种特色。是目前具有最好性能和最佳性价比的关系型数据库。 Ora

6、cle :是常用大型数据库之一,可在不同的OS上运行，在Oracle上开发的应用可移植到任何OS。自5版本开始具有分布式数据库处理功能。8i支持超大型数据库，支持面向对象，具有因特网上的数据库访问功能，9i具有坚不可摧的安全性。 Oracle比SQL Server 的性能更好，可很好地适应数据仓库应用。 Informix：大型数据库，1983年首推在Unix上运行的关系型数据库，其Unix平台占据全球主要市场。并已发展成为基于intenet的数据库管理厂商。,11,6.1.3 常见数据库产品,Sybase :是数据库产品的后起之秀, 它把C/S数据库体系结构作为开发产品的重点目标, 其高版本支

7、持企业内部各种数据库应用需求,如数据仓库、联机事务处理OLTP、决策支持系统DDS等。 SQL( Structured Query Language )Server: 是基于C/S模型的RDBMS，易学、易用。是使用广泛的大众化数据库产品，用户可自行安装和使用。它也是全球第一个支持Web应用的数据库。 Ingres,12,6.1.4 银行数据库特点,具有很高的稳定性、可靠性和可伸缩性基于开放式的体系结构统一的、易操作的数据库管理平台具有可靠的数据库安全性控制机制数据库应支持超大数据量的存储与管理支持分布式数据库处理能力具有决策支持能力，支持多维分析、即席查询（ad-hoc quer

8、y)和强大的报表功能能够同时支持Internet和Intranet访问功能,13,6.2 数据仓库与数据挖掘,6.2.1 数据仓库的概念和特点数据仓库(data warehouse) 概念始于本世纪80年代中期。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善，在总结、丰富、集中多项企业信息的经验之后，为数据仓库给出了更为精确的定义，即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库无严格的数学理论基础，也无成熟的基本模式，但具有很强的工程性。,14,数据仓库的三个基本方面,数据的抽取: 是数据进入仓库的入口,它将数据从联机事

9、务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。存储和管理: 是数据仓库的真正关键。数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。数据的表现: 数理统计的算法和功能已经普遍集成到联机分析产品之中，同时又与Internet/Web技术紧密结合。,15,数据库与数据仓库的关系,数据仓库对关系数据库的联机分析能力提出了更高的要求,数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。传统数据库系统是单一的

10、数据库资源，适合操作型事务处理，分析处理能力弱。重点与要求是快速、准确、安全、可靠地将数据存进数据库中. 数据仓库以统计分析技术为手段，重点与要求是能准确、安全、可靠地从数据库中取出数据，经过加工转换成有规律信息之后，再供管理人员进行分析使用。,16,数据仓库的三个工具层,联机分析处理(OLAP):能提供数据的多维概念视图，使最终用户能多角度、多侧面、多层次地考察数据库中的数据，并以多维形式展示给用户。决策支持系统(DSS):涵盖了联机分析处理和数据挖掘两个领域，能够为分析决策提供服务。数据挖掘(data mining):数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分。目前，数据挖

11、掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术，技术含量比较高，实现难度较大。,17,6.2 .2数据挖掘,1.数据挖掘的概念数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。它能开采出潜在的模式，找出最有价值的信息，指导商业行为或辅助科学研究。即从”数据矿山”中找到蕴藏的”知识金块”.帮助企业减少不必要的投资的同时能提高资金回报.,18,数据仓库和数据挖掘的关系,数据仓库为数据挖掘所做的，应该从数据整

12、合和清洗的角度来理解。即，数据仓库将不同操作源的数据存放到一个集中的环境中，并且进行适当的清洗和转换。数据挖掘所需要的数据，能够直接从数据仓库获得，但是获得后还是需要进行转换，若没有数据仓库，就要直接从操作型数据源中获取，且要进行ECTL(抽取、清洗、转换、装载)的操作。数据仓库不仅是集成数据的一种方式,它的OLAP功能也为数据挖掘提供极佳的操作平台。在数据挖掘过程中，若能将数据挖掘与数据仓库有效的联结，将增加数据挖掘的联机挖掘功能。,19,数据挖掘的主要方法,决策树(Decision Tree):也叫分类树,是建立在信息论基础之上，对数据进行分类的一种方法。决策树方法精确度较高，结果易理

13、解，效率较高，较常用。神经网络(Neural Network) :它模拟人脑的功能.神经网络建立在自学习的数学模型基础之上。它可对大量复杂的数据进行分析，并可完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。相关规则 :相关规则是一种简单却很实用的关联分析规则，它描述了一个事物中某些属性同时出现的规律和模式。 K-nearest邻居:邻居就是彼此距离很近的数据。遗传算法 :遗传算法是一种基于生物进化论和分子遗传学的搜索优化算法。,20,关于决策树,决策树对比神经元网络的优点在于可以生成一些规则。当我们进行一些决策，同时需要相应的理由的时候，使用神经元网络就不行了。决策树一般都是

14、自上而下的生成的。从根到叶子节点都有一条路径，这条路径就是一条“规则”。决策树可以是二叉的，也可以是多叉的。,21,数据挖掘的主要步骤,数据取样:从企业大量数据中取出一个与要搜索的问题相关的样板数据子集。数据探索:是通常所进行的对数据深入调查的过程.。数据整理:在前二步的基础上,对数据进一步量化 .。数据挖掘 :建立模型，用各种数据挖掘方法对数据进行分析。此步是数据挖掘的核心环节，运用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。评估 :方法1是直接使用原先建立模型样本和样本数据来进行检验。方法2是另找一批数据并对其进行检验，已知这些数据能反映客观实践的规律性。方法

15、3在实际运行的环境中取出新鲜数据进行检验。,22,数据挖掘的主要步骤,大的数据集合,建模1,建模2,建模3,评价,抽样,最优输出,23,银行建立数据仓库的必要性,中国银行业的电子化和信息化不是终极目的。信息化本质是保证银行具备核心竞争力的一系列重要工具，而在信息化工具组合中，更为锐利、高效和复杂的数据挖掘工具，还没有被中国银行业所广泛掌握。导致“数据爆炸但知识贫乏”。银行产品具有相当的同质性，银行之间的差别，往往在于谁掌握了客户关系，以及海量的业务和客户信息背后的独特业务规律，谁就可以科学地制定决策。现在银行实施的大多数系统所基于的数据库只能实现数据的录入、查询、统计等较低层次的功能，但却

16、无法发现数据中存在的关联关系和业务规律，更难以根据现有的数据预测未来业务的发展趋势。目前看来，在银行管理客户生命周期的各个阶段都会用到数据挖掘技术。,24,数据挖掘技术在银行应用中的案例,美国Firstar银行使用Marksman数据挖掘工具，根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现：公共数据库中存储着关于每位消费者的大量信息，关键是要透彻分析消费者投入到新产品中的原因，在数据库中找到一种模式，从而能够为每种新产品找到最合适的消费者。 Mellon银行使用Intelligent Agent数据挖掘软件提高销售和定价金融产品的精确度，如家庭普通贷款。,25,6.3 银行数据存储技术,6.3.1硬件冗余技术磁盘冗余实际上就是指RAID（磁盘陈列）技术。 RAID是在CPU性能逐年增强，而输入输出设备速度受限，存储容量又与日俱增的背景下产生的。RAID是由美国加州大学伯克利分校的D.A.Patterson教授在1988年提出的。RAID（Redundant Array Ine

展开阅读全文

owerpoint演示文稿-数据库技术

最新文档