《数据库系统工程师.doc》由会员分享,可在线阅读,更多相关《数据库系统工程师.doc(26页珍藏版)》请在金锄头文库上搜索。
1、第一章 计算机系统知识一、 计算机系统组成1. 运算器:对数据进行加工处理的部件;控制器:从主存取出指令,并指明下一指令的地址。指令取出后,经指令寄存器送往指令译码器。寄存器:计算机系统中的记忆设备,存放程序、原始数据、中间数据、最终结果。二、 工作原理1. 码制: 最高位其它位原码0为正,1为负正负相同,为其二进制数反码、正:与原码同;负:原码负的按位求反补码正:与原码同;负:反码+12. 指令:由操作码(操作的类型)和地址码(操作数和运算结果的存放地址)组成。三、 体系结构1. 高速缓存地址映像:直接映像、全相连映像、组相连映像。替换算法:随机替换算法、先进先出、近期最少使用、优化替换算法
2、。性能分析:等效访问时间 = 命中率 * cache访问时间 + (1 命中率)* 主存访问时间2. CISC:复杂指令集计算机3. RISC:精简指令集计算机4. 中断:5. 流水线:吞吐率 = 最长子过程的倒数:= 1/Max(t1,t2)建立时间:6. 总线结构1) 内总线:ISA、EISA:33MB/sPCI: 32位133MB/s, 64位266MB/s;与CPU时钟频率是独立的,非同步的。即插即用2) 外总线SCSIUSB:即插即用,2.0=480MB/sIEEE 1394:即插即用四、 安全性、可靠性与系统性能基础知识(一) 加密技术1. 对称加密:典型代表:DES适合对文件等大
3、信息量数据。2. 非对称加密典型代表:RSA适合小信息量数据。数字加密和数字签名的区别:1) 数字签名,使用发送方的密钥对;数字加密,使用接受方的密钥对;2) 数字签名使用非对称密钥算法;数字加密,对称和非对称都使用;(二) 认证技术Cache等效访问时间:Z = H*X + (1-H)*Y H为Cache的命中率,X为Cache的存取时间,Y为主存的存取时间流水线处理机的吞吐率:= 1 / (最长子过程时间) 如:n / (1+3+1+2+1)t + 3*(n-1)t计算机系统可靠性:串联: R = R1 * R2 * R3.并联:R = 1-(1-R1)(1-R2)(1-R3).进程同步与
4、互斥:同步:相互合作的进程,当一个进程到达某点后,除非另一个进程完成某操作,否则就不得不停下来等待这些操作结束。互斥:各进程共享某资源,但这些资源只能供一个进程使用。P操作:S=S-1 V操作:S=S+1不发生死锁的条件:M N * (X - 1); M个资源,N个进程,每个进程最多申请X个资源;M的最小数还需要+1,才能正确的;第二章 数据结构和算法一、 二叉树的遍历:前序遍历中序遍历后序遍历层序遍历霍夫曼树、构造最优二叉树的霍夫曼算法二叉树:满二叉树:深度为k的二叉树有2的k次方-1个节点。完全二叉树:每个节点都与满二叉树一一对应。最优二叉树(哈夫曼树):带权路径长度最短的树。第三章 操作
5、系统知识第四章 程序设计语言基础一、 基础知识1. 解释程序和编译程序的区别:2. 语法、语义、语用:二、 语言处理程序基础第五章 网络基础知识第六章 多媒体基础知识PC机处理的音频信号,主要是人耳能听到的,频率20 HZ20K HZ。声音的数据传输率(kb/s) = 采样频率(HZ)* 量化位数(b) * 声道数声音信号数据量 = 数据传输率 * 持续时间 / 8MPEG系列标准:Mpeg-1:普通电视视频信号压缩标准;Mpeg-2:高清电视信号压缩标准;Mpeg-4:多媒体应用标准;Mpeg-7:多媒体内容描述接口标准;Mpeg-21:多媒体框架结构标准;软件项目关键路径时间最长的是关键路
6、径;由该路径上节点,可依次倒推出其他节点的最晚完成时间、最晚开始时间。类图:依赖,关联,泛化,实现UML:聚合:表示整体和部分的关系比较弱;代表部分的事物,与代表整体的事物的对象的生存期无关;删除了整体的对象,不一定删除部分的对象。 实线,空心菱形组合:表示整体和部分的关系比较强;整体和部分的对象,生存周期一致;删除了组合的对象,同时也就删除了代表部分的对象; 实线,实心菱形依赖:include 包含关系,箭头指向被包含者 extend 扩展关系,箭头指向主用例第七章 数据库技术基础一、 数据库技术的发展1. 人工管理阶段1) 数据不保存在计算机中;2) 没有专用的软件对数据进行管理;数据与程
7、序不具有独立性;数据的逻辑结构和物理结构没有区别;3) 只有程序的概念,没有文件的概念;4) 数据面对程序,即一组数据对应一个程序;2. 文件管理阶段1) 数据以文件的形式可长期保存在外部存储器上;2) 数据的逻辑结构和物理结构有了简单区别;3) 文件组织多样化;但文件之间相互独立、缺乏联系;4) 数据不再属于某个特定的程序;但程序与数据结构之间的依赖关系并未根本改变;3. 数据库阶段DB能为各种用户共享,具有较小冗余度、数据间联系紧密、较高的数据_独立性_等特点。DB分成物理数据库和_描述_数据库两类,后者由DD系统管理二、 数据模型模型:是现实世界的抽象。数据模型的三要素:数据结构、数据操
8、作、数据的约束条件。数据结构:所研究的对象类型的集合;静态特性的描述;数据操作:对数据库中各种对象实例的允许的操作;动态特性的描述;数据的约束条件:完整性规则的集合,应用数据必须遵循的语义约束条件,以保证数据的正确性。三、 数据模型1. 数据抽象的四种模型:概念模型:表达了数据的整体逻辑结构,是系统用户对整个应用项目涉及的数据的全面描述;表达用户需求观点;独立于硬件和软件;是设计人员与用户之间的交流工具。ER模型来表达。逻辑模型:是设计人员对整个应用项目数据库的全面描述;从数据库实现的观点出发;独立于硬件,但依赖于软件(DBMS);层次模型(树形),通过指针实现,查询效率高,但数据结构复杂和编
9、程复杂;网状模型:有向图,通过指针实现,查询效率高,但数据结构复杂和编程复杂;关系模型:主要特征是用二维表格表达实体集。外部模型:是逻辑模型的一个逻辑子集;独立于硬件,但依赖于软件;表达用户使用数据库的观点内部模型:DB物理结构模型2. 三层模式和两级映像外模式:是用户和数据库系统的接口,是用户用到的那部分数据的描述;由若干外部记录类型组成。概念模式:是数据库中全部数据的整体逻辑结构的描述,由若干逻辑记录类型、记录间联系、数据完整性、安全性等要求。内模式:数据库物理存储方面的描述,定义了所有内部记录类型、索引、文件的组织方式,以及数据控制方面的细节。外模式/概念模式映像:存在于外模式和概念模式
10、之间,用于定义外模式和概念模式之间的对应。一般存在在外模式中描述。内模式/概念模式映像:存在于内模式和概念模式之间,用于定义内模式和概念模式之间的对应。一般存在在内模式中描述。数据独立性:物理数据独立性:如果对内模式修改,只要对概念模式/内模式映像做相应修改,使概念模式尽可能保持不变,对外模式影响更小。逻辑数据独立性:如果对概念模式修改,只要对外模式/概念模式映像做相应修改,使外模式尽可能保持不变。四、 ER模型基本元素:实体:现实世界中可以区别于其他对象的事物。属性:实体某方面的特性。联系:。属性分类:按属性类别:简单属性(如性别,年龄)、复合属性(如地址)按取值特点:单值属性(如年龄),多
11、值属性(如性别,学历);多值属性使用双线椭圆表示。存储属性(如基本工资,奖金),派生属性(如实发工资);派生属性使用虚线椭圆表示。弱实体与强实体:一个实体的存在必须已另一个实体的存在为前提,即具有很强的依赖关系,前者是弱实体,后者是强实体。弱实体用双线矩形框表示,与弱实体的联系,用双线菱形框表示;弱实体参与联系是使“完全参与”,所以双线矩形框与双线菱形框之间是双线边。弱实体与强实体的联系只能是1:1或1:N;子类实体与超类实体:从子类到超类的抽象过程叫普遍化;从超类到子类的具体化过程叫特殊化。子类和超类之间具有继承特点;这种继承是通过子类和超类有相同的实体标示符实现的。ER图题要点:1) 先确
12、定有哪些实体,再确定实体之间是否有联系,最后再确定联系的类型;五、 DBMS功能:1. 数据定义2. 数据库操作3. 数据库运行管理4. 数据的组织、存储和管理5. 数据库的建立和维护6. 其他功能特征:1. 数据结构化且统一管理2. 有较高的数据独立性3. 数据控制功能安全性保护完整性并发控制故障恢复六、 三级模式和二级映象七、 客户端、服务器数据库体系结构特定:客户端和服务器端之间职责明确,客户端负责数据的表示,服务器端负责数据库服务。数据库服务器分为:事务服务器和数据服务器。事务服务器,也叫查询服务器,它提供一个接口,使得客户可以发出执行一个动作的请求,服务器响应请求后将执行结果返回给客
13、户。数据服务器:八、 并行数据库系统分为共享内存式多处理器,无共享式并行体系结构。共享内存式多处理器:一台计算机上同时有多个活动的CPU,他们共享单个内存和一个公共磁盘接口。无共享式并行体系结构:一台计算机上同时有多个活动的CPU,但它们都有自己单独的内存和磁盘。各个CPU之间是高速网络。九、 分布式数据库系统有两中,一是物理上分布,逻辑上集中;一是物理和逻辑上都分布。十、 Web数据库十一、 事务(Transaction)管理:DBS运行的最小逻辑工作单位是事务。事务:是构成单一逻辑工作单元的操作集合,要么完整执行,要么完全不执行。事务的ACID性质:原子性Atomicity:一个事务对数据
14、库的操作,是一个不可分割的工作单元,要么完整执行,要么完全不执行。(事务管理子系统)一致性Consistency:一个事务独立执行的结果,应保持数据库的一致性,即数据不会因事务的执行而遭到破坏。(完整性子系统)隔离性Isolation:在多个事务并发执行时,系统应保证与这些事务先后单独执行时的结果一样。(并发控制子系统)持久性Durability:一个事务一旦完成全部操作后,它对数据库的所有更新应永久的反映在数据库中,不会丢失。(恢复管理子系统)检查点技术:检查点时刻才真正把内存缓冲区的DB修改,写入磁盘。-检查点t1-故障点-检查点t2-T1前完成的事务,不必恢复;故障点前已完成的事务,重做REDO。故障点前未完成的事务,撤销UNDO。事务的执行次序称为调度;如果多个事务依次执行,称为事务的串行调度;如果利用分时方法,同时处理多个事务,称为事务的并发调度;事务的隔离级别:由高到低SERIALIZABLE:可串行化:允许事务与其他事务并发执行,但并发调度是可串行化。程序开始时默认这个级别。REPEATABLE READ:可重复读:只允许事务读已提交的数据,并且在两次读同一数据时不允许其他事务修改此数据。READ COMMITTED:读提交数据:允许事务读已提