数据仓库面试题Word版

上传人:W**** 文档编号:164934911 上传时间:2021-01-31 格式:DOC 页数:8 大小:40.50KB
返回 下载 相关 举报
数据仓库面试题Word版_第1页
第1页 / 共8页
数据仓库面试题Word版_第2页
第2页 / 共8页
数据仓库面试题Word版_第3页
第3页 / 共8页
数据仓库面试题Word版_第4页
第4页 / 共8页
数据仓库面试题Word版_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《数据仓库面试题Word版》由会员分享,可在线阅读,更多相关《数据仓库面试题Word版(8页珍藏版)》请在金锄头文库上搜索。

1、数据仓库及BI工程师面试题集锦前言1、 介绍一下项目经验、项目中的角色。一、 数据库1、 Oracle数据库,视图与表的区别?普通视图与物化视图的区别?物化视图的作用?i. 视图与表的区别1. 1、视图是已经编译好的sql语句。而表不是 2. 视图没有实际的物理记录。而表有。3. 表是内容,视图是窗口4. 表只用物理空间而视图不占用物理空间,视图只是逻辑概念的存在,表可以及时四对它进行修改,但视图只能有创建的语句来修改ii. 物化视图与视图区别1. 物化视图和视图差别非常大,不是几句能说清 物化视图是自动刷新或者手动刷新的,视图不用刷新 物化视图也可以直接update,但是不影响base ta

2、ble,对视图的update反映到base table上 物化视图主要用于远程数据访问,物化视图中的数据需要占用磁盘空间,视图中不保存数据。2、 Oracle数据库,有哪几类索引,分别有什么特点?a) 1.单列索引与复合索引一个索引可以由一个或多个列组成,用来创建索引的列被称为“索引列”。单列索引是基于单列所创建的索引,复合索引是基于两列或者多列所创建的索引。2.唯一索引与非唯一索引唯一索引是索引列值不能重复的索引,非唯一索引是索引列可以重复的索引。无论是唯一索引还是非唯一索引,索引列都允许取NULL值。默认情况下,Oracle创建的索引是不唯一索引。3.B树索引B树索引是按B树算法组织并存放

3、索引数据的,所以B树索引主要依赖其组织并存放索引数据的算法来实现快速检索功能。4.位图索引位图索引在多列查询时,可以对两个列上的位图进行AND和OR操作,达到更好的查询效果。5.函数索引Oracle中不仅能够直接对表中的列创建索引,还可以对包含列的函数或表达式创建索引,这种索引称为“位图索引”。3、 Union与Union All的区别?a) Union会对查询结果进行排序去重,效率比union all 低,union all只是两个查询集的合并操作。建议使用Union all,查询出来后再对数据进行去重操作。4、 对游标的理解?游标的分类?使用方法? 游标是映射在结果集中一行数据的位置实体,

4、有了游标,用户就可以访问结果集中的任何一条数据。游标分为静态游标和REF游标,静态游标分为显示游标和隐式游标,显示游标使用步骤是声明游标,打开游标,获取记录,关闭游标。所有的DML语句为隐式游标,可以从游标的属性获得sql语句的信息。REF游标是动态关联结果集的临时对象,使用步骤也是先要进行声明游标,然后打开游标,获取记录,关闭游标。5、 如何查找和删除表中的重复数据?给出方法或SQL。查询表中重复数据。Select * from people where id in (Select id from people group by id having count(id)1);Delete fr

5、om people where id in(select id from people group by id having count(id)1) and rowid not in (select min(rowid) from people group by id hacing count(id)1);创建索引有哪些需要注意的要点?a) 一般来说,不需要为比较小的表创建索引(数据占用存储空间小)b) 即使是大表,如果经常需要查询的数据不超过10%到15%的话,那就没有必要为其建立索引的必要。c) 如对于一些重复内容比较少的列,特别是对于那些定义了唯一约束的列。在这些列上建立索引,往往可以起

6、到非常不错的效果。d) 数据库管理员,需要隔一段时间,如一年,对数据库的索引进行优化。该去掉的去掉,该调整的调整,以提高数据库的性能。e) 通常来说,表的索引越多,其查询的速度也就越快。但是,表的更新速度则会降低。这主要是因为表的更新(如往表中插入一条记录)速度,反而随着索引的增加而增加。f) 对于一些数据仓库或者决策型数据库系统,其主要用来进行查询。g) 位图索引。基数是位图索引中的一个基本的定义,它是指数据库表中某个字段内容中不重复的数值。6、 Oracle数据库中,有哪几种分区?各自特点是什么?作用是什么?分区索引的分类和作用?范围分区,散列分区,复合分区,索引分区7、 表T(a,b,c

7、,d),要根据字段c排序后取第2130条记录显示,请给出sql。select * from (select c.*,rownum as rn from (select * from t order by c) c) where rn berween 21 and 30;8、 怎样优化数据库?i. 首先应确定那里出现性能问题,一般一个调度时常都会有时间log记录,若发现某个调度时间过长,那么我们可以使用oracle自带profiler进行诊断出该模块出现性能问题的sql。ii. 找出问题sql后对表大小进行分析,知道哪些是大表和小表。iii. 查看该sql执行计划(用 autotrace)即可大

8、概找出问题原因。iv. 查询方面:查看是否未走索引,或sql写法中有运算或 等影响走索引条件,或并未对关键关联字段创建索引,必要情况重建索引。v. 删除更新情况,尽量使用rowid。9、 华为开发流程是什么(CMMI)a) 华为接口人或业务提出需求文档。b) 我们根据需求文档写入概要设计。c) 根据概要设计进行开发。d) 开发完成后进行ut测试。e) 编写详细设计。f) 上线后编写产品文档。二、 ETL工具1、 Informatica中,Update组件叫什么?更新机制?2、 Informatica中,LookUp组件有哪几类?区别是什么?3、 Informatica中,如何调用存储过程?4、

9、 Informatica中,工作流控制有哪些组件?5、 Informatica优化方案?6、 DataStage的JOB有哪些类型?特点分别是什么?7、 DataStage中,如何设置parallel job并行运行?8、 DataStage中,Join Stage 与 Lookup Stage组件在使用上有何区别?9、 DataStage的优化方案?10、 什么是维度?人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。11、 事实表、维度表是什么?12、 事实表:就是所有需要统计值的表;维度表

10、:根据时间或地区需要分析的数据表。13、 DW维表分类a) 1.一致性维度b) 2.杂项维度c) 3.角色类14、 缓慢变化维a) 随着时间的推移维度中的属性,慢慢会改变。例如一个产品销售地区之前为国内省,现在上国际,为各个国家。15、 ETL分别是“Extract”、“ Transform” 、“Load”。16、 datastage优点a) 优点在于,把复杂的工作,分解成,易查错的job。三、 模型设计1、 有哪几种模型设计方法?特点分别是什么?2、 模型设计的步骤?确定该业务过程每个事实表的粒度确定维度的属性确定维度的层次确定每个事实所需要关联的维度确定数字型事实,包括预先计算的确定缓慢

11、变化维3、 维度模型的设计方法?4、 模型设计的思路?业务需求驱动?数据驱动?3、模型设计经验说明。在概念模型设计、逻辑模型设计以及物理模型设计几个阶段主要的工作是什么?四、 Cognos开发1、 Cube刷新方案?2、 报表数据权限控制方案?3、 Cube增量刷新方案?五、 Shell开发1、 在Unix/Linux中,查看磁盘空间可以用哪些命令?2、 在Unix/Linux中,压缩和解压缩文件可以用哪些命令?3、 sed命令的作用?4、 在Unix/Linux中,添加用户用什么命令?5、 在Unix/Linux中,查看文件行数什么命令?六、 数据仓库设计1、 增量数据获取方案?2、 请解释以下概念:数据集市、事实表、维度表、OLAP3、 元数据管理在数据仓库中的运用有何心得?4、 数据仓库系统的数据质量如何保证?方案?5、 数据仓库系统组件接口设计方案?七、 项目管理八、 其他1、 能否出差?2、 期望薪资待遇多少?3、 个人发展方向?4、5、6、 7、 (注:可编辑下载,若有不当之处,请指正,谢谢!)8、9、10、 11、 12、13、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号