大数据挖掘考精彩试题库.doc

资源描述

《大数据挖掘考精彩试题库.doc》由会员分享，可在线阅读，更多相关《大数据挖掘考精彩试题库.doc（27页珍藏版）》请在金锄头文库上搜索。

1、大数据发掘考出色试题库标准文档一、填空题1.Web发掘可分为、和3大类。/2.数据库房需要一致数据源，包含一致、一致、一致和一致数据特色4 个方面。3.数据切割平常准时间、以及组合方法进行。4.噪声数据办理的方法主要有、和。5.数值归约的常用方法有、和对数模型等。6.议论关系规则的2个主要指标是和。7.多维数据集平常采纳或雪花型架构，以表为中心，连接多个表。8.决策树是用作为结点，用作为分支的树构造。9.关系可分为简单关系、和。10.BP神经网络的作用函数平常为区间的。11.数据发掘的过程主要包含确立业务对象、及知识同化等几个步骤。12.数据发掘技术主要涉及、和3个技术领域。13.数据发掘的主

2、要功能包含、趋向解析、孤立点解析和偏差解析7个方面。14.人工神经网络拥有和等特色，其构造模型包含、和自组织网络3 种。15.数据库房数据的4个基本特色是、非易失、随时间变化。16.数据库房的数据平常划分为、和等几个级别。17.数据预办理的主要内容(方法)包含、和数据归约等。18.光滑分箱数据的方法主要有、和。19.数据发掘发现知识的种类主要有广义知识、和偏差型知识五种。20.OLAP的数据组织方式主要有和两种。21.常有的OLAP多维数据解析包含、和旋转等操作。22.传统的决策支持系统是以和驱动，而新决策支持系统则是以、建立在和技术之上。23.OLAP的数据组织方式主要有和2种。24.SQL

3、Server2000的OLAP组件叫，OLAP操作窗口叫。25.BP神经网络由、以及一或多个结点构成。26.遗传算法包含、3个基本算子。27.聚类解析的数据平常可分为区间标度变量、序数型以及混杂种类等。28.聚类解析中最常用的距离计算公式有、等。29.基于划分的聚类算法有和。30.Clementine的工作流平常由、和等节点连接而成。标准文档31.简单地说，数据发掘就是从中发掘的过程。32.数据发掘相关的名称还有、等。二、判断题()1.数据库房的数据量越大，其应用价值也越大。()2.啤酒与尿布的故事是聚类解析的典型实例。()3.等深分箱法使每个箱子的记录个数同样。()4.数据库房“粒度”越细，

4、记录数越少。()5.数据立方体由3维构成，Z轴表示事实数据。()6.决策树方法平常用于关系规则发掘。()7.ID3算法是决策树方法的初期代表。()8.C4.5是一种典型的关系规则发掘算法。()9.回归解析平常用于发掘关系规则。()10.人工神经网络特别合适解决多参数大复杂度问题。()11.看法关系解析是文本发掘所特有的。()12.可信度是对关系规则的正确度的衡量。()13.孤立点在数据发掘时总是被视为异常、无用数据而扔掉。()14.SQLServer2000不供给关系规则发掘算法。()15.Clementine是IBM企业的专业级数据发掘软件。()16.决策树方法特别合适于办理数值型数据。()

5、17.数据库房的数据为历史数据，向来不需要更新。()18.等宽分箱法使每个箱子的取值区间同样。()19.数据立方体是广义知识发现的方法和技术之一。()20.数据立方体的此中一维用于记录事实数据。()21.决策树平常用于分类与展望。()22.Apriori算法是一种典型的关系规则发掘算法。()23.支持度是衡量关系规则重要性的一个指标。()24.SQLServer2000集成了OLAP，但不拥有数据发掘功能。()25.人工神经网络常用于分类与展望。三、名词解说1. 数据库房：是一种新的数据办理系统构造，是面向主题的、集成的、不行更新的(稳固性)、随时间不停变化(不一样时间)的数据会集，为企业决策

6、支持系统供给所需的集成信息。2. 孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。3. OLAP：OLAP是在OLTP的基础上发展起来的，以数据库房为基础的数据解析办理，是共享多维信息的快速解析，是被特地设计用于支持复杂的解析操作，侧标准文档重对解析人员和高层管理人员的决策支持。4. 粒度：指数据库房的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据库房中的数据量的大小，同时影响数据库房所能回答盘问问题的细节程度。5. 数据规范化：指将数据按比率缩放(如更换大单位)，使之落入一个特定的地区（如01）以提升数据发掘效率的方法。规范化的常用方法有：最大最小规范化、零均

7、值规范化、小数定标规范化。6. 关系知识：是反响一个事件和其余事件之间依赖或互相关系的知识。假如两项或多项属性之间存在关系，那么此中一项的属性值就可以依照其余属性值进行展望。7. 数据发掘：从大批的、不完好的、有噪声的、模糊的、随机的数据中，提取隐含在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程。8. OLTP：OLTP为联机事务办理的缩写，OLAP是联机解析办理的缩写。前者是以数据库为基础的，面对的是操作人员和低层管理人员，对基本数据进行盘问和增、删、改等办理。9. ROLAP：是基于关系数据库储存方式的，在这类构造中，多维数据被映像成二维关系表，平常采纳星型或雪花型架构，由一

8、个事实表和多个维度表构成。10. MOLAP：是基于近似于“超立方”块的OLAP储存构造，由好多经压缩的、近似于多维数组的对象构成，并带有高度压缩的索引及指针构造，经过直接偏移计算进行存取。11. 数据归约：减小数据的取值范围，使其更合适于数据发掘算法的需要，而且可以获取和原始数据同样的解析结果。12. 广义知识：经过对大批数据的归纳、归纳和抽象，提炼出带有广泛性的、归纳性的描述统计的知识。13. 展望型知识：是依据时间序列型数据，由历史的和当前的数据去推测将来的数据，也可以以为是以时间为要点属性的关系知识。14. 偏差型知识：是对差异和极端特例的描述，用于揭穿事物偏离老例的异常现象，如标准类

9、外的特例，数据聚类外的离群值等。15. 遗传算法：是一种优化找寻算法，它第一产生一个初始可行解集体，而后对这个集体经过模拟生物进化的选择、交织、变异等遗传操作遗传到下一代集体，并最后达到全局最优。16. 聚类：是将物理或抽象对象的会集分构成为多个类或簇(cluster)的过程，使得在同一个簇中的对象之间拥有较高的相似度，而不一样簇中的对象差异较大。17. 决策树：是用样本的属性作为结点，用属性的取值作为分支的树构造。它是分类规则发掘的典型方法，可用于对新样本进行分类。18. 相异度矩阵：是聚类解析顶用于表示各对象之间相异度的一种矩阵，n个对象的相异度矩阵是一个nn维的单模矩阵，其对角线元素均为

10、0，对角线双侧元素标准文档的值同样。19. 屡次项集：指满足最小支持度的项集，是发掘关系规则的基本条件之一。20. 支持度：规则AB的支持度指的是全部事件中A与B同地发生的的概率，即P(AB)，是AB同时发生的次数与事件总次数之比。支持度是对关系规则重要性的衡量。21. 可信度：规则AB的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A)，是AB同时发生的次数与A发生的全部次数之比。可信度是对关系规则的正确度的衡量。22. 关系规则：同时满足最小支持度阈值和最小可信度阈值的规则称之为关系规则。四、综合题1. 何谓数据发掘？它有哪些方面的功能？从大批的、不完好的、有噪声的、模糊的、随

11、机的数据中，提取隐含在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程称为数据发掘。相关的名称有知识发现、数据解析、数据交融、决策支持等。数据发掘的功能包含：看法描述、关系解析、分类与展望、聚类解析、趋向解析、孤立点解析以及偏差解析等。2. 何谓数据库房？为何要建立数据库房？数据库房是一种新的数据办理系统构造，是面向主题的、集成的、不行更新的(稳固性)、随时间不停变化(不一样时间)的数据会集，为企业决策支持系统供给所需的集成信息。建立数据库房的目的有3个：一是为认识决企业决策解析中的系统响应问题，数据库房能供给比传统事务数据库更快的大规模决策解析的响应速度。二是解决决策解析对数据的特

12、别需求问题。决策解析需要全面的、正确的集成数据，这是传统事务数据库不可以直接供给的。三是解决决策解析对数据的特别操作要求。决策解析是面向专业用户而非一般业务员，需要使用专业的解析工具，对解析结果还要以商业智能的方式进行表现，这是事务数据库不可以供给的。3. 列举操作型数据与解析型数据的主要差异。操作型数据当前的、细节的解析型数据历史的、综合的面向应用、事务驱动面向解析、解析驱动屡次增、删、改几乎不更新，按期追加操作需求早先知道解析需求早先不知道生命周期吻合SDLC完好不一样的生命周期对性能要求高对性能要求宽松标准文档一次操作数据量小一次操作数据量大支持平常势务操作支持管理决策需求4. 何谓OL

13、TP和OLAP？它们的主要异同有哪些？OLTP即联机事务办理，是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行盘问和增、删、改等的平常势务办理。OLAP即联机解析办理，是在OLTP基础上发展起来的、以数据库房基础上的、面向高层管理人员和专业解析人员、为企业决策支持服务。OLTP和OLAP的主要差异以下表：OLTPOLAP数据库数据数据库或数据库房数据细节性数据综合性数据当前数据历史数据常常更新不更新，但周期性刷新一次性办理的数据量小一次办理的数据量大对响应时间要求高响应时间合理用户数目大用户数据相对较少面向操作人员，支持平常操作面向决策人员，支持管理需要面向应用，事务驱动面向解析，解析驱动5. 何谓粒度？它

展开阅读全文