《数据挖掘》复习

上传人:大米 文档编号:511359261 上传时间:2023-12-11 格式:DOCX 页数:30 大小:406.61KB
返回 下载 相关 举报
《数据挖掘》复习_第1页
第1页 / 共30页
《数据挖掘》复习_第2页
第2页 / 共30页
《数据挖掘》复习_第3页
第3页 / 共30页
《数据挖掘》复习_第4页
第4页 / 共30页
《数据挖掘》复习_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《《数据挖掘》复习》由会员分享,可在线阅读,更多相关《《数据挖掘》复习(30页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘复习一、题型1、判断题 15分2、单选题 15分3、简单题 15分4、综合题 20分5、计算题35分(C5.0算法、感知机算法、Apriori算法,见练习题)二、考试大纲三、实验/作业评讲在教学过程的各个环节,从学生的出勤、日常表现、作业、测试、项目完成情况及完成质量、TOPCARES能力目标的实现情况等方面,对学生进行全方位的考核。类别考核项目考核主要内容考核方式考核时间所占权重形成性考核出勤出勤、请假、迟到、旷课等过程考核上课期间5%日常表现是否认真听课,回答问题等过程考核上课期间5%作业课堂作业的完成情况过程考核上课期间10%实习项目实践任务的完成情况机考上课期间10%终结性考核

2、完成情况及完成质量教学内容闭卷第17周70%说明:四、知识点梳理,重点教学内容串讲名词解释数据挖掘(P6)、算法(P10)、MODELER中的节点(P13)、MODELER中的数据流(P14)、MODELER中的超节点(P18)、决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)、知识发现KDD( P6)主要概念DW产生的基础(P3)DW的基本过程包括(P6)DW能做什么(P7)DW得到的知识形式(P8)DW的算法分类(P10)MODELER的主窗口由哪几部分组成(P13)MODELER中数据流中的节点主要可实现哪些功能(P15)MODELER中数据流的操作主要包括哪几

3、步(P15)MODELER中节点工具箱含由八大选项卡组织(P15)MODELER中通常数据挖掘的基本思路包括哪些过程(P19)MODELER中从数据挖掘角度看变量有哪7大类型(P26),通过TYPE节点可以说明变量什么内容(P42)什么是“有指导学习”(P12、P104) ?举例说明;决策树算法的核心问题有哪些(P106)?什么是信息熵(P57、P109) ?(信息熵是连续型变量分箱MDLP算法和决策树C5.0算法的核心)人工神经网络中主要有哪些网络种类(P156)神经网络中处理单元的内部结构图(P158)什么是感知机模型(P162)什么是B-P反向传播网络模型,由什么特点(P164)Apri

4、ority关联分析算法主要包括哪两大部分技术(P213)(产生频繁集、依据频繁集产生关联规则)决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)等数据挖掘方法主要用来解决什么问题(分类、预测、关联等)3、算法决策树C5.0算法、人工神经网络B-P感知机算法、关联分析Apriori算法五、典型例题分析(一)判断题,在每题后面正确打勾,错误打叉有高质的原始数据,才可能有高质量的数据挖掘结果。(V )高质量数据是数据分析的前提和分析结论可靠性的保障。(V )MODELER中数据质量的探索主要包括数据缺失、数据离群点和极端值等几方面。(V )数据挖掘的结果都是正确的。( )MO

5、DELER中数据挖掘的数据通常以变量为列、样本为行的二维表形式组织。(V )变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正,同时指出各个变量在未来建模中的角色。(V )变量说明应通过Field Ops选项卡中的类型(Type)节点实现。(V)样本浓缩是通过Record Ops卡中的浓缩(Distinct)节点实现。(V)样本浓缩是通过Record Ops卡中的汇总(Aggregate)节点实现。(* )数据的重新组织是通过Field Ops选项卡中的类型(Type)节点实现。(水)数据的重新组织是通过Field Ops选项卡中的重构(Restructure)节点实现。(V )数据

6、质量的探索是通过Output卡中的表(Table)节点实现。(水)数据质量的探索是通过Output卡中的审核(Data Audit)节点实现。(V )网状图是一种更为生动和直观地展示两个或多个分类变量相关特征的图形。(丿)决策树中,分类树实现对分类型输出变量的分类,回归树则完成对数值型输出变量取值的预 测。(V )决策树中,称树的每个节点都只能生长出两个分枝的树为多叉树。()决策树算法中,C5.0用于生成多分支的决策树。(V )人工神经网络中,神经网络的最低层称为输入层,最顶层称为输出层,中间层称为中间层。()在关联分析中,与时间有关的关联分析称为简单关联分析。()关联规则中的规则的支持度测度

7、了关联规则的普遍性,表示项目X和项目Y同时出现的概率。(V)(二)多选题选择题,请在每题正确备选答案前面打勾(单选及多选)。 (每题满分3分,全选对得3分,部分 选对得 2分,有选错者该题不得分)1. Modeler中(类型Type)节点的主要作用有:1)定义变量的取值范围和缺失值;2)变量取值的有效性检查和修正;3)角色说明;4)变量取值的实例化。答案:1-42. Modeler中(数据审核Data Audit)节点的主要作用有:1)对变量取值分布进行基本描述;2)检验数据质量好坏;3)修正坏数据;4)保留高质量的变量和数据。答案: 1-43. Modeler中(变换Transform)节点

8、的主要作用有:1)描述变量取值分布进行描述;2)实现变量的变换处理;3)输出变换后的变量;4)对变量进行分类汇总。答案:1-34. Modeler中份区Partition)节点的主要作用有:1)生成训练集、检验集;2)生成训练集、检验集、验证集;3)对数据进行转置;4)对样本进行排序。答案:1-25. 神经网络按其拓扑结构可划分为两层、三层和多层结构。如图所示的神经网络各层的名称是:1)其中A层是输入层;2)其中 B 层是隐层;3)其中 C 层是输出层4)其中A层是接收层。答案:1-36. 完整的神经网络节点内部主要由两部分组织(如下图),其中:1)A是加法器;2)B 是激活函数3)A是激活函

9、数;4)B 是加法器。答案:1-27. 拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。在采用机器学习或者训练深度神 经网络的时候经常会出现理想情况、欠拟合和过拟合等三种情况。请写出如下图 A、B、C 三种拟合状 况是属于什么拟合。1) A 欠拟合;2) B 理想拟合3) C 过拟合;4) A过拟合。答案:1-38. 如下图神经网络中,“流失”为目标变量,则其输入层、隐层、输出层各有多少个节点?牲朱倂用幵通门1年苗 代地无找強用免強翎分崟番宾加放育水平 宣应人敎1) 输入层 11个节点;2)隐层有 6个节点;3)输出层有 1个节点;4)输入层有 1个节点;答案:1-39. 建立决策树的核

10、心问题是:1)决策树得生长;2)决策树的修剪;3)决策树得几何理解;4)信息熵和信息增益。答案:1-210B-P反向传播神经网络的特点是:1)包含隐层;2)激活函数采用Sigmoid函数;3)反向传播;4)不包含隐层。答案:1-3三)解答题1. MODELER的“数据审核Data Audit”节点操作中,如下操作界面中含义是:答:指定离群值和极值得监测方法。具体可按平均值的标准差大小或四分位数的四位数范围来 确定离群值和极值,从而监测出离群值和极值。2 在MODELER的“数据变换Transform ”节点操作中,如下操作界面中的含义是:答:指定采用哪种变量转换公式,从第 2 列图开始,各图依

11、次为原始变量的直方图、计算倒数 后的直方图、求自然对数的直方图、求常用对数的直方图、计算 e 的原始变量幂次后的直方图、原始 变量求平方根后的直方图。3.在MODELER的“网状图”节点中,如下套餐类型的输出结果含义是:曲隔尸iU!卫口 I M亡Q答:显示各种套餐类型与客户流失的之间的关联情况。如客户流失最少的有service,其次是 Basic service 等等。套餐类型为 Plus4.写出如下数据流各节点的主要功能。AppendH答:Students.xls读取EXCEL数据文件,Append实现样本追加,Type实现变量实例化,Filler进行变量值的填充,Reclassify实现变

12、量重新分类,Partition实现样本分区。5.写出如下数据流各节点的主要功能。CuslomerNerceCu5lomer2 裔 5QL.ClickPalhDistinct RestrudureType !_prion J答:Customer Customer、ClickPath节点读取数据库文件,Merge实现样本合并,Distinct数据 浓缩,Restructure变量重构,Type变量实例化,Apriori进行关联分析。四)综合题1通过C5.0算法建立了如下决策树,请对照决策树写出对应的推理规则。INod Entom剋一Sij-100.000 691z星薛与 No 63768YBS 2

13、32 26Enccured No 41.02G 1G Y的 53.9712343.D52 No 16.667 4 恤鵡爲珀0SH 34.7B3 24翹 $0 Mo 93.333 血 Y的&劇2射 43478 30绩空_?48.15?| No 60.00D12懊 M.DDD J总计 2173915袴;相应的拱理:规则为;心家长是否鼓励=Not Encouraged SrK: No O No 曰家长是= Encouraged 欖式:Ves在校综台押价指数48 052 tg式壮 C Yes2通过C5.0算法建立了如下决策树,请对照决策树写出对应的推理规则。13黑A 44.444 4 B 陌倾5 总计

14、 1 00.00D 9 t=总计 66.6B7 6立方体浄节点1%nA0.000 0 B100.000 3总计33 333 3节点2节点3蛹I%n A100.000 4 B0.000 0总计节点4% n A0.000 0 B100.000 2总计22 222 2答:IF属性3二立方体THEN类别二BIF属性3二圆AND属性2二红或黄THEN类别二AIF属性3二圆AND属性2二黑THEN类别二B3在关联分析中,通过Apriori算法,Modeler如下输出结果,请写出对应的三条关联规则,并注明 每条关联规则的支持度S、置信度C分别为多少。后顷前项支特度百分比蛊信度百分比冷徐竄品啤酒16 787 425罐头蔬菜冷冻栈品17.035 982啤酉冷冻京品擢头菇萦17384393答案:三条规则

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号