大数据挖掘期末考试计算题及问题详解

上传人:M****1 文档编号:508027751 上传时间:2023-04-29 格式:DOC 页数:10 大小:277.50KB
返回 下载 相关 举报
大数据挖掘期末考试计算题及问题详解_第1页
第1页 / 共10页
大数据挖掘期末考试计算题及问题详解_第2页
第2页 / 共10页
大数据挖掘期末考试计算题及问题详解_第3页
第3页 / 共10页
大数据挖掘期末考试计算题及问题详解_第4页
第4页 / 共10页
大数据挖掘期末考试计算题及问题详解_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《大数据挖掘期末考试计算题及问题详解》由会员分享,可在线阅读,更多相关《大数据挖掘期末考试计算题及问题详解(10页珍藏版)》请在金锄头文库上搜索。

1、标准文档题一:TID项目集12a.b,d,e,g3a,dg4b,d,f J5e,tg671. 给定上表所示的一个事物数据库,写出Apriori算法生 成频繁项目集的过程(假定最小支持度二5).一阶项目集支持度a5b4c2d5e3f4 :g6一阶频繁集支持度a5b4 1d5f4g6二阶候选集支持度ab3ad4af2ag5bd3bf1bg3 :df3dg4fg3二阶频繁集支持度ad4ag5dg4三阶候选集支持度adg4三阶频繁集支持度adg4题二2. 使用K-邻近法对两个未知类型的样本进行分类(冰川水 或者湖泊水儿本例我们使用K二3,即选择最近的:3个邻 居。2 2 2Dista nce(H,D)

2、 =0.03; Dista nce(H,E)=0.21; Dista nce(H,F) =0.16H的三个最近的邻居为A,D,F,因此H的分类为冰川水题二3浓度計浓度浓度M-浓度低高高冰州水高低高冰川水低高低低冰川水高高低低冰川水低低低低湖泊水低低低湖泊水低高斋低瀛泊水鬲低高低瀛泊水低高低高低高73. 使用ID3决策树算法对两个未知类型的样本进行分类.首先计算各属性的信息增益Ga in (Ca+浓度)=0Gai n( Mg+浓度)=0.185Ga in (Na+浓度)=0Gain(Cl-浓度)=0.32选择Cl-浓度作为根节点计算各属性的信息增益Ga in (Ca+浓度)=0Gai n( Mg

3、+浓度)=0.45Ga in (Na+浓度)=0.24 选择Mg+浓度作为节点计算各属性的信息增益Ga in (Ca+浓度)=0.24Ga in (Na+浓度)=0.91题四3浓度e+浓度Na+浓度口-浓度类型低髙高冰川水高低高高冰川水低高低低冰川水高高低低冰川水低低低低商低低湖泊水低高高低湖泊水高低低湖泊水低高高低?高低4. 使用朴素贝叶斯算法两个未知类型的样本进行分类。P(Ca+浓度=低,Mg+浓度=高,Na+浓度二高,Cl-浓度=低|类型二冰川水)*P(冰川 水)=P(Ca+浓度=低|类型二冰川水)* P(Mg+浓度二高|类型=冰川水)* P(Na+浓度= 高|类型=冰川水)* P(Cl

4、-浓度二低|类型=冰川水)*P(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468P(Ca+浓度=低,Mg+浓度=高,Na+浓度二高,Cl-浓度=低|类型二湖泊水)*P(湖泊 水)=P(Ca+浓度=低|类型二湖泊水)* P(Mg+浓度二高|类型二湖泊水)* P(Na+浓度= 高|类型=湖泊水)* P(Cl-浓度二低|类型二湖泊水)*P(湖泊水)=0.5*0.25*0.5*1*0.5=0.03123第一个样本为冰川水P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低, Cl-浓度=高|类型二冰川水)*P(冰川 水)=P(Ca+浓度=高|类型二冰川水)* P(Mg+浓度二高|类型=冰

5、川水)* P(Na+浓度= 低|类型=冰川水)* P(Cl-浓度二高|类型=冰川水)*P(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低, Cl-浓度=高|类型二湖泊水)*P(湖泊 水)=P(Ca+浓度=高|类型二湖泊水)* P(Mg+浓度=高|类型二湖泊水)* P(Na+浓度= 低|类型=湖泊水)* P(Cl-浓度=高|类型二湖泊水)*P(湖泊水)=0.5*0.25*0.5*0*0.5=0第二个样本为冰川水题五样本ID属性值1属性值2A44B45C33D90E930.5F80.5G1265使用凝聚法对上表中的样本进行聚类,建

6、立相应的层 次树*A,B,C,D,E,F,G之间的距离矩阵如下表ABCDEFGAB1CV5D415045E42.5J505v48.5a/0?5F28.25J36.25731.251.251.5G90J4536?546.25根据距离矩阵建立的树如下题六样本ID属性值属性值2A44B45C33D90E930.5F80.5G126反使用凝聚法对上表中的样木进行聚类,建立相应的层 次树C第一次迭代以A, B作为平均点,对剩余的点根据到A、B的距离进行分配A,C,D,E,F,G,H, B计算两个簇的平均点(6.5, 1.7), (4, 5)第二次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇D,

7、E,F,H和A,B,C,G计算两个簇的平均点(9.1, 0.5), (3.25, 3.75)第三次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇D,E,F,H和A,B,C,G由于所分配的簇没有发生变化,算法终止。2 2 2Dista nce(G,A) =0.1; Dista nce(G,B) =0.03; Dista nce(G,C) =0.112 2 2Dista nce(G,D)=0.12;Dista nce(G,E)=0.16;Dista nce(G,F)=0.05G的三个最近的邻居为B,F,A,因此G的分类为湖泊水Distance(H,A)* 2=0.03;Distance(H,B)2=0.18;Distance(H,C)2=0.22

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号