大学生数据挖掘的案例及分析

上传人:ni****g 文档编号:555149687 上传时间:2023-02-24 格式:DOCX 页数:4 大小:55.97KB
返回 下载 相关 举报
大学生数据挖掘的案例及分析_第1页
第1页 / 共4页
大学生数据挖掘的案例及分析_第2页
第2页 / 共4页
大学生数据挖掘的案例及分析_第3页
第3页 / 共4页
大学生数据挖掘的案例及分析_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《大学生数据挖掘的案例及分析》由会员分享,可在线阅读,更多相关《大学生数据挖掘的案例及分析(4页珍藏版)》请在金锄头文库上搜索。

1、大学生数据挖掘的案例及分析案例“上大学分析”体验什么是数据挖掘某社会机构,收集了大量的学生考大学的数据。该机构希望找出一些规 律,以推动更多的学生考大学。该机构委托你来做这个分析工作,给出具体的 可以推动更多学生考大学的建议。收集到的数据如下:姓名性别IQ家庭年收入兄弟姐妹数量有上大学计划否张三男11O100,000O无李四男10OSg.ooo1有刘五女旳10003马六男121183000i赵七女72有王八女135163,0000无牛九男1O336,0001有你会怎样分杠这些数据呢?你可能会考虑用SQL语句进行查询分析。但问题是:1. 用什么语句查呢?要组合什么条件呢?2. 你想查到怎样的结果

2、呢?这个结果对决策有帮助吗?那数据挖掘一下吧!但如何挖掘呢?不了解数据挖掘的人,往往会认为只需要让计算机去挖掘一下,计算机就能帮我们找出想要的东西。计算机哪会这样神奇,在数据挖掘之前,我们必须 要自己好好分析一下。1. 明确挖掘的目标。我们看看原始需求是这样的:该机构希望找出一些规律,以推动更多的学 生考大学。你可能会说:该目标也太大了一点吧!现在该机构委托你做这个事情,人家不是专业人士,你还指望人家什么都帮你做好吗?那要你干嘛!我们仔细分析一下,原始数据有姓名、性别、IQ、家庭年收入、兄弟姐妹数量、是否想上大学字段,要推动更多学生考大学,我们无非就是要分析出:1)有上大学计划的人主要原因是什

3、么呢?2)无上大学计划的人主要原因是什么呢? 分析出这些原因,就可以提出针对性的建议了。2. 明确因果关系看下面这个图:家庭收入性别兄弟姐妹数量、 /1Q有上大学计划否?结果可预测列可能的影响因素(输入列)规律是怎样的呢?对原始数据表进行分析,我们可以推论出:家庭收入、性别、兄弟姐妹数 量、IQ这些因素,很可能会影响有否上大学计划。至于姓名会不会影响,我们 可以用常识判断应该不会,故可以排除。这样我们就可以确定输入列有:家庭收入、性别、兄弟姐妹数量、IQ,可 预测列为:有上大学计划否。数据挖掘的目标就是找出输入列与可预测列的关系,只要找到这个规律, 就可以提出针对性的建议,也可以利用这个规律做

4、预测。3. 选择分析方法以上工作准备就绪后,我们就需要选择合适的分析方法来数据挖掘了。我们选择“决策树”的方法,下面是决策树的部分分析结果:兄弟姐妹数量OYes 予5%NO 45%Ves 35%NO 65%Yes 69%NO 31%Yes 42%NO 58%Yes 96%NO 6%Yes 82%NO 18%年收入A巧0,00?/年收入兰巧0、OOO兄弟姐妹数量衫/= 100说明:1.最上面的一个节点表示有 55%的人有计划上大学,45%的人没有计划。2第二层节点,以IQ为条件进行划分,IQ大于100的人中,有上大学计 划的人有79%之多,而IQ小于等于100的人,有上大学计划的人只有35%,

5、这说明 IQ 是很重要的影响因素。3第三层节点是年收入,第四层是兄弟姐妹数量。4决策树算法会分析原始数据,将影响程度最大的因素排在上面,次之的 因素排在后面。4分析数据挖掘结果由上面的分析,我们可以得到这样的一些信息:1越是IQ高的越有上大学的计划。2.家庭收入越高,越有上大学计划。3. 兄弟姐妹越多,上大学计划就越小。4. 性别没有在这棵树出现,说明性别对有否上大学计划没有明显影响。5. 建议 接下来我们就可以提出针对性的建议,以推动更多人考大学: 1.大学学位有限,目前重点应该是鼓励更多的聪明的学生考大学。2.聪明的学生不计划上大学,主要原因是家庭收入低、兄弟姐妹多,针对 这样的情况,政府可考虑降低大学学费,或对低收入、多子女的家庭进行资 助。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号