基于spss的信息类大学生成绩的数据挖掘

资源描述

《基于spss的信息类大学生成绩的数据挖掘》由会员分享，可在线阅读，更多相关《基于spss的信息类大学生成绩的数据挖掘（20页珍藏版）》请在金锄头文库上搜索。

1、应用统计学课程设计报告名称基于 SPSS 的信息类大学生成绩的数据挖掘学院：河南中医信息技术学院专业：信息管理与信息系统班级：信管一班日期：（提交日期）： 2014/6/12摘要数据挖掘技术是信息技术研究的热点问题之一。目前数据挖掘技术在商业、金等方面都得到了广泛的应用，而在教育领域的应用较少，随着高校招生规模的扩大，在校学生成绩分布越来越复杂，除了传统成绩分析得到的一些结论外，还有一些不易发现的信息隐含其中，因而把数据挖掘技术引入到学生成绩分析中，有利于针对性地提高教学质量。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分成为若干个簇，使得在同一个簇中的对象比较相似，

2、而不同簇中的对象差别很大。本论文就是运用数据挖掘中的聚类分析学生成绩的，利用学生在分专业前的各主要学科的成绩构成，对数据进行选择，预处理，挖掘分析等。运用聚类算法分析学生对哪个专业的强弱选择，从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。关键词聚类分析，学生成绩，就业，K-means， 1、研究背景：随着我国经济的发展，网络已被应用到各个行业，人们对网络带来的高效率越来越重视，然而大量数据信息给人们带来方便的同时，也随之带来了许多新问题，大量数据资源的背后隐藏着许多重要的信息，人们希望能对其进行更深入的分析，以便更好地利用这些数据，从中找

3、出潜在的规律。那么，如何从大量的数据中提取并发现有用信息以提供决策的依据，已成为一个新的研究课题。高校是教学和科研的重要基地，也是培养人才的重要场所，教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分，也是衡量高校管理水平的依据。从目前来看。各高校随着招生规模的扩大，信息量大幅度增加，学校运行着各类管理系统，存在着各类数据库，如有成绩管理，学籍管理等。这些系统积累了大量的数据，在很大程度上提高了工作的效率，但在这样的教学管理系统中，学校的管理人员、教师和学生都只能通过查看，或者简单的排序以及统计功能来获得数据表面的信息，由于缺乏信息意识和相应的技术，隐藏在这些大量数

4、据中的信息一直没有得到充分应用。如何对这些数据进行重新分析利用，在原基础上扩充高校教学管理系统的功能，从大量数据中发现潜在规律，提高学校管理的决策性，是很多高校正在考虑的问题。因此，对学生成绩数据进行深入挖掘分析，找出影响学生学习的各种潜在的因素，将会促进学校开展更加具有针对性的个性化教育，同时营造一种新的教学管理模式，进一步促进教学管理水平的提高 2、主要原理和思想：聚类分析就是将一组数据分组，使其具有最大的组内相似性和最小的组间相似性。简单的说就是达到不同聚类中的数据尽可能不同，而同一聚类中的数据尽可能相似，它与分类不同，分类是对于目标数据库中存在哪些类这一信息是知道的，所

5、要做的就是将每一条记录分别属于哪一类标记出来；而聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所有的记录组成不同的簇或者说“聚类”，并且使得在这种分类情况下，以某种度量为标准的相似性，在同一聚类之间最小化，而在不同聚类之间最大化。事实上，聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性，关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多，并提出了相应的算法。聚类分析的算法可以分为以下几类：划分方法、层次方法等。 2.1聚类分析原理方法：在数据挖掘技术中，聚类分析主要有以下几种方法。（1）划分法（Partitioning Methods

6、）划分法给定一个有N个元组或者记录的数据集，构造K个分组，每一个分组就代表一个聚簇，K N。而且这K个分组满足下列条件：每个组至少包括一个对象，每个对象必须属于且只属于一个组。对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一组中的记录越近越好，而不同分组中的记录越远越好。使用这个基本思想的算法有：K均值算法、K中心点算法、CLARANS算法。K均值算法一般只能在簇的平均值被定义的情况下才能被使用，这对于涉及有分类属性的数据的应用可能会显得不适用，该方法不易发现非凸面形状的簇和大小差

7、别很大的簇；K中心点算法在中心点的计算过程中需要反复迭代计算，其计算量很大，这对于对象及划分数的值较大时，其计算代价相当高。（2）层次法(Hierarchical Methods) 层次法就是把数据库分成多个层次，然后对不同层次的数据采用划分聚类。输出的是一棵层次化的分类树，层次的方法可以分为凝聚的和分裂的。凝聚的方法也称为自底向上的方法，一开始将每个对象作为单独的一个组，然后相继地合并相近的对象或组，直到所有的组合并为一个(层次的最上层)，或者达到一个终止条件。分裂的方法，也称为自顶向下的方法，一开始将所有的对象置于一个类中。在迭代的每一步中，一个类被分裂为更小的类。直到最终

8、每个对象在单独的一个类中，或者达到一个终止条件。 3.数据情况介绍：3.1数据信息：我院某年级学生大学四年全部实际课程数据，分计科、信管1、信管2三个班级3.2数据净化数字净化据源中不正确，不完善等不可能达到数据挖掘质量要求的数据，从而提高数据的质量得到更正的数据挖掘结果。研究所针对的学生成绩数据中，遇到的主要是空值问题。对此，本研究采用了两种处理方法若该学生有三门及以上成绩为空，则将其作为异常点从数据除去；若该生有两门及以下课程成绩为空。则取所在班级对应课程的平均成绩来代替空值。 4.分析过程：第一步，启动并进入系统，数据导入系统。第二步，进入系统分析功能，在“分析”菜单“分类（F

9、）”中选择K-均值聚类（K）命令。第三步，在弹出的K-均值聚类分析对话框中，从对话框左侧的变量列表中选择 “医院管理学，软件工程，”等变量，使之添加到右边的变量（V）框中，聚类数写为 4，方法选为迭代与分类如下图。第四步，单击迭代按钮选择系统默认值（右图）。第五步，单击保存按钮选择聚类成员（C）与聚类中心的距离（D）第六步，单击按钮，自动完成分析二：聚类分析结果由上图可知信管一班54名学生分成四类类别129忧53.7% 类别24中7.4% 类别320良37% 类别41差1.9% 三：同理计科，信管二班分析结果计科：导入数据计科数据分析： 1.聚类成员表2.最终聚类中心表3.每个中心的

10、案例数表由上图可知计科72名学生分成四类类别124良33.3% 类别236忧50% 类别31差1.4% 类别411中15.3% 信管二班导入数据：信管二班数据分析： 1.聚类成员表2.最终聚类中心表3.每个中心的案例数表由上图可知信管二班53名学生分成四类类别113中24.5% 类别22差3.8% 类别324良45.3% 类别414优26.4% 三对三个班级进行比较分析：信管一班优秀率最高53.7%说明该班成绩较为突出，信管二班良好率45.3%三班最高，说明信管二班比较稳定，整体成绩比较均匀，说明班级学风较好。计科优秀率，良好率基本都处于第二位，说明该班潜力较大，应该加重对该班的重视，分

11、类有针对性的进行指导。四：对信管一班分类结果详细分析：学生聚类后的各门课程平均成绩比较分析表 A第一类，B第二类，C第三类，D第四类,F平均值由学生谱系聚类图及聚类后的各门课程平均成绩比较分析表可知如果将54名学生（1-54为学生编号）分为两类测2,4,5,38,44属于一组，该类总体成绩较高，但是有挂科的现象，如果将54名学生分三类与分为四类区别不明显，我们以分四类进行分析，则第一类 1,7，8,9，11，13,16,17,20,23,24,25,26,27,31,32,33,34,35,36,37,39,42,43,45,46,47,49,5129人课程总平均分80.7分，各门平

12、均成绩都是最高分，综合排名都在前30属学习成绩优秀者，第二类为3,6,10,12,14,15,18,19,21,22,28,29,30,40,41,48,50,52,53,54 20人课程平均分76.5分与全班总平均分78.7相差有点大，但没有挂科的，综合排名30至50 名间，属学习成绩良好者；第三类2,5,38，444人课程总平均成绩79.7分比全班总平均略高但是有挂科的行为，综合排名在前50属学习中等者，第四类4一人课程平均分80.5总体成绩较高感觉有偏科现象造成排名仍在最后。分析结果：众所周知, 高校往往依据学生综合考试成绩来评定学生优良中差, 如果学生要想在评比中排名靠前,

13、如第一类学生, 就必须将有限的精力分配到所开设的各门课程中, 不论是否愿意或是否有兴趣, 至少是在所开的必修课程中他们必须花费同样的精力去提高考试成绩, 这就会造成这类学生无法有意识或没有更多的精力来培养适应社会的能力。根据笔者对第一类学生的跟踪调查, 毕业时第一类迟迟就不了业的学生占了相当比重。为避免“高分低能”, 提高学生在激烈的市场竞争中的生存与发展能力, 学校应针对这类学生学习自觉且文化基础好, 多加强对他们的社会实践能力和各种技能的训练, 多为这类学生提供一些在课堂内外锻炼的机会, 发现他们在其他方面的优势, 并加以适当地引导, 尽量把这类学生培养成通才。第三类，第四类

14、学生在一方面比较擅长，有自己的目标自己的专长。学校针对这类学生加强对其兴趣爱好的引导, 使其向专才方向发展, 对其不感兴趣的课程应尽量宽松对待, 使其有足够的精力从事其努力的方向。第二类学生文化基础一般, 自我管理比上述两类学生差, 学习目的不明确, 不论在课程学习还是在其他方面表现不积极、不突出, 付出的努力还不够。学校针对这三类学生, 通过加强辅导员和任课教师与学生的相互交流找出其原因, 挖掘其潜力所在, 提高学生的自信心和积极性,因材施教, 努力把学生培养成才。一：用对学生学习状况进行差异分析用对学生学习状况进行差异分析的步骤是：第一步，启动并进入系统，数据导入系统。

15、第二步，进入系统分析功能，在“”菜单“”中选择命令。第三步，在弹出的对话框中，从对话框左侧的变量列表中选择 “医院管理学，软件工程，”等变量，使之添加到右边的（）框中。第四步，确定变量的型聚类，选择复选框：。第五步，单击按钮，选择聚类方法：类间平均法，即两类距离为两类元素两两之间平均平方距离。在栏目中选皮尔逊相关系数（）：第六步，单击按钮，选中项，并选择纵向（）输出聚类全过程（）的冰柱图。第七步，显示凝聚状态表：单击按钮，选中和项，选中中的项，并在其后文本框中输入，显示将变量分成类时各个变量的归属情况。第八步，单击按钮，自动完成分析过程。分析结果与建议：（一）输出层次聚类分析各变量的距离矩阵（见下图）。从中可以看出各个变间的距离，并按“距离”的长短进行分类（二）凝聚状态表表格的第一列表示聚类分析的第几步；第二列、第三列表示聚类中哪两个样本或小类聚成一类；第四列是相应的样本距离或小类距离；第五列、第六列表示本步聚类中，参与聚类的是样本还是小类。表示样本，数据（非）表示由第几步聚类产生

展开阅读全文