中考平台数据分析与应用

上传人:E**** 文档编号:113645889 上传时间:2019-11-09 格式:PDF 页数:64 大小:9.45MB
返回 下载 相关 举报
中考平台数据分析与应用_第1页
第1页 / 共64页
中考平台数据分析与应用_第2页
第2页 / 共64页
中考平台数据分析与应用_第3页
第3页 / 共64页
中考平台数据分析与应用_第4页
第4页 / 共64页
中考平台数据分析与应用_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《中考平台数据分析与应用》由会员分享,可在线阅读,更多相关《中考平台数据分析与应用(64页珍藏版)》请在金锄头文库上搜索。

1、广东工业大学 硕士学位论文 中考平台数据分析与应用 姓名:吴永杰 申请学位级别:硕士 专业:计算机软件与理论 指导教师:李振坤 20100501 摘要 摘要 近年来,广东省高中阶段招生报名和录取都是通过网上进行,本人曾经 参与了广东省高中阶段招生报名服务平台( 中考平台) 的开发与设计。通过 对中考平台中获得的数据进行分析,发现每次对考生的数据进行分析都需要 通过编写复杂的S Q L 语句才能进行相关统计,并且难以多方位地对数据进行 查询分析。每年中考过后,数据都仅仅是经过简单的归档备份后就再不使用, 对数据造成了极大的浪费。人们希望对考生数据进行更加深入的分析来得出 一些未知的知识,以便利用

2、这些知识来进行决策。数据挖掘与数据仓库是目 前解决这个问题的主流解决方案。 本文的考生信息数据都是通过广东省中考平台上采集到的,首先简要介绍 了广东省中考平台的设计概况和本人所负责的相关功能模块。在平台的开发工 程中发现由于数据量庞大且数据结构复杂,为了保证平台正常运行,每年都要 把往年的考生数据清空;对考生信息的统计分析也不方便,虽然中考平台有相 应的统计功能,但由于各个功能模块相对独立且可选择的属性有限,很难适应 一些特定的需求。为了解决这一问题,本文提出了对考生信息建立数据仓库。 接着对考生信息数据进行详细分析,并根据管理部门的业务需要,面向不 同的主题,根据 G a i l l ( 考

3、生类别) 。 利用A n a l y s i sS e r v i c e s2 0 0 5 可以对考生录取数据建立决策树模型,可以得出 下图结果: 图5 1 基于考生报到率的决策分类模型 F i g u r e5 - 4D e c i s i o n m a k i n gm o d e lo fS t u d e n tr e g i s t e r 上图是基于考生报到率的决策分类模型,其中:( 1 ) 节点“全部”为考生录取 信息的总体样本。( 2 ) T D Z F 是总体样本中信息增量最大的属性,T D Z F 有投档分数大于 4 2 0 分和投档分数小于4 2 0 分两种分支。 5

4、 3 4 分析结论 通过决策分类模型中得出了下面几条规则所支持: ( 1 ) 汕尾地区的考生报到率为7 4 7 9 。 ( 2 ) 如果考生的考试分数高于市里考生的平均分,考生的报到率达9 3 7 ,而 考生的考试分数如果低于市晕考生的平均分,则考生的报到率为7 7 8 。 ( 3 ) 被提前批录取的考生,不管最后成绩如何,报到的比率高达9 8 7 。 ( 4 ) 报考普通高中、取得的成绩低于市考生的平均分的农村考生报到率仅有 6 9 8 。 ( 5 ) 在考生成绩低于市考生平均成绩的情况下,考生被普通高中录取后的报到 率为7 4 8 ,而考生被中职中专学校录取后报到率为8 0 6 。 4 9

5、 广东工业大学硕士学位论丈 对比于广州的考生模型可以看出 ( 1 ) 广州地区的考生报到率为8 9 4 7 。 ( 2 ) 报考普通高中、取得的成绩低于市考生的平均分的农村考生报到率有 8 5 7 。 ( 3 ) 在考生成绩低于市考生平均成绩的情况下,考生被普通高中录取后的报到 率为8 6 2 ,而考生被中职中专学校录取后报到率为8 5 6 。 根据上面的决策分类规则,发现广州市的考生报到率为8 9 4 7 ,而汕尾市 的考生报到率只有7 4 7 9 。两地考生在考试分数高于市里平均分的时候考生的 报到率都超过9 0 以上,而汕尾地区考生如果低于市里考生的平均分,则考生报 到率仅有7 7 8

6、,而在考生成绩低于市考生平均分的农村考生更是仅有6 9 8 的 报到率。意味着在经济发展一般的地区,家庭环境相对较差,特别是农村的学生, 如果成绩赶不上将会放弃继续学习的机会。随着经济社会的发展,九年义务教育 远远难以应付日后的社会生活,考生没有一技之长很难在社会谋生。教育部门不 应仅仅对少数的重点学校投放过多资源,应该为普通甚至是弱势的初中增加更多 的资源。初中阶段教育是决定一个学生将来发展道路最重要的时期,更多地关注 成绩落后的学生,为中考考试失利的考生进行一定的心理辅导,对于考试失利了 并且家庭环境困难的家庭要给予适当的帮助,劝说他们继续学习。只有提高社会 各阶层的文化素质,才能使社会稳

7、定、和谐地发展。 5 2 使用O L A P 对考生数据进行分析 考生数据仓库建立完成后,还可以使用O L A P 工具对考生模型进行多维的分 析研究。 5 2 1O L A P 工具 联机分析处理O L A P ( o n - li n ea n a l y t i c a lp r o c e s s i n g ) l 拘概念最早是由关系数据 之父E F ( o d d 于1 9 9 3 年提出的【2 0 1 当时,C o d d 认为联机事务处理( O L T P ) 已能满足终端用户对数据库查询分析的需要,S Q L 对大数据库进行的简单查 询也不能满足用户分析的需要,用户进行决策分

8、析需要的是对关系数据库进行 第五章中考平台数据的分析与研究 大计算后得到的结果,而查询的结果并不能满足决策者的需求因此,C o d d 提出了多维数据库和多维分析的概念,即O L A P 。 微软的数据仓库框架提供了一套综合的技术来设计和构建低成本的数据仓 库。数据仓库框架是一组实现S Q LS e r v e r2 0 0 5 数据仓库功能的组件A P I 。它包 括:数据转换服务( D T S ) ;联机分析处理和数据挖掘支持( A n a l y s i sS e r v i c e s ) 元 数据服务( M e t aD a t aS e r v i c e s ) 。 A n a

9、l y s i sS e r v i c e s 是用于联机分析处理( O L A P ) 和数据挖掘的中间层服务器。 使用它可以构造用于分析的多维数据集,同时A n a l y s i sS e r v i c e s 系统还提供对多 维数据集的快速客户端访问。A n a l y s i sS e r v i c e s 将数据仓库中的数据组织成包含 预先计算的聚合数据的多维数据集,以便为复杂的分析查询提供快速响应。 A n a l y s i sS e r v i c e s 还可以从多维或关系数据源创建数据挖掘模型。 5 1 2 考生报考情况分析 每年中考考试结束后,考试中心都要对考生的

10、相关信息进行统计工作。在传 统的关系数据库中,要统计广东省中考情况一般需要编写相对复杂的S Q L 语句, 而且由于需要在各个不同的表中抽取出相应的关联数据,S Q L 语句中总要进行 多重嵌套查询,在数据量如此庞大的数据库中执行一次S Q L 语句可能需要相当 长的等待时间,使得工作效率相当低。但是当我们对中考数据建立了数据仓库后, 所有的问题都迎刃而解了。 利用A n a l y s i sS e r v i c e s 2 0 0 5 建立了多维数据集后,通过O L A P 可以很方便地 通过不同的维度对多维数据进行切块、切片操作,获得更符合需求的数据。 首先对广东省中考报名的总体情况进

11、行分析,通过对多维数据集的O L A P 操作,可以很方便的获得广东省各地区的报考情况,也可以根据不同的维度获得 自己需要的数据。如广东省报考的男女比例、报考的学生的身体健康情况、报考 考生的民族分布等。如图5 2 所示: 广东工业大学硕士学位论文 一m l q 盏 “T 唿 。lT k l q 计数 i 宅 T k s z y 。,j 录取人数 写i T k s z I , , 1 。 i 报考人数 赫筐皓K $ 丝T c j 焉丝T c j d 篙醢T d * z t 丝T d , 露丝n j 篓丝T h j h 董丝l j m 蔫醢T l m t 丝T k I 】b , U - 董丝T

12、m 瓣醢T m z 熏醢T s t j k 垂隆T x b 誉筐T x q 鬻筐T y z 军I f 7T w lh 图5 2 汕尾市各县区报考情况 F i g u r e5 - 2E n r o l ls i t u a t i o no fS h a n W e i 图5 2 显示的是汕尾市的中考报名情况。在上一章中定义了报考人数的度量 值,就是以考生号为筛选条件对数据进行汇总。把报考人数的度量值拖到汇总列 中;要从不同维度的视角进行观查,也就是进行O L A P 的旋转操作,只需将所需 的维度拖动到筛选字段表中,可以定义相关的运算符和条件对数据立方体进行多 维操作。这样就可以从不同的角度

13、统计高考考生人数。对多维数据集进行O L A P 操作不仅可以在M i s c r oV i s u a lS t u d i 0 2 0 0 5 中进行,也可以在E x c e l 表中进行。如图 5 3 第五章中考平台蠹船的分析与研究 翟 翟 蕊曼。i ;。:。i 是量;耍 6 ;行标签露K s H 人数T k s l q 计数 7 ;红海湾开发区 _ 3 5 11 9 6 8 | 汕尾城区 2 1 6 41 0 4 2 鎏型堡鎏主一1 13 7 02 3 6 9 1 0 汕尾华侨区4 53 3 1 1i 汕尾陆丰3 1 1 22 7 3 3 1 2 | 汕尾陆河1 6 8 01 7 1

14、3 1 3l 总计酾2 28 i 图5 3E X C E L 中对多维数据进行O L A P 操作 F i g u r e5 3O p e r a t i o nO L A P i nm a n yd i m e n s i o nd a t af r o me x c e l 在E x c e l 中,选择数据来自A n a l y s i sS e r v i c e s 数据源,就可以连接上已配置 好的多维数据集了。图5 2 是考生填报志愿事实表和考生录取事实表在共同维度 下进行比较的分析情况。从图中可以看出,汕尾市的中职报名人数和最终人数分 别8 7 2 2 人和8 0 8 6 人。对

15、分析后的数据生成柱状统计图可以更直观地了解中考报 名的情况。如图5 3 是对多维数据进行O L A P 操作后生成的统计图 广东工业大学硕士学位论文 3 5 0 0 3 0 0 0 2 5 0 0 2 0 0 0 主5 0 0 i 0 0 0 5 0 0 O , 豳爵 一 r 翟 巨,燃豳悖| l l 圜嘲r 礤鞠游镕麓 i 。 l影 已。,凰b 、梦? 妒,梦梦 图5 - 4 汕尾报考人数和录取人数的统计图 鬻K s 1 人数 v T k s l q 计数 F i g u r e5 - 4S t a t i s t i c s c h a r to fS h a n W e is i g n

16、u pn u m b e r sa n de n r o l ln u m b e r s 5 4 第五章中考平台数据的分析与研究 结束语 随着计算机的飞速发展,人们不再因为缺乏知识而担忧。知识每天以几何级 的规模增长,人们越来越迷失于海量的知识汪洋中。数据挖掘与数据仓库正好成 为人们解决这种困境的有效工具。本文以广东省中考招生平台为基础,通过中考 平台采集到的考生的报名信息、学校招生计划、考生的中考成绩和学校录取情况 等一系列的数据进行分析,并提出为了便于日后对考生资料的整理、分析和统计, 为考生中考信息建立数据仓库。最后还详细地描述了建立数据仓库后如何进行对 考生的数据分析和对考生数据进行数据挖掘来发现潜在的知识,为教育部门制定 相关政策、学校发布招生计划和考生填报志愿提供有效的参考。 本文取得的一些研究成果如下: ( 1 ) 本文对广东省中考考生数据进行深入的调研和分析,揭示了其中存在的问 题与不足

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号