教育系统中的多变量分析及其应用

上传人:cl****1 文档编号:584180606 上传时间:2024-08-30 格式:PPT 页数:77 大小:18.91MB
返回 下载 相关 举报
教育系统中的多变量分析及其应用_第1页
第1页 / 共77页
教育系统中的多变量分析及其应用_第2页
第2页 / 共77页
教育系统中的多变量分析及其应用_第3页
第3页 / 共77页
教育系统中的多变量分析及其应用_第4页
第4页 / 共77页
教育系统中的多变量分析及其应用_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《教育系统中的多变量分析及其应用》由会员分享,可在线阅读,更多相关《教育系统中的多变量分析及其应用(77页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘及其应用数据挖掘及其应用傅德荣傅德荣内 容一、数据挖掘概述二、DM与教育三、教育应用四、基于聚类的DM五、马氏距离及其应用(判别分析)六、数量化类应用预约数的预测超市顾客数预约问卷设计与分析一、数据挖掘概述n1.数据挖掘(Data Mining)定义从大量数据中发现信息、看法、知识、假设、课题的处理和方法。KDD(Knowledge Discovery in Database) DM是KDD的挖掘、发现部分。发掘数据中内在的规则、知识专家系统:抽出专家头脑中的知识,以便利用 DM:发掘数据中内在的、非明示的知识。期待:信息社会中洪水般信息带来的诸问题的解决对策。2. DM的处理过程()

2、DM的处理过程(1)数据仓库:获取、选择相关目的数据(2)对数据进行重要的前期处理、变换(3)从数据中发现知识(4)对多发现的知识解释、评价、应用n这个过程可认为是知识发现的过程。n有时对(3)也称之为DM 。n从(1) (4)不是单纯的直线进行,在每一处理阶段为了达到满意的结果,还需要返回前面的阶段,这个处理过程可能需要多次反复。()DM处理的说明一、数据的获取、选择n理解对象领域的性质 具备对象领域的基本知识 设定DM的目标n对象领域的数据集中在多个体内,并对这些库集中管理称之为数据仓库。n对库内数据集合挖掘时应基于选定的目标。n计算机支持是导致DM成功的重要处理。二、数据的预处理n从目标

3、数据中消除杂音、异常值n连续数据离散,分类离散数据连续化、修补。n单位变化,坐标变换规范化n根据DM算法的要求数据变换n预处理数据应是能符合知识发现算法要求的数据,所以数据变换可考虑到入预处理,即预处理应包含直接数据变换及其以前的全部过程。此外,还应包括属性的选择,属性的抽出,属性的建构,事例的选择。n许多知识发现的算法是以表形式的数据为对象的,数据变换的记过,往往是以表形式给出的。然而,文本信息,Web信息,判别是属性信息、药物信息等多为表形式的信息,它们是一般的表形式信息,需要别的变换处理。三、知识发现n利用知识发现的算法,可从数据中抽出我们感兴趣的知识的候补(准知识)。利用的手法主要是统

4、计的方法,机器学习的方法、数据挖掘的传统方法。n探索空间通过输入各种方法所规定的参数的选择多规定。n其结果,可得到概念的描述,分类的规则、相关的规则。决策树、聚类,针对不同性质,不同数量的数据,应使用不同的算法。四、数据的解释与评价n抽出的准知识,经过解释、评价可得到完全的知识。若在此阶段还得不到这样的宏观知识,则应返回以上的步骤。究竟返回到哪一步只有在处理的过程中方能确定,也有可能返回新的数据收集。对于所得到的知识是否是所需的有用知识,应对照最初设定的标准来确认。n数据挖掘的结果及其解释应置于重要的未知,这是DM的重要特性,用户(专家)不能理解的知识是不能使用的。n上述的步骤中,许多研究集中

5、在知识的发现算法上。然而,在DM中,最重要的是数据的获得、选择、预处理。DM中,数据是以一定的形式存放在数据库中的,这是DM的前提,用于DM 的形式,在这个处理数据比例的7070%,能否实现有用的、良好的知识的发现与DM算法有关、与有效数据的收集有关。有效数据的准备是DM成功的重要保障。n获取数据应基于DM 的目的。在DM最初,确定的目的设定有时是比较困难的。所收集的数据可能是没有准确的目的,单在使用这些数据时,设定适当的目的是十分重要的。在庞大的数据中,若不关注这样的目的,则 不可能得到有用的知识。n设定目的是DM的开始,也是对挖掘的知识有效性评价的根据。在DM过程中,应反复听取专家的意见。

6、处理的多阶段应反复进行,直到得到有效的知识和预设的目的。3. DM系统DM系统模块n用户接口:用户与系统交互性易于实验视觉化n数据库接口:是连接对象数据库的接口通过接口,可对关系数据中的表、面向对象数据库只能够的对象,进行操作nDM模块置入用于知识发现的算法多种或一种 DM工具n推理、知识库基于DM目的的多背景知识对获取知识的存储、修正、活用4. 应用n金融n流通n装备制造n通信n医疗二、DM与教育概述n1. 教育的过程是一种信息(产生、传递、处理、呈现、存储)的过程。 从表面现象获取实质规律 DMn2. 远教(e-Learning)的特点n3.应用面(表观现象 本质)学习过程学习者特性教材(

7、资源)特性教育评价学习方式(教学模式)问卷处理教育现象的描述(分类)与预测三、教育应用实例n1.学习异常的检测2. 学习状态的预测3.学习资源的评价4. 协作学习n1.等价发言数n2.形态词分析四、基于聚类的DMn1.基于股票价值和资本金聚类(1)八家公司的数据(2)散布图(3)计算欧氏距离(4)以最短距离法聚类(5)以Ward法聚类不同的聚类算法有不同的聚类结果2. 八个变量的聚类n(1)变量数据n(2)树状图n(3)分类3.七个变量聚类4.三个变量n变量数不同,聚类结果不同!五、马氏距离及其应用(判别分析)1.相关的二维数据(1)数据(2)散布图(3)计算马氏距离n马氏距离(4)基准空间的

8、马氏距离分布2.不相关的数据n(1)数据(2)散布图(3)判别分析不明数据马氏距离直方图3.多个变量数据(1)数据(2)马氏距离(3)不明公司的马氏距离(4)相关矩阵六、数量化类应用n1.预约数的预测 (1)数量化类模型n特点:变量为定性的信息利用虚拟变量的回归分析(2)数据(3)改写后的数据(4)削减类别(5)预测式(6)预测(7)要因分析各种因素中最具影响的因素指标:n该因素中回归系数的范围。2.超市顾客数预测(1)顾客数据(2)用于分析的数据(3)预测式(4)预测效果(5)要因分析(6)关于一周和事件日的预测3.问卷设计与分析(1)假期旅游方案(2)问卷设计(3)问卷结果(4)用于分析的数据(5)预测式(6)要因分析结论:n季节:初秋n地点:北海道n住:包早、晚餐饭店,5天n全程自由活动n费用:6万(日元)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号