教育系统中的多变量分析及其应用教学教材

上传人:yuzo****123 文档编号:139687271 上传时间:2020-07-23 格式:PPT 页数:77 大小:17.51MB
返回 下载 相关 举报
教育系统中的多变量分析及其应用教学教材_第1页
第1页 / 共77页
教育系统中的多变量分析及其应用教学教材_第2页
第2页 / 共77页
教育系统中的多变量分析及其应用教学教材_第3页
第3页 / 共77页
教育系统中的多变量分析及其应用教学教材_第4页
第4页 / 共77页
教育系统中的多变量分析及其应用教学教材_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《教育系统中的多变量分析及其应用教学教材》由会员分享,可在线阅读,更多相关《教育系统中的多变量分析及其应用教学教材(77页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘及其应用,傅德荣,内 容,一、数据挖掘概述 二、DM与教育 三、教育应用 四、基于聚类的DM 五、马氏距离及其应用(判别分析) 六、数量化类应用 预约数的预测 超市顾客数预约 问卷设计与分析,一、数据挖掘概述,1.数据挖掘(Data Mining)定义 从大量数据中发现信息、看法、知识、假设、课题的处理和方法。 KDD(Knowledge Discovery in Database) DM是KDD的挖掘、发现部分。 发掘数据中内在的规则、知识 专家系统:抽出专家头脑中的知识,以便利用 DM:发掘数据中内在的、非明示的知识。 期待:信息社会中洪水般信息带来的诸问题的解决对策。,2. DM

2、的处理过程,()DM处理的说明,一、数据的获取、选择 理解对象领域的性质 具备对象领域的基本知识 设定DM的目标 对象领域的数据集中在多个体内,并对这些库集中管理称之为数据仓库。 对库内数据集合挖掘时应基于选定的目标。 计算机支持是导致DM成功的重要处理。,二、数据的预处理,从目标数据中消除杂音、异常值 连续数据离散,分类离散数据连续化、修补。 单位变化,坐标变换规范化 根据DM算法的要求,数据变换,预处理数据应是能符合知识发现算法要求的数据,所以数据变换可考虑到入预处理,即预处理应包含直接数据变换及其以前的全部过程。此外,还应包括属性的选择,属性的抽出,属性的建构,事例的选择。,许多知识发现

3、的算法是以表形式的数据为对象的,数据变换的记过,往往是以表形式给出的。然而,文本信息,Web信息,判别是属性信息、药物信息等多为表形式的信息,它们是一般的表形式信息,需要别的变换处理。,三、知识发现,利用知识发现的算法,可从数据中抽出我们感兴趣的知识的候补(准知识)。利用的手法主要是统计的方法,机器学习的方法、数据挖掘的传统方法。 探索空间通过输入各种方法所规定的参数的选择多规定。 其结果,可得到概念的描述,分类的规则、相关的规则。决策树、聚类,针对不同性质,不同数量的数据,应使用不同的算法。,四、数据的解释与评价,抽出的准知识,经过解释、评价可得到完全的知识。若在此阶段还得不到这样的宏观知识

4、,则应返回以上的步骤。究竟返回到哪一步只有在处理的过程中方能确定,也有可能返回新的数据收集。对于所得到的知识是否是所需的有用知识,应对照最初设定的标准来确认。,数据挖掘的结果及其解释应置于重要的未知,这是DM的重要特性,用户(专家)不能理解的知识是不能使用的。 上述的步骤中,许多研究集中在知识的发现算法上。然而,在DM中,最重要的是数据的获得、选择、预处理。DM中,数据是以一定的形式存放在数据库中的,这是DM的前提,用于DM 的形式,在这个处理数据比例的7070%,能否实现有用的、良好的知识的发现与DM算法有关、与有效数据的收集有关。有效数据的准备是DM成功的重要保障。,获取数据应基于DM 的

5、目的。在DM最初,确定的目的设定有时是比较困难的。所收集的数据可能是没有准确的目的,单在使用这些数据时,设定适当的目的是十分重要的。在庞大的数据中,若不关注这样的目的,则 不可能得到有用的知识。 设定目的是DM的开始,也是对挖掘的知识有效性评价的根据。在DM过程中,应反复听取专家的意见。处理的多阶段应反复进行,直到得到有效的知识和预设的目的。,3. DM系统,DM系统模块,用户接口: 用户与系统交互性 易于实验 视觉化 数据库接口: 是连接对象数据库的接口 通过接口,可对关系数据中的表、面向对象数据库只能够的对象,进行操作,DM模块 置入用于知识发现的算法 多种或一种 DM工具 推理、知识库

6、基于DM目的的多背景知识 对获取知识的存储、修正、活用,4. 应用,金融 流通 装备制造 通信 医疗,二、DM与教育概述,1. 教育的过程是一种信息(产生、传递、处理、呈现、存储)的过程。 从表面现象获取实质规律 DM 2. 远教(e-Learning)的特点,3.应用面(表观现象 本质) 学习过程 学习者特性 教材(资源)特性 教育评价 学习方式(教学模式) 问卷处理 教育现象的描述(分类)与预测,三、教育应用实例,1.学习异常的检测,2. 学习状态的预测,3.学习资源的评价,4. 协作学习,1.等价发言数 2.形态词分析,四、基于聚类的DM,1.基于股票价值和资本金聚类 (1)八家公司的数

7、据,(2)散布图,(3)计算欧氏距离,(4)以最短距离法聚类,(5)以Ward法聚类,不同的聚类算法有不同的聚类结果,2. 八个变量的聚类,(1)变量数据,(2)树状图,(3)分类,3.七个变量聚类,4.三个变量,变量数不同,聚类结果不同!,五、马氏距离及其应用(判别分析),1.相关的二维数据 (1)数据,(2)散布图,(3)计算马氏距离,马氏距离,(4)基准空间的马氏距离分布,2.不相关的数据,(1)数据,(2)散布图,(3)判别分析,不明数据,马氏距离,直方图,3.多个变量数据,(1)数据,(2)马氏距离,(3)不明公司的马氏距离,(4)相关矩阵,六、数量化类应用,1.预约数的预测 (1)数量化类模型 特点: 变量为定性的信息 利用虚拟变量的回归分析,(2)数据,(3)改写后的数据,(4)削减类别,(5)预测式,(6)预测,(7)要因分析,各种因素中最具影响的因素指标: 该因素中回归系数的范围。,2.超市顾客数预测,(1)顾客数据,(2)用于分析的数据,(3)预测式,(4)预测效果,(5)要因分析,(6)关于一周和事件日的预测,3.问卷设计与分析,(1)假期旅游方案,(2)问卷设计,(3)问卷结果,(4)用于分析的数据,(5)预测式,(6)要因分析,结论:,季节:初秋 地点:北海道 住:包早、晚餐饭店,5天 全程自由活动 费用:6万(日元),

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号