2022年采用数据挖掘技术中ID3决策树算法分析学生成绩论文

资源描述

《2022年采用数据挖掘技术中ID3决策树算法分析学生成绩论文》由会员分享，可在线阅读，更多相关《2022年采用数据挖掘技术中ID3决策树算法分析学生成绩论文（6页珍藏版）》请在金锄头文库上搜索。

1、采用数据挖掘技术中ID3决策树算法分析学生成绩论文导读：在学校管理工作中，特别是对学生的成绩管理工作中，普遍存在的问题是学生成绩数据量过于庞大，但对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段，并没有对大量的成绩数据进行深入地分析，加以捕捉有利于教学管理工作的信息，这是对教学信息资源极大的浪费。数据挖掘技术正是解决这个问题的可行而有效的方法。本文使用ID3决策树算法生成决策树分析学生成绩优良与哪些因素有关，并利用事后修剪法对决策树进行修剪，最后由决策树产生分类规那么。关键词：数据挖掘技术，ID3决策树算法，学生成绩1.引言当前，职业技术教育随着社会开展和科技进步，其办学软硬件层次正

2、逐步“升级，办学规模和社会影响力也成倍增长。在学校管理工作中，特别是对学生的成绩管理工作中，普遍存在的问题是学生成绩数据量过于庞大，但对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段，并没有对大量的成绩数据进行深入地分析，加以捕捉有利于教学管理工作的信息，这是对教学信息资源极大的浪费。数据挖掘技术正是解决这个问题的可行而有效的方法。本文使用ID3决策树算法生成决策树分析学生成绩优良与哪些因素有关，并利用事后修剪法对决策树进行修剪，最后由决策树产生分类规那么。2. 数据挖掘的方法和技术数据挖掘方法是由人工智能、机器学习的方法开展而来，结合传统的统计分析方法、模糊数学方法及科学计算可视化

3、技术，以数据库为研究对象，形成了数据挖掘的方法和技术。可分为以下六大类: 归纳学习法、仿生物技术、公式发现、统计分析方法、模糊数学方法、可视化技术。信息论方法决策树方法是归纳学习法中的一类。信息论方法是利用信息论的原理建立决策树。在知识工程领域，决策树是一种简单的知识表示方法，它将事例逐步分类成代表不同的类别。由于分类规那么是比拟直观，易于理解，该类方法的实用效果好，影响较大。由于该方法最后获得知识表示形式是决策树，故一般称它为决策树方法。这种方法一般用于分类任务中。决策树是通过一系列规那么对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规那么的方法。决策树是以实例为根底的归纳学

4、习算法。从一组无次序、无规那么的元组中推理出决策树表示形式的分类规那么。它采用自顶向下的递归方式，在决策树的内部节点进行属性值的比拟，并根据不同的属性值从该节点向下分支，叶节点是要学习划分的类。从根节点到叶节点的一条路径就对应着一条分类规那么，整个决策树就对应着一组析取表达式规那么。信息论方法中较有特色的方法有：ID3,IBLE方法。目前己形成了多种决策树算法，如CLS、ID3、CHAID、C ART、FACT、C4.5、GINI,SEE5、SLIQ、SPRINT等。其中最著名的算法是Quinlan提出的ID 3算法。2.决策树的生成决策树的生成分为学习及测试两个阶段。决策树学习阶段采用自顶向

5、下的递归方式。决策树算法分成两个步骤：一是树的生成，开始时所有数据都在根节点，然后递归地进行数据划分，直至生成叶节点。二是树的修剪，就是去掉一些可能是噪音或者异常的数据。决策树停止分割的条件有：一个节点上的数据都是属于同一个类别；没有属性可以再用于对数据进行分割。建立一颗决策树可能只要对数据库进行几遍扫描之后就能完成，这也意味着需要的计算资源较少，而且可以很容易的处理包含很多预测变量的情况，因此决策树模型可以建立得很快，并适合应用到大量的数据上。3.ID3算法决策树归纳的根本算法是贪心算法，它以自顶向下递归的方法构造决策树。著名的决策树归纳算法ID3算法的根本策略如下：树以代表训练样本的单个节

6、点开始。如果样本都在同一个类中，那么这个节点成为树叶节点，并用该类标记。否那么，算法使用称为信息增益的基于熵的度量作为启发信息，选择能够最好的将样本分类的属性，该属性成为该节点的“测试或“判定属性。在这里，我们假设所有的属性都是分类的，即取离散值。连续值的属性必须离散化。对测试属性的每个的值创立一个分支，并据此划分样本。算法使用类似的方法，递归地形成每个划分上的样本决策树。一旦一个属性出现在一个节点上，就不必在该节点的后代上考虑这个属性。整个递归过程在以下条件之一成立时停止：1给定节点的所有样本属于同一类。2没有剩余属性可以用来进一步划分样本，这时候将该节点作为树叶，并用剩余样本中所出现最多的

7、类型作为叶子节点的类型。3某一分枝没有样本，在这种情况下，以训练样本集中占多数的类创立一个树叶。但是，ID3算法也存在着如下缺乏：(1)不能够处理连续值属性，ID3算法最初定义时是假设所有属性值是离散的，但在现实环境中，很多属性值是连续的。(2)计算信息增益时偏向于选择取值较多的属性，这样不太合理。(3)对噪声较为敏感，所谓噪声是指训练集中属性值或类别给错的数据。(4)在构造树的过程中，需要对数据集进行屡次的顺序扫描和排序，因而导致算法的低效。(5)只适合于能够驻留于内存的数据集使用，当训练集大得无法在内存容纳时程序无法运行。4.树的剪枝当决策树创立时，由于数据中的噪声和孤立点，许多分枝反映的

8、是训练中的异常。剪枝方法处理这种过分适应数据问题。通常，这种方法使用统计度量，剪去最不可靠分枝，这可带来较快的分类，提高决策树独立于测试数据正确分类的能力。有两种常用的剪枝方法：先剪枝方法prepruning，通过提前停止树的构造而对树剪枝。一旦停止，节点成为树叶。该树叶持有子集样本中出现最频繁的类。在构造树时，如统计意义下的2、信息增益等度量，可以用于评估分裂的优良性。如果在一个节点划分样本将导致低于预定义阈值的分裂，那么给定子集的进一步划分将停止。然而，选择一个适当的阈值是困难的。较高的阈值可能导致过分简化的树，而较低的阈值可能使得树的简化太少。后剪枝方法postpruning，它由完全生

9、长的树剪去分枝。通过删除节点的分枝，剪掉树节点，代价复杂性剪枝算法是后剪枝算法的一个实例。在该算法中，最下面的未被剪枝的节点成为树叶，并用它先前的分枝中最频繁的类进行标记。对于树中每一个非树叶节点，算法计算该节点上的子树被剪枝后可能出现的期望错误率。然后，使用每个分枝的错误率，结合沿每个分枝观察的权重评估，计算不对该节点剪枝的期望错误率。如果剪去该节点，导致较高的期望错误率，那么保存该子树；否那么剪去该子树。产生一组逐渐被剪枝的树之后，使用一个独立的测试集评估每棵树的准确率，就能得到具有最小期望错误率的决策树。也可以交叉使用先剪枝和后剪枝，形成组合式方法。后剪枝所需的计算比先剪枝多，但通常产生更可靠的树。5. 从决策树提取分类规那么从决策树提取分类规那么时，规那么使用ifthen的形式表示出来，对从根到树叶的每一条路径创立一条规那么，沿着路径上的每一个属性-值对，形成规那么前件(“IF局部)的一个合取项。叶节点包含类预测，形成规那么后件“THEN局部。ifthen规那么易于理解，特别是当给定的树很大时。而且便于规那么匹配等操作。6.结论数据挖掘虽然还是一门新兴的数据分析技术，但已经具有了强大的生命力，其研究取得了令人瞩目的成就，己经成功地应用到了许多领域。可以说，有数据积累的地方，就有数据挖掘技术的用武之地，这是因为它直接与经济和决策紧密相连。

展开阅读全文

2022年采用数据挖掘技术中ID3决策树算法分析学生成绩论文

最新文档