基于粗糙集的关联规则挖掘在教师成长中的应用

资源描述

《基于粗糙集的关联规则挖掘在教师成长中的应用》由会员分享，可在线阅读，更多相关《基于粗糙集的关联规则挖掘在教师成长中的应用（12页珍藏版）》请在金锄头文库上搜索。

1、1基于粗糙集的关联规则挖掘在教师成长中的应用摘要关联规则挖掘是数据挖掘中的一个重要问题，在最近几年被广泛研究。本文将粗糙集理论及方法引入高校教师成长信息，通过属性约简降低属性纬数，然后基于粗糙集理论进行关联规则挖掘，得出了一些有益的结论，为拓展粗糙集的应用领域做出了有益的探索。关键词粗糙集；关联规则；教师成长；区分矩阵；属性约简1 引言粗糙集理论（Rough Set）是由波兰数学家 Z.Pawlak 在 80 年代初提出的一种处理模糊和不精确性问题的新型数学工具。利用粗糙集理论进行数据挖掘，重要的一点就是基于粗糙集理论的属性约简。通过约简操作降低属性的纬数，总结出适用于决策支持的知识

2、规则，是粗糙集理论最重要的应用之一。关联规则挖掘是数据挖掘中的一个重要问题，随着全球范围内数据库中存储的数据量迅速增大，数据间的关联规则往往过于庞大而难以分析，如何有效的得到有意义的关联规则成为研究热点。本文以高校信息化为应用背景，将基于粗糙集理论的数据挖掘技术应用于高校教师成长过程，得到实际可用的关联规则，为管理者提供决策支持。 2 基本概念2.1 粗糙集理论的基本概念粗糙集理论将分类与知识联系在一起,认为知识源于有认知能力的主体的分类能力,并用等价关系形式化表示分类。定义 1：粗糙集理论中定义信息系统为一个如下四元组：S=(U,A,V,F)，其中2U=(x1,x2,xn)是对象集，即论域；

3、A 是属性集合，A=CD，且 CD=，其中 C为条件属性，D 为决策属性；V 为属性 A 的值域；F 是 UAV 的映射,它为 U 中各对象的属性指定唯一值。S 又被称为决策表。定义 2：在信息系统 S 中，对于一属性集 IA，可构造对应的二元等价关系。IND(I)x，yUU|aI，有 a(x)=a(y)，称 IND(I)为由 I 构造的不可分辨关系。不可分辨关系实际上就是 I 上的等价关系。因此，针对属性集 I 上的不可分辨关系，U 可划分为几个等价类，用 U/IND(I)表示。定义 3：约简定义为不含多余属性并保证分类正确的最小条件属性集。假设条件属性集 C 的简约是 C 的一个非空子集C

4、，C 和 C必须满足以下两个性质：（1）ind(C,D)=ind(C,D)，不存在 C C有 ind(C,D) =ind(C,D)。（2）一个决策表可能同时存在几个约简，C 的约简的集合记作 Red(C)。这些约简的交集定义为决策表的核(Core)，Core(C)=Red(C)核中的属性是影响分类的重要属性。定义 4：信息系统 S 中关于属性集 C 的区分矩阵 M（C）=(mij)nn 定义为：M(C)=(mij)nn 是代表了区分 xi，xj 的完整信息。2.2 关联规则关联规则是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构，通过

5、分析数据或记录间的关系，决定哪些事情将一起发生。定义 6：设 I = i1,i2,in是项的集合。包含 K 个项的项集称作 K 项集。设 D 是数据库记录的集合，其中每个事务 T 是项的集合，且 TI。设 X 是一个项集，事务 T包含 X 当且仅当 XT。3关联规则是形如 XY 的蕴涵式，这里 XI，YI，且 XY=。X 称为规则的左部或规则的前提（简记 LHS），Y 称为规则的右部或结论（简记 RHS）。度量规则的参数是支持度（Support）与置信度(Confidence)。支持度是指数据集中的实例同时包含条件属性与决策属性的共同概率，支持度揭示了规则的重要性。置信度表示实例在包含条件属性

6、的前提下，也包含决策属性的条件概率，它揭示了规则的可信度。在粗糙集理论中支持度与置信度可以表示为：其中 P(X)表示是指 X 在数据 D 中出现的概率，其余雷同。Support(XY)指 X、Y在 D 中同时出现的概率；Confidence(XY)表示在 X 出现的前提下 Y 出现的条件概率。如果得到的规则同时满足支持度不小于支持度阈值和置信度不小于置信度阈值，则该规则有意义。3 基于粗糙集的关联规则挖掘模型本文应用基于粗糙集的关联规则的挖掘过程分为三步：数据预处理，属性约简与关联规则的挖掘，见图 1。（1）数据预处理：通过对高校人事数据的初始信息进行数据清洗，缺失值处理，转换及数据选择，获取

7、初始信息表，且初始表转换为粗糙集形式，并明确条件属性集和决策属性；（2）属性约简：对条件属性进行约简，删除多余属性，用区分矩阵来完成约简和求核，在此基础上生成约简属性集；（3）关联规则挖掘：输入支持度阈值和置信度阈值，根据数据约简结果，利用粗糙集理论文献6中的算法，进行关联规则的挖掘。4图 1 基于粗糙集的关联规则模型4 基于粗糙集的数据挖掘技术在教师成长中的应用随着信息化在社会各方面的迅速普及，高校在近几年来已经掌握了大量的教师信息数据，并形成了相应的教师信息数据库。然而，面对如此海量的信息，高校管理者如何利用，如何从中发现对高校教师队伍建设有实际指导意义的规律，特别是如何才能将人才的引进及

8、培养与社会的需求正确结合?本文用数据挖掘技术在这方面做了一定的探索和研究，期望能得到一些有益的启示。下面本文就以高校教师成长信息为例（本文以职称教授及副教授作为高校人才成长的标志，根据参加工作时间的长短作划分为成长的快慢），说明基于粗糙集的关联规则挖掘算法的实施过程。根据上述构建的数据挖掘模型，利用启发式属性约简算法对高校教师数据进行约简。首先进行数据预处理，其次求出约简或近似约简，并在此基础上根据值约简等减少属性和个体数目，最后提取规则应用于新对象的分析和预测。1）数据预处理要用基于粗糙集的数据挖掘方法进行知识发现，就需要首先组织好数据表。本文以某高校教师数据，采用关系数据库模型，经关系数据

9、库的导入及连接并进行抽象、离散化等预处理。将影响教师成长的因素：性别、政治面貌、专业、第一学历、最高学历、毕业学校、年龄、学历变动、现聘职称、教学能力和科研能力作为系统的条件属性 C，而将教师的成长速度作为决策属性 D。通过属性选择与处理后的信息表示如表 1 所示：表 1 属性离散化表示5字段名称数据类型说明性别float(2)1-男，2女政治面貌float(2)划分为四个等级：1-党员、2-共青团员、3-群众、4 民主党派第一学历float(2)分为四个等级：1-博士、2-硕士、3-本科、4-本科以下最高学历float(2)分为四个等级：同上6毕业学校float(2)概化为三个等级：1-国外

10、高校、2-重点高校、3-普通高校现聘职称float(2)分为两个等级：1-教授、2-副教授评定年龄float(2)1-31，35、2-36，40、3-41，45、4-46，50、5-大于 50成长float(2)1-快、2-中、3-慢学历变动float(2)1-是、0-否7专业float(2)划分为两类：1理科、2文科教学能力float(2)离散化为三个等级：1-高、2-中、3-一般科研能力float(2)离散化为三个等级：1-高、2-中、3-一般以上划分等级的标准是根据以往实际经验和需要而确定，按表 1 的规则概化和离散化原始数据，得到预处理后的数据表如表 2 所示：表 2 预处理后的教师数

11、据属性UCD8性别专业政治面貌第一学历最高学历毕业学校现聘职称评定年龄学历变动教学能力科研能力成长192244322313332213322211013223211322211231411111212121221512332213113212227123433113412332282234322312322）属性约简Core = 毕业学校,评定年龄, 教学能力，科研能力，第一学历，然后通过计算属性重要性，得到性别、专业和政治面貌几乎为零，即性别、专业、政治面貌和最高学历与本决策表的决策几乎无关可以省略。因此得到的约简为 R=毕业学校,评定14年龄, 教学能力，科研能力，现聘职称, 第一

12、学历, 学历变动，最高学历。这样提高了后续规则提取的效率。3）关联规则挖掘根据上面得到的约简，通过属性之间的隐含关系来挖掘关联规则，给定支持度阈值 5%，置信度阈值 80%，可得到同时满足支持度阈值和置信度阈值的项目集生成的关联规则有：（1）（评定年龄 = 1）（毕业院校 = 2）=（成长 = 1）；（2）（第一学历 = 2）（科研能力 = 1 ）=（成长 = 1）；（3）(最高学历=3) (学历变动=1) (科研能力= 3) = (成长速度= 3)（4）(最高学历= 1) (教学能力= 2) = (成长速度= 1)；（5）(最高学历= 2) (教学能力= 3) = (成长速度= 2)；（6）

13、(毕业学校= 2) (评定年龄= 1) (科研能力= 3) =(成长速度 = 1)；（7）(现聘职称= 2) (第一学历= 4) (最高学历= 3) =(成长速度= 3)；（8）(第一学历= 3) (毕业学校= 3) = (成长速度= 2)；（9）(第一学历 = 2) (学历变动 = 1) = (成长 = 1)；对以上规则的解释如下：由第一条规则可知：毕业于重点高校的、第一学历是硕士的教师，评职称时在3035 岁之间，有 80%以上概率可以断定教师成长快；由第二条规则可知：学历为硕士，科研能力高，则可断定该教师的成长速度快；第三条规则说明如果通过进修最高学历才达到本科，有 82%的几率断定教师

14、的成长速度慢；第四条规则说明最高学历是博士，教学良好，则有 92%的几率断定教师成长速度快；第五条规则说明15最高学历是研究生且教学能力一般，则有 85%的概率断定教师的成长速度适中；第六条规则说明毕业学校是重点院校、年龄在 3135 岁之间、科研能力低，即有81%的概率断定该教师成长快速；由第七条规则说明职称是副教授、第一学历是本科以下且最高学历是本科，则有 82%的概率断定该教师成长速度慢；第八条规则表示第一学历是本科、毕业学校是普通高校，即有 82%的几率断定该教师成长速度适中；由第九条规则可知：第一学历是硕士的、学历提高的教师，成长速度快。由以上规则可以得出：第一学历、毕业学校、学历变

15、动、最高学历、科研能力、教学能力及年龄对教师成长的快慢有显著影响。第一学历是硕士的教师，科研能力较高的教师，属于成长速度快的类型；而第一学历在本科及本科以下的教师，在4145 岁才评上副教授，相对来说成长速度较慢（评为副教授的平均年龄是 38 岁左右）；而最高学历是博士，教学能力良好的教师，成长速度快；重点高校及国外高校毕业的教师，参加工作时间为 1014 年职称就被评为教授或副教授（评定副教授参加工作的平均时间为 16 年），其成长速度显然高于普通高校毕业生。因此，如果学校希望教师能够快速成长，则在人才引进时就要限制引进教师的毕业学校和第一学历。5 结束语粗糙集理论作为一种新型的数据挖掘工具

16、，已经很好的体现了它的优势。本文简要介绍了粗糙集理论的基本知识，应用基于粗糙集理论的关联规则挖掘算法对教师信息数据实例进行分析，挖掘出人才成长的相关要素，对高校人才引进与培养具有一定的指导意义。参考文献 1 WANG Jue，MIAO Duoqian. Analysision Attribute Reduction Strategies of Rough Set J .Journal of Computer science Technology, 1998, 13 (2) : 189-1932王国胤.Rough 集理论与知识获取M .西安：西安交通大学出版社，2001163Han Jiawei , Kamber M.Data Mining Concepts and TechniquesM . Morgan Kaufmann Publishers，20014白秀玲，崔林，王向阳.一种基于关联规则挖掘的粗糙集约简算法J .计算机

展开阅读全文

基于粗糙集的关联规则挖掘在教师成长中的应用

最新文档