心理测量中数据挖掘课件

资源描述

《心理测量中数据挖掘课件》由会员分享，可在线阅读，更多相关《心理测量中数据挖掘课件（109页珍藏版）》请在金锄头文库上搜索。

1、心理测量中的数据挖掘关联规则和决策树,余嘉元,目录,2013.5,数据挖掘技术概述,关联规则,2,决策树,3,来华留学生跨文化适应性测量的数据挖掘,4,我最喜欢的人之一：戴海琦老师中国心理测量的领军人物之一。我最害怕的人之一：戴海琦老师我总是跟不上他豪迈的步伐！,1、数据挖掘技术概述,1.1 数据挖掘概念现代社会，充满了数据但并非所有数据都是完全的许多数据还受到随机因素的影响例如奥巴马、金正恩、禽流感人们希望从数据中找到有规律的知识这就是数据挖掘。,1989年，从数据库中发现知识(KDD) 从大量的、不完全的、有噪声的数据中发现隐含在数据中的关系，提取具有价值、能被

2、理解的知识的过程。,前提条件：数据必须是真实的、大量的、含噪声的发现的是研究者感兴趣的知识；发现的知识要可接受、可理解、可运用。它是针对特定问题的，并不要求发现放之四海皆准的知识。,数据挖掘（Data Mining）是知识发现中最核心的部分，有时会不加区别的使用“数据挖掘” 和“知识发现”这两个词。,数据挖掘技术涉及到人工智能、数据库、统计学、模式识别、信息检索等多学科，是一门交叉性的学科。,数据挖掘的任务：数据总结：对数据进行压缩；分类和预测：建立一个分类函数或分类模型；发现关联规则：从数据库中发现那些置信度(Confidence ) 和支持度(Support

3、 )都大于给定值的稳健(Robust) 规则；,聚类分析：使得属于同一个类别的个体之间的距离尽可能小，而使不同类别个体之间的距离尽可能大，把一组个体按照相似性进行归类；以及孤立点分析、演变分析等任务。,1.2 数据挖掘的方法（1）分类方法：决策树前馈神经网络（BP网络、RBF网络）基于规则的方法（AQ算法、C4.5rule）支持向量机贝叶斯分类粗糙集,（2）聚类方法划分聚类（k-means算法）层次聚类基于密度的聚类 Kohonen聚类（自组织特征映射）,（3）关联分析频繁项集挖掘算法（Apriori算法）关联规则生成算法,1.3 数据挖掘过程（1）数据准

4、备数据选择、数据预处理及数据类型转换其中的数据预处理工作至关重要，也称为数据清洗，目的是消除或减少噪声。,包括数据清理、合并、离散化等。数据清理主要是删除重复记录的数据，查找错误的属性值，利用均值等方式填补缺失值，识别和删除孤立点，平滑噪声数据（脏数据）。,数据离散化主要是将连续性质的属性值采用区间的标记来替代实际的数据值，即用区间标记替换连续属性的数值。,（2）选择算法根据数据挖掘的目的，如数据分类、聚类、关联规则发现等，选择相应的挖掘算法。,（3）对模式进行评估对于冗余或无关的模式进行剔除；对于不满足实际要求的模式，返回到前面的阶段，重新选择数据、采用

5、新的数据变换方法、设定新的参数值，甚至变换挖掘算法等。,2、关联规则,为了考察两个变量线性相关的密切程度，通常采用相关系数对变量间关系进行度量。关联规则比相关系数能够得到更多信息，可以量化相互关系中两者的出现概率，以及前者出现对后者出现的影响率。,即一个事件的出现时，另一事件出现的概率有多大，如果概率较大，则前后两者的关系接近因果关系，因此比相关分析的结果更有意义。,相关系数的缺点：作为线性关联的度量，不便于描述非线性关系，且非线性关系与变量分布有关，计算方法也不同。,对于不同类型的数据，需要采用不同的相关系数。等距变量：Pearson相关系数；两个等级变量：S

6、pearman相关系数多个等级变量：Kendall和谐系数。采用不同方法得到的相关系数无法比较，关联规则可以在一定程度上解决该问题。,2.1 关联规则方法的基本概念关联规则是由Agrawal(1993) 提出，最初提出的动机是针对购物篮分析问题，目的是从交易数据库中发现顾客购物的行为规则。,关联是指两个或多个变量的取值之间存在某种规律性，关联规则是描述两个或多个变量之间某种潜在关系的规则。,实例：超市每周的交易记录称为事务，每一条事务都记录了一次交易中所销售的商品（称为项目）。因此管理者可了解本周各项目的销售量，还可发现哪些项目经常被顾客同时购买。,表1 样本数据D,定义

7、：项目全集 I = i1, i2, im ，是本周销售的所有项目的集合，在本例中，I=啤酒，果冻，面包，奶油，花生酱。,定义：事务t是某个客户在一次交易中所购项目的集合，并且t I，在本例中，t1=面包，果冻，花生酱。对应每一个事务有唯一的标识，记作tid。,定义：事务集（事务数据库） D=t1,t2,tn是一系列的事务组成。定义：项目集是包含若干个项目的集合。定义：项目集维数是一个项目集中包含的项目的个数，也称为项目集长度。对于长度为k的项目集，称为k-项目集。,支持度（support）：设X是I中的一个项目集（即X I）， D是一个事务集，那么称D中包含项目集X的事务个

8、数与D中总的事务个数之比称为 X在D中的支持度，记做support (X)， support (X)=,支持度用于发现频率出现较大的项目集，即“某个项目集相对总事务所占的比重”。在本例中，假设项目集X=面包，花生酱，则在D中包含X的事务有t1，t2和t3，因为D中总的事务个数为5，故X在D中的支持度为60%。,定义：最小支持度（minsup）：由用户定义的可以接受的支持度的阈值。定义：对于项目集X，如果它的支持度不小于最小支持度，则称X为频繁项目集。,只有从频繁项目集得到的关联规则才是有价值的。在本例中，假设minsup=40%，项目集X=面包，花生酱在D中的支持度为

9、60%，因此X是频繁项目集。,置信度（confidence）：对于关联规则XY，其中X和Y都是项目集，定义该规则的置信度为事务集合D中既包含X也包含Y的事务个数与D中包含X的事务个数之比，即项目集XY的支持度与X的支持度之比。,置信度应用于在频繁项目集中发现频率较大的规则。,在本例中，项目集X=面包，花生酱是频繁项目集，因此可以在其中寻找关联规则 “面包花生酱”和“花生酱面包”。,对于规则“面包花生酱”， Support（XY）=3/5=60%， Support（X）=4/5=80%，于是Confidence（XY）=60%/80%=6/8=3/4=0.75%，它表示这条

10、规则的可信度，即“买面包的顾客中有75%同时也买了花生酱”。,对于规则“花生酱面包”， Support（XY）=3/5=60%， Support（X）=3/5=60%， Confidence（XY）=60%/60%=100%，它表示这条规则的可信度，即“买花生酱的顾客中100%同时也买了面包”。,最小置信度：用户定义的一个置信度阈值，表示对于规则可以接受的最低可靠性。,给定一个事务集D，挖掘关联规则就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则。支持度用于衡量关联规则在整个数据集中的统计重要性，置信度用于衡量关联规则的可信度。,2.2 关联规则挖掘过程（1

11、）挖掘频繁项目集依据用户给定的最小支持度，寻找所有的频繁项目集。,（2）生成关联规则使用频繁项目集生成置信度大于等于最小置信度的关联规则。上述步骤（2）比较简单，而步骤（1）是一个NP问题，当项目数量较大时，要穷尽地搜索每一个频繁子集，是非常困难的问题，因此提出了许多算法。,2.3 频繁项集挖掘算法 Apriori算法：Agrawal（1994）提出，它使用宽度优先的迭代搜索方法。,首先是统计所有含一个元素的项集出现的频率，找出频繁1-项集集合F1，再用F1找频繁2-项集集合F2，再用F2找F3，依次循环，直到不能找到频繁k -项集为止。,算法的核心部分是 apriori_gen(

12、Fk-1 ) 函数，该函数的输入参数为(k-1) -项集集合Fk-1，输出结果为候选k-项集集合Ck。扫描数据库并计算Ck中候选k-项集的支持度。,3、决策树,3.1 数据分类数据分类是从过去已分类的数据经验中学习各个类别的区别，建立模型，或者对未知类别的数据进行分类。决策树是一种重要的分类方法。,3.2.1 决策树的概念决策树是以实例为基础的归纳学习算法，采用自顶而下的递归方式，从根结点的每一条路径就是一条合取规则，整个决策树就是一组析取表达式规则。,决策树由决策结点、分支和叶子组成，以树型结构（二叉树或多分支树）表示最终分类结果，生成If-Then形式的规则。其

13、中叶结点是类名，中间结点是带有分支的属性，该分支对应该属性的某一可能值。,多分支树二叉树,表2 顾客购买计算机的数据库,决策树的核心思想是根据对象的属性值将其进行划分，那么选择哪一个属性进行划分？接着再选择哪一个属性进行划分？因为任何一个属性都可以用来对数据集进行划分，但最后形成的决策树差异很大，有的非常简洁，有的却很臃肿。因此要寻找最优的属性选择方法。,3.2.2 分类回归树（CART）的构造 CART（Classification and Regression Tree）是一种有监督的学习算法，在使用CART 进行预测之前，必须先提供一个学习样本集对CART进行建构和评估

14、，然后才能使用。,样本集结构如下： L: = X1 , X2 , , Xm , Y X1: = ( x11 , x 12 , , x 1t ), , ( xm1, xm2 , , xmt ) Y: = ( y1 , y2 , , yk ) 其中， X1 Xm 称为属性向量， Y 称为标签向量，属性可以是连续的也可以是离散的。 X1 Xm 代表心理测量中的自变量， Y 代表因变量。,根据给定的样本集L 构建分类决策树Tmax，使得Tmax中每一个叶节点要么很小；要么是纯节点（节点内部样本的Y 属于同一个类）；要么只有唯一属性向量作为分支选择。,该算法的核心是确定决策树的分支准则：如何从众多

15、的输入变量中选择一个最佳的分组变量；如何从分组变量的众多取值中找到一个最佳的分割阈值。,该算法引入了差异系数的概念，即采用Gini系数计算从相同的总体中随机选择的两个样本来自于不同类别的概率，它反映了信息的纯度。,式中： c 是数据集/子集Dj 中决策类的个数， pi 是第 i 个决策类在 D 中的比例。,在本例中，对于数据集D，它的Gini系数为：,对于任意一个属性，如果将数据集划分成多个数据子集，把未进行划分时的数据集的Gini系数与划分后数据子集的Gini系数加权和的差称为信息增益G（A）：,其中，A是候选属性，k是该属性的分支数； D是未使用A进行划分时的数据集， Gini

16、（D）是数据集D的Gini系数， Dj是由A划分而成的子数据集。在所有属性中信息增益G (A)为最大的属性就选为当前进行划分的结点。,在本例中，如果根据年龄来划分，可以分为3个子集，它们的Gini系数分别为,于是可计算属性“年龄”的信息增益为：,采用类似的方法，可以计算属性“学生”的信息增益为：,采用类似的方法，还可以计算属性“收入”、“信用等级”的信息增益，然后从所有属性中找到信息增益最大的属性，将它作为划分的对象。,3.2.4决策树的剪枝如果建立的决策树的构造过于复杂，则对应的知识规则将是难以理解和应用的，因此对于决策树的建立，不仅需要考虑分类的正确性，还要考虑决策树的复杂程度，即在保证一定的分类正确率条件下，决策树越简单越好。,最常用的决策树简化方法就是剪枝，包括预剪枝与后剪枝。预剪枝是预先设定某一相关阈值，决策树达到该阈值

展开阅读全文