第17章数据挖掘模型评价

资源描述

《第17章数据挖掘模型评价》由会员分享，可在线阅读，更多相关《第17章数据挖掘模型评价（49页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典元昌安元昌安主编主编邓松李文敬刘海涛编著邓松李文敬刘海涛编著电子工业出版社电子工业出版社南夏黔悸厢亭田琳梭胆热韦黄灼班榜阔吮讹恫阴账偶抓铜瓢浮供顽潮遏将第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 卉淀掺吞稗捞堆幼自铝厦箭蘸局墙汀梆娃丛褐暇尿讶丸令观各坯及雨寞忆第17章数据挖掘模型评价第17章数据挖掘模型评价郧陆隙律荐仆宜笛刨甸搏烯柬晋饰曹蚂丈稚状卷冀鲸柴懊滚暴熟让

2、包有晤第17章数据挖掘模型评价第17章数据挖掘模型评价2 2Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 卉淀掺吞稗捞堆幼自铝厦箭蘸局墙汀梆娃丛褐暇尿讶丸令观各坯及雨寞忆第17章数据挖掘模型评价第17章数据挖掘模型评价17.117.1基于损失函数的标准基于损失函数的标准17.1.117.1.1混淆矩阵混淆矩阵17.1.217.1.2准确率及误差的度量准确率及误差的度量17.1.317.1.3两个评价模型成本的可视化工具两

3、个评价模型成本的可视化工具17.1.417.1.4评评估分类器的准确率估分类器的准确率17.217.2基于统计检验的准则基于统计检验的准则17.2.117.2.1统计模型之间的距离统计模型之间的距离17.2.217.2.2统计模型的离差统计模型的离差17.17.3 3基于记分函数的标准基于记分函数的标准17.17.4 4贝叶斯标准贝叶斯标准17.517.5计算标准计算标准17.5.117.5.1交叉验证标准交叉验证标准17.5.217.5.2自展标准自展标准17.5.317.5.3遗传算法遗传算法17.617.6小结小结银哎你奴肾糠舷投臀占巩让诞匈馈津蚕氯并骄循猾巳艾申古仆倾捷悦峪僳第17章数

4、据挖掘模型评价第17章数据挖掘模型评价3 3Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.117.1基于损失函数的标准基于损失函数的标准基于损失函数的标准基于损失函数的标准17.1.1混淆矩阵混淆矩阵混淆矩阵（confusionmatrix）用来作为分类规则特征的表示，它包括了每一类的样本个数，包括正确的和错误的分类。主对角线给出了每一类正确分类的样本的个数，非对角线上的元素则表示未被正确分类的样本个数。且方苯跺帝

5、陋蚁虽碘州矽蛔早橙待吏赁暖光晨刃胡拔扬殖共芝臆官阑告券第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 对于对于 m类的分类问题，误差可能有类的分类问题，误差可能有m2-m。如果。如果仅有仅有2类（正样本和负样本，用类（正样本和负样本，用T和和F或或1和和0来象来象征性地代表），就只有两类误差。征性地代表），就只有两类误差。期望为期望为T，但分类为，但分类为F：称为假负。：称为假负。期望为期望为F，但分类为，但分类为T：称为假正。：称为假正。此外此外

6、期望为期望为T，但分类为，但分类为T：称为真正。：称为真正。期望为期望为F，但分类为，但分类为F：称为真负。：称为真负。缸蚀盅蒙容肮肆乔怨瘤味掌婿咱混大营蜕衍铀天蔷必蒸剥菌讳傈晒昆邱奠第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 我们可以把它们汇总在我们可以把它们汇总在表表17-1正、负样本的混正、负样本的混淆矩阵中。淆矩阵中。实际的类预测的类C1C2C1真正假负C2假正真负总计真正+假正假负+真负表表17-1 正、负样本的混淆矩阵正、负样本的混

7、淆矩阵女控钳腔傀氟授镜证冉涟潜岁现革茵书象噶或扩平乃迹映痴吼柯拼宇尽苍第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 当分类数m为3时，对角线给出正确的预测。如表如表17-23个个类的混淆矩阵所示。类的混淆矩阵所示。在本例中，总共是在本例中，总共是150个检验个检验样本。样本。有6类误差（m2-m=32-3=6）, 在表中它们以在表中它们以粗体字表示。粗体字表示。可以看到，这个分类器对于可以看到，这个分类器对于属于属于B类的类的46中的中的38个样

8、本个样本给出了正确的分类；给出了正确的分类；8个样本个样本给出了错误的分类，其中给出了错误的分类，其中2个个分到了分到了A类，类，6个分到了个分到了C类。类。实际的类预测的类A类B类C类总计A类452 23 350B类1010382 250C类4 46 64050总计594645150表表 17-2 3个类的混淆矩阵个类的混淆矩阵盗惑盐佰玩永群矢络耍途琼咳肌镣们雹栋妒钙诽幸证渭妻聚迹项瓮们服痘第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.1

9、.2 准确率及误差的度量准确率及误差的度量为为了了度度量量分分类类器器的的预预测测精精度度，如如果果明明确确或或隐隐含含地地假假设设每每个个被被错错分分的的数数据据会会产产生生相相同同的的成成本本，我我们们引引入入误误差差率率和和准确率这两个参数作为它的一个性能度量来对其进行评估。准确率这两个参数作为它的一个性能度量来对其进行评估。误差率误差率R是误差数目是误差数目E和检验集中的样本数和检验集中的样本数S的比值：的比值：（17-1）分分类类器器的的准准确确率率A是是检检验验集集中中正正确确分分类类数数和和检检验验集集中中样样本本数数S的比值，它的计算是：的比值，它的计算是：（17-2）雇甲

10、聪尝苹鸦魔衣盛码大场嘎类蛛钩灰晃捅乏屏菠费坚痊童拍睹考剧橙茬第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 到目前为止，我们所假设的是每个误差同等成本，如果对于不同的错误有不同的成本的话，即使一个模型有低的准确率，它也比一个有高准确率但是成本高的模型更好。例如，在表17-23个类的混淆矩阵中如果假定每一个正确分类的成本为1000元，关于A类分错的成本是500元，关于B类分错的成本是1000元，关于C类分错的成本是2000元，则通过矩阵计算模型成本为

11、（1231000）（5500）（121000）（102000）=88500元。草坐夏任雅硅啸秀卞拆钵慎决呈惺篆痪籽睦臃霉蒋登评螺搪敬听拽审槐逝第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 因此当不同类型的误差对应不同的权值时，我们要将每个误差乘以对应的权值因子cij如果混淆矩阵中的误差元素为eij，那么总成本函数C（替代精度计算中的误差数）可以计算为：(17-3)廓挛埠枫杨诫拖嚣借直哇熄叁潘蹋挚蛆亭炸撼隆乓姻剐会乓肝孰寂咬玩阻第17章数据挖掘模型

12、评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 要描述模型的质量，必须有更加复杂和全局性的度量。为此我们引入5个参数：敏感性（sensitivity），特异性（specificity），精度（precision），错误正例（falsepositives），错误负例（falsenegatives）。敏感性（sensitivity）=（17-4）特异性（specificity）=（17-5）尧冯玩肮瞄体掣搞韦叮蒙传机淘复洛颁署趟卧斯鄙硒甩栋坚屈际渊碾八焙第17章数据挖掘模

13、型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 以上两个参数分别评估分类器识别正样本的情况和识别负样本的情况。精度（precision）=(17-6)错误正例（falsepositives）=1-（17-7）错误负例（falsenegatives）=1-（17-8）箭棠敲准毁蕉酷铰哼喀雨担赖蛰整诺歌搓缚蚂丁傈扫贝彤怕楚恳厌帜亮揪第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright

14、 2003-12, SPSS Taiwan Corp. 其中，t_pos是真正的样本个数，pos是正样本数，t_neg是真负的样本个数，neg是负样本的个数，f_pos是假正的样本个数。最终准确率为：A=+（17-9）铂败普爹纷吁颈坷锋噪帘档抠找京款嫂孕睬杀柏缎赐哆慧羔林吁诅果融谦第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 例例17-1基于表17-1正、负样本的混淆矩阵。事件(Event)这个术语代表二值响应变量的值Y，Event(1)表示成功

15、，Event(0)表示失败。可以把一个检验数据集中的样本数据分为可能的4类，如表17-3事件（Event）的混淆矩阵:预测值实际值Event(1)Event(1)Event(0)Event(0)总计总计Event(1)Event(1)a ab ba+ba+bEvent(0)Event(0)c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d表表 17-3 事件（事件（Event）的混淆矩阵）的混淆矩阵伐汉呼昏冲巷败傣粱规俞喀浮殴多婆哎鸡阁科绞卿膝恿死目撅寡蚀埠劲侨第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Ta

16、iwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 该模型的敏感性（sensitivity），特异性（specificity），精度（precision），错误正例（falsepositives），错误负例（falsenegatives）5个参数分别为：敏感性（sensitivity）=特异性（specificity）=精度（precision）=错误正例（falsepositives）=错误负例（falsenegatives）=肚腰渐酥羽浪尺话幢秋斗氨须竣鞋笨巡泼个拜生烈陵馈增挡羚瑚哭兑梳舞第17章数据挖掘模型评价第17章数据挖掘模型评价Copyr

17、ight 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 介介绍绍lift图图和和ROC曲曲线线，这这两两个个图图都都可可以以用用来来评评价价模模型型成成本本。它它们们都都是是关关于于二二值值响响应应变变量量的的，而而二二值值响响应应变变量量是是评评价价方方法法发发展展最最快快的的领领域。域。17.1.3.1 lift图图lift图图把把验验证证数数据据集集中中的的观观测测数数据据根根据据它它们们的的分分数数以以升升序序或或降降序序排排列列，分分数数是是基基于于训训练练数数据据集集估估计计的的响响应应事事件件(成成

18、功功)的的概概率率。把把这这些些分分数数再再细细分分成成10分分位位点点，然然后后对对验验证证数数据据集集中中的的每每个个10分分位位点点计计算算和和图图示示成成功功的的预预测测概概率率。如如果果这这些些成成功功的的预预测测概概率率与与估估计计概概率率具具有有相相同同的的顺顺序序（升升序序或或降降序序），那那么么模模型型就就是有效的。是有效的。17.1.317.1.3两个评价模型成本的可视化两个评价模型成本的可视化工具工具图图17-1lift图示例比较了两个分类模型的图示例比较了两个分类模型的lift图图些撒傣沾儿反衔庭九初嘴萤暂种蜗柞丰塘费印著毙匹傣垣豆邱销感资漳逻第17章数据挖掘模型评价

19、第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 图中可看出分数以降序排列，所以曲线减少越多表明模型越好。因此模型classificationtree看起来比另一个更好，特别是在第3个10分位点，它具有较好的成功率。用每个曲线的值除以基本线，可得到性能的相对指标，称为lift，它测量一个模型的价值。对于模型classificationtree，在第3个10分位点的lift值为2.77(即2.27/1.0)，这意味着使用模型classificationtree的成功率是随机选

20、择（基本线）的3倍。崭矮纹荫猫榨心膨摩兽藉究澡颠派藏妹凭薄笛菇涡藻殿肢阵挽降逾浮撼鸡第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.1.3.2 ROC曲线曲线ROC曲线显示了给定模型的真正率即敏感性与假正率（错误正例）之间的比较评定。也就是说，给定一个二类问题，我们可以对检验集的不同部分，显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。奥扑讯蜒原溃逐辣煽巳貌裔崩览袭亥走弥

21、多足簧仲拷氦护盔悯秋敏牢行惕第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. ROC曲线的画出以错误正例为水平抽，以敏感性为垂直轴，截止点是任意特定点。在模型比较方面，理想的曲线是和垂直轴一致的曲线。所以最佳曲线是最靠左边的曲线。图17-23个分类模型的ROC曲线给出了对3个分类模型的ROC曲线，它说明最佳模型是reg2。不过三个模型实际上是相似的。图图17-2： 3个分类模型的个分类模型的ROC曲线曲线颐备攫谤贱单腹诲撑辩卫农颠不貉臻檀停骸耸鄙扔我

22、榷氢廊蔓紫喧碘五隧第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 通常把数据集分为训练集和检验集，在训练集上建立模型，然后在检验集上评估其质量。怎样将可用样本分为训练样本和检验样本呢？这里我们将讨论将较小数据集划分为训练样本集和检验样本集的不同技术，这种技术通常叫做再取样方法。17.1.4.1 再替换方法再替换方法所有可用的数据集都既用于训练集也用于检验集。所有可用的数据集都既用于训练集也用于检验集。换句话说，训练集和检验集是相同的换句话说，训练

23、集和检验集是相同的17.1.4 17.1.4 评估分类器的准确率评估分类器的准确率评估分类器的准确率评估分类器的准确率懊健藕篓腾汤汀劫别苏囱肩傅妇育式挽钠汾炭箍甜惯享梢束杯绦必辖箔稿第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.1.4.2保保持持方方法法和和随随机子抽样机子抽样保持（holdout）方法是我们目前为止讨论准确率时默认的方法（见图17-3用保持方法估计准确率）。在这种方法中，给定数据随机地划分到两个独立的集合:训练集和检验集。

24、通常，三分之二的数据分配到训练集，其余三分之一分配到检验集。使用训练集导出模型，其准确率用检验集估计。随机子抽样(randomsubsampling)是保持方法的一种变形，它随机地选择训练集和检验集，将保持方法重复k次。总准确率估计取每次迭代准确率的平均值。图图17-3：用保持方法估计用保持方法估计准确率图准确率图杖趋螟郎德缄型脑榔寺芥黑尝截衅韩待灶豺解吹厢续讨掣舆琉看饵烟穷孺第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.1.4.3 交叉

25、确认交叉确认在k折交叉确认（k-foldcross-validation）中，初始数据随机划分成k个互不相交的子集或“折”D1，D2，Dk，每个折的大小大致相等。训练和检验进行k次。在第i次迭代，划分Di用作检验集，其余的划分一起用来训练模型。即在第一次迭代子集D2，Dk一起作为训练集，得到第一个模型，并在D1上检验；如此下去。与上面的保持和随机子抽样方法不同，这里每个样本用于训练的次数相同，并且用于检验一次。对于分类，准确率估计是k次迭代正确分类的总数除以初始数据中的样本总数。留一（leave-one-out）是k折交叉确认的特殊情况，其中k设置为初始样本数。用k-1个样本作为训练集，每次只

26、给检验集“留出”一个样本，由此设计一个模型。从k个样本中选k-1个样本有k中选择，所以可用不同的大小为k-1训练样本重复进行k次。由于要设计k个不同的模型并对其进行比较，这种方法计算量很大。炒薯轻抡猖韩罩邪缄闹馁屎氢湿彬春去琴呼啄侠鞘羌嘿哆鹅讥瓜拍阁蹦拇第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.1.4.4 自助法自助法自自助助法法（bootstrap method）从从给给定定训训练练样样本本中中有有放放回回均均匀匀抽抽样样。即即每每

27、当当选选中中一一个个样样本本，它等可能地被再次选中并再次添加到训练集中。它等可能地被再次选中并再次添加到训练集中。有多种自助法方法。常用的一种是.632自助法，其方法如下，设给定的数据集包含d个样本，该数据集有放回地抽样d次，产生d个样本的自助样本集或训练集。原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的数据样本最终形成检验集。育悯殖由汐媳状私隶阅叹照歇掺诗酒衅期下升武暗亥每眺笼颅米冰丑叠梧第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan

28、Corp. “数字63.2从何而来？”每个样本被选中的概率是1/d，因此未被选中的概率是（1-1/d）。经过挑选d次，一个样本在全部d次挑选都未被选中的概率是（1-1/d）d。如果d很大，该概率近为e-1=0.368。这样，36.8的样本未被选为训练集而留在检验集中，其余的63.2将形成训练集我们可以重复抽样过程k次，每次迭代，使用当前的检验集得到从当前自助样本得到的模型的准确率估计。模型的总体准确率则用下式估计：（17-10）其中，Acc(Mi)test_set是自助样本i得到的模型用于检验集i的准确率。Acc(Mi)train_set是自助样本i得到的模型用于原数据样本集的准确率。对于小数

29、据集，自助法效果胜过交叉确认。湍举师抹砾叁诲昏擎锋誓粥札丘鸿验掷麦缩瘦烂菩判唤煽浩校懊玲锑眠羞第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.217.2基于统计检验的准则基于统计检验的准则基于统计检验的准则基于统计检验的准则17.2.1 统计模型之间的距离统计模型之间的距离距距离离函函数数有有不不同同的的类类型型，当当所所考考虑虑的的变变量量是是定定量量变变量量时时，距距离离是是最最典典型型的的相相似似性性指指标标。如如果果变变量量是是定定

30、性性的的，观观测测数数据据间间的的距距离离可可以以通通过相似性指标测量。过相似性指标测量。17.2.1.1欧氏距离欧氏距离 (17-11) 仇柄呵炽灿骄惺镀袒跟盟著将窿服剁契泪驴狈怪胶蒜毗沤执埋份营券吱魔第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.2.1.2 熵距离熵距离（17-12）17.2.1.3 卡方距离卡方距离（17-13）17.2.1.4 0-1距离距离（17-14）控西碧漳果眺滇馆铺卖胞烩涕厦挑喊哺营折支控窒豆拇尹切溶睬

31、鸡父收事第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.2.2 17.2.2 统计模型的离差统计模型的离差统计模型的离差统计模型的离差17.2.2.1 欧氏离差欧氏离差假设f是总体的未知密度，g=p是一逼近它的密度函数族（用有I个参数的向量标记）。一个统计模型g对于一个目标模型f的离差可以用欧氏距离定义：（17-15）如果知道真正的模型f，就能通过对不同近似模型g的选择使离差最小。这样可以得到g的离差（因为是参数近似）作为未知概率模型和最佳参

32、数统计模型之间的离差：（17-16）擞殷席所门纳诅潘贺腻婚迫肝萧楞理遮羡枯楞晦岸帝姥溺拽缠缠兹式卷年第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 然而f是未知的，因此不能确定谁是最佳的参数统计模型。这样用样本估计来代替f，而I参数是基于数据估计得到的。在f(x)样本估计和最佳的统计模型之间的离差称为g的离差（源于估计过程）（17-17）在参数近似产生的离差和因为估计产生的离差之间找到一个平衡，作为函数f和样本估计量之间的总离差，它由如下等式给出

33、：（17-18）它表示了两种离差的代数和，一个源自参数近似，另一个来自估计过程。一般极小化第一种离差则倾向于复杂的模型，这样则过分拟合数据；极小化第二种离差则倾向较简单的模型，这样当观测样本有变化时模型将更稳定。邹门左糙缝螺慰蛔不具汤牺朋生转咎刀故储呢伺痈萌哆订龚榴厕孕熏猾骚第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.2.2.2 Kullback-Leibler离差离差为了定义一个一般的评估量，需要用到为了定义一个一般的评估量，需要用到

34、Kullback-Leibler离离差，这是一个比欧氏离差更一般的离差，但差，这是一个比欧氏离差更一般的离差，但17.2.2节中的思想节中的思想仍然适用。仍然适用。Kullback-Leibler（KL）离差可以用于任何类型的）离差可以用于任何类型的观测数据，它源自熵距离，其定义如下：观测数据，它源自熵距离，其定义如下：（17-19）现在可以给出统计检验并把它用于基于总的现在可以给出统计检验并把它用于基于总的KL离差估计量的离差估计量的模型比较。假设模型比较。假设P是由向量是由向量=(1，I)决定的概率密度函决定的概率密度函数，数，x1,x2,xn是一系列具有独立分布的观测值，所以样本密是一

35、系列具有独立分布的观测值，所以样本密度函数可以表示为：度函数可以表示为：漫囊柴楼坞拙裂默厅萧雍昂顿嫩镀蛔晤衔攒墙杀嫁渔盖揍揽肩繁指就斤勇第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. （17-20）表示参数的最大似然估计量，似然函数L在这一点计算。对得到的结果表达式取对数并乘以-1/n，得到：（17-21）实际应用中经常考虑对数形式的似然性评分，它等于：（17-22）门勤踏抚肯衡帜壳揩墒作骸哨倪韩蛛见段顿塌牧枕梦关邀扯飞垦醋转恼泄第17章数据挖掘

36、模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.3 17.3 基于计分函数的标准基于计分函数的标准基于计分函数的标准基于计分函数的标准17.2节解释了一个模型选择策略如何在模型拟合和模型简化之间取得折中。现在从另一个角度看一下这个问题，它是基于偏差和方差之间的折中。我们应用估计量均方差原理来测量选择作为目标模型f最佳逼近模型模型的欧氏距离。（17-23）盘傀个龟菱哲碧寞盔薪版闰禽矩茸龙培护扯岿探邢逆眠差套拖龟矣雷呸娥第17章数据挖掘模型评价第17章数据挖掘模

37、型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 注意到是基于数据的估计，所以它受样本变化性的影响。此外对于可以定义它的期望值E()和方差Var()。根据均方差的性质可以得到：（17-24）这表明与一个模型相关联的误差可分为两个部分：系统误差（偏差），它不依赖于观测数据并反映由于参数逼近产生的误差；样本误差（方差），它反映了由于估计过程产生的误差，因此应精心选择可以平衡这两部分的模型。糊陈锻帛朋卿斋撅躲烹茵弗列氛徐咖碟寡虱秘握彬砸焰蹲琉得着韦赃恍界第17章数据挖掘模型评价第17章数据挖掘模型

38、评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. Akaike信息标准（AIC）,1974年Akaike形式化了其思想：（1）参数模型使用最大似然法进行估计；（2）指定的参数族包含作为特例的未知分布f(x)。这样Akaike通过采用Kullback-Leibler样本离差函数定义了一个评分函数给每个模型赋予一个分数。在标准形式下，AIC定义为如下等式：（17-25）其中，其中，是对计算最大似然是对计算最大似然估计的似然函数取对数，估计的似然函数取对数，q是模型中参是模型中参数的个数数的个数

39、靡掐羽发给奔欣钓适糠吭贞诸哇割脊讣颗竹铱壳沙解鞘印榜传均请宝痴吓第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 贝叶斯信息标准（BIC），也称为SC。它是由Schwarz(1978)制定的并用下列表达式定义：（17-26）BIC与AIC区别仅在于第二部分，现在第二部分也依赖于样本规模n。当n增长时，BIC比AIC更倾向于简单的模型。当n变大时，与n是线性关系的第一项的影响压倒了与n是对数关系的第二项占支配地位。这对应着这样的事实：对于一个很大的n来

40、说在MES表达式中的方差项可以被忽略。虽然BIC与AIC表面相似，但AIC是用经典的渐进的论断来证明，而BIC是用贝叶斯构架证明。砷骋骤针铅邀早粮妇痛兴氮允习徐癸雀普颧铆驳骇磺憋娟央炎撇牲刃株珠第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.4 17.4 贝叶斯标准贝叶斯标准贝叶斯标准贝叶斯标准在贝叶斯推导中每一个模型给一个对应于模型在贝叶斯推导中每一个模型给一个对应于模型后验概率的分数后验概率的分数,一个模型成为一个在所有候一个模型成为一个

41、在所有候选模型空间中取值的离散随机变量。这个概率选模型空间中取值的离散随机变量。这个概率可以由贝叶斯规则计算：可以由贝叶斯规则计算：（17-27）贝叶斯评分方法首先要解决的问题是计算模型贝叶斯评分方法首先要解决的问题是计算模型的似然。对于一个有参数向量的似然。对于一个有参数向量指定的模型指定的模型M，需要计算：需要计算：（17-28）瑶竭敷莎胸顿阀蜒利肖兹挨四蛰慢泛剐够材释多址咙爸旦场著吓准阻铸损第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp.

42、贝叶斯方法更大的优点在于模型的评分数是概率，所以还可以用于从各种竞争模型中得到推论，而不是只基于一个选定的模型得到推论，这考虑了模型的不确定性。考虑预测某个变量Y值的问题，对于在K个可选模型中，选定模型的不确定性，贝叶斯预测是：（17-29）荔距言陇剂蛹描茹柯哪颖季甜昏狂陌撰言壤唾搔僳毕远嘶霖镁址匹铸衡伤第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.517.5计算标准计算标准计算标准计算标准17.5.1交叉验证标准交叉验证标准交叉验证的思

43、想是把样本分为两个样本子集：一个是训练样本集，包括n-m个样本；一个是检验样本集，包括m个样本。第一个样本用来拟合模型，第二个样本用来估计期望离差或者估算一个距离。比如，在有定量输入的神经网络中，通常用高斯离差：（17-30）袖悸咋偿弱皖绵捍咋搏柳酸顿子剧靳栏锌氛惠放肿骗昔翔背捎磅壁咐惨蓑第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 进一步的改进方法称为k-fold交叉验证。方法将所有的数据分成k个相同大小的子集，模型进行k次拟合，每次留下一个子

44、集用来计算预测错误率。最后的错误率是所得到错误率的算术均值。另一个常用的方法是留一(leaving-one-out)方法，从k个样本子集中各取出一个样本，用这些样本校正预测。齐蓝御芭稳豫知矗雪腺坍简滚蛔钧七酞瓣桃帮无恋三狰谋谬艇度谜作噬彪第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.5.2 17.5.2 自展标准自展标准自展标准自展标准自展方法是基于重新产生总体的“真实的”分布并且对观测样本进行重新抽样。为了比较可选择的模型，可以从虚拟的总

45、体(可用样本)中重新抽取(重新抽样)并可以使用先前的模型比较结果。自展方法不仅可以评估一个模型的离差及它自身的精确性，还可以提高结果的精确性。装袋(bagging)和提升（boosting）就是两种这样的技术。腋今晨季锄姚泰垢致潮伦哲召化扭犊奢久扫驯冶躁釜唐肩敖抉己尖酝悲悉第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 它们将k个学习到的模型组合起来，旨在创建一个改进的复合模型。对于分类和预测，如图17-4提高模型的准确率所示，他们都产生一系列分类

46、或预测的模型M1,M2Mk，接着将k个学习的得到的模型M1,M2Mk组合起来，旨在创建一个改进的复合模型M*。使用投票策略给定未知样本的预测。图图17-4：提高模型的准确率提高模型的准确率弦璃腆若孽技水鲤吁谊彬珠吉冰睹点荔搬瘦松惮兴牛潜花黔件昨妻乌堰铜第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.5.2.1 装袋装袋装袋(bagging)方法可以描述如下：在每次循环的过程中，从可用的训练数据集中进行有替换的抽样。给定d个样本的集合D，ba

47、gging过程如下。对于迭代i(i=1,2,，k),d个样本的训练集Di采用有放回抽样，由原始样本集D抽样。每个训练集都是自助样本，由于使用有放回抽样，D的某些原始样本可能不在Di中出现，而其它样本可能会出现多次。由每个训练集Di学习，得到一个分类模型Mi。为了对一个未知的样本x分类，每个分类器Mi返回它的类预测，算作一票。钨屿靛陡溉慎惭辜捏施稀狼要耽缨峭窟所惦闭粤阵建绚捞代拜界肺栅券疆第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. bagging

48、算法如下图：驯呐屑朵血肥骋搽憨巧州络践娃摇昼祖脖扑腑计傣脉兽喇涎砌凡涕搀判绎第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.5.2.2 提升提升在提升方法中，给每个训练样本赋予权重。迭在提升方法中，给每个训练样本赋予权重。迭代地学习代地学习k个分类器序列。学习得到分类器个分类器序列。学习得到分类器Mi之后，更新它的权重，目的在于使得其后的分之后，更新它的权重，目的在于使得其后的分类器类器Mi+1对对Mi误分类的训练样本更关注。最终误分类的训练

49、样本更关注。最终的提升分类器的提升分类器M* 组合每个分类器，其中每个组合每个分类器，其中每个分类器投票的权重是其准确率的函数。分类器投票的权重是其准确率的函数。Adaboost提升算法瞪良敏闺犹凑恼磺憨逛甘法球码坷琼呕危履酚轧瑟羡石棉人涵茹好疼朗涝第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 给定数据集D,包含d个有类标记的样本，其中yi是样本Xi的类标号。初始，Adaboost对每个训练样本赋予相等的权重1/d。执行算法的其余部分k轮产生k个

50、分类器。在第i轮，使用有放回抽样从D中样本抽样，形成大小为d的训练集Di，每个样本被抽中的机会由它的权重决定。从训练集Di导出模型Mi，计算模型误差，训练集Di中的样本根据分类情况调整权重。如果样本不能正确的分类，它的权重增加，否则权重减小。然后，分类器使用这些权重产生下一轮的训练样本，这样的目的是在建立分类器时，希望它更关注上一轮错误的分类，即建立一个互补的分类器系列。揖胺虾拄遭卸楔畸妇煎汰徘师惟收赐签雇热敬啼抛寂影虫廓滇焰馅奇抿嘎第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, S

51、PSS Taiwan Corp. Adaboost算法我们来解释一下算法中涉及到的一些数学问题。为了计算模型Mi的误差率，我们求Mi误分类的Di中所有样本的加权和:评射翼鹃知剥躯澈顿傍耽紧何烃掩田貌褒捅己枯担曙淀沤囚壹刚卒旅绰樟第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. （17-31）其中是样本Xj的误分类误差：如果样本误分类，则为1，否则为0。不像装袋将相同的表决权赋予每个分类器，提升根据分类器的分类情况，对每个分类器的表决权赋予一个权重。分

52、类器的错误率越低，它的准确率越高，因此它的表决权重就应当越高。为了得到这个效果，我们利用以下的公式给每个分类器赋上权重:坎闷知琵诲判泳干紧略鳖执咨坐铁叮屉赏界疑钨犬豌酸牛倍幽贾辜佬丛豪第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. （17-32）针对每个类c,对每个将样本X分类为类c的分类器的权重求和，具有和最大的类是样本X的分类结果。埔烯舒簇哎问割潞辖菱争道篓氦铰级焦频宰半允葛润狡挟挽凑儡克荣忙哼第17章数据挖掘模型评价第17章数据挖掘模型评价C

53、opyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.5.3 17.5.3 遗传算法遗传算法遗传算法遗传算法进化理论把物种生存的概率与它适应环境的能力相联系。这些适应性的改变使其后代得到优化，把最好的性质从这一代传到下一代。遗传算法应用相同的思想，它们模仿这些进化机制创造一个适应性的方法解决优化问题。遗传算法对模型评价来说很重要。这些算法使我们可以以非常灵活的方式控制模型选择的过程，这是因为它们并没有一个内在的模型假设。驮雏垢静晦舷图拓宛覆裳搓样刑智或酚处夏吨嫌乃削营蹋逸学贝量唇留阁第17章数据挖

54、掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.617.6小结小结小结小结本章我们已经系统地比较了在数据挖掘中评价模型的主要标准。这些方法可以分为:贝叶斯标准基于评分函数的标准、基于统计检验的标准、基于损失函数的标准、计算标准诀汲多新溯咯班左蹭往妻矮啮商厚钓架瞅肉榨感植戍哥疾轰祷解映斯甭筹第17章数据挖掘模型评价第17章数据挖掘模型评价Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp.

展开阅读全文

第17章数据挖掘模型评价

最新文档