AUC-Gini-协同过滤－金锄头文库

资源描述

《AUC-Gini-协同过滤》由会员分享，可在线阅读，更多相关《AUC-Gini-协同过滤（9页珍藏版）》请在金锄头文库上搜索。

1、AUCAUO一种用来度量分类模型好坏的一个标准。通常,AUC勺值介于0.5到1.0之间，较大的AUC代表了较好的分类模型AUC0.5的情况下：AUCft0.50.7时有较低准确性；AUCft0.70.9时有一定准确性；AUCft0.9以上时有较高准确性；AUCffi接近于1,说明诊断效果越好。其实，AUC勺值就是处于ROC曲线下方的那部分面积的大小。ROa线：受试者工作特征曲线，曲线上每个点反映着对同一信号刺激的感受性。横轴：1特异度，又称负正类率(FPR);纵轴：灵敏度,又称真正类率(TPR)。例如：针对一个二分类问题，将实例分成正类或者负类，会出现四种情况：(1)若一个实例是正类，并且被预

2、测成为正类，即为真正类(TP);(2)若一个实例是正类，但是被预测成为负类，即为假负类(FN);(3)若一个实例是负类，但是被预测成为正类，即为假正类(FP);(4)若一个实例是负类，并且被预测成为负类，即为真负类(TN)o如下表：某不情法实际负正预测负真负类(TN)假用1(FN)正假正类(FP)真正类(TP)特异度：真负类率(TNR,刻画的是分类器所识别出的负实例占所有负实例的比例，TNR=TN/(FP+TN)1特异度：假正类(FPR,刻画的是分类器错认为正类的负实例占所有负实例的比例，FPR=1-TNR=FP/(FP+TN灵敏度：真正类（TPR,刻画的是分类器所识别出的正实例占所有正实例的

3、比例，TPR=TP/（TP+FN）假设采用逻辑回归分类器，具给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6,概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组（FPR,TPR）,在平面中得到对应坐标点。随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。阈值最大时，对应坐标点为（0,0）,阈值最小时，对应坐标点（1,1）。分类器的一个重要功能“概率输出”，即表示分类器认为某个样本具有多大的概率属于正样本（或负样本）。通过更深入地了解各个分类器的内部机理，我们总能想办法得到一种概率输出。通常来说，是将一

4、个实数范围通过某个变换映射到（0,1）区间A3。假如已经得到了所有样本的概率输出（属于正样本的概率），根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率。Inst#ClassScoreInst#ClassScore1P.911PA2P.812n.393n,713P.384P.614n.375P.5515n.366P.5416n357n,5317P.348n.5218n.339P.5119P.3010n.50520n,1将“Score”值

5、作为阈彳直，当测试柞本属于正样本1的概率大于E戈等于这个阈值时，认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的阈值，我们就可以得到一组FPR和TPR即ROO线上的一点。这样一来，我们一共得至IJ了20组FPR和TPR的值，将它们画在ROQa线的结果如下图：020.3Od050.6OJO.E09E:alscpositiverateAUCfi是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score

6、值将这个正样本排在负样本前面的概率就是AUCB,AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。首先对score从大到小排序，然后令最大score对应的sample的rank为n,第二大score对应sample的rank为n-1,以此类推。然后把所有的正类样本的rank相加，再减去M-1种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以MXN=即：卜面是利用决策树预测客户流失的案例，假设流失为正，不流失为负用测试集的复合矩阵计算它的AUC3SR1-流失的符合矩阵（行表示实际值）ROCk的点：(0.198

7、,0.62)日评估度星,Partition,楔型派流失SR1-流失SR2-流先Gmi0495056102322Testing-AUC0.7107450S96Gini0420.490192*Partrtimi*=1_TrainingUoYes*Partition*-2_TesbngNo1_TrainingAUC0.7470.790.616决策树R1流失分析预测实际负正预测负TN=178FN=22正FP=44TP=36基尼系数基尼系数在决策树中是一种数据分类不纯性检测的方法，分支时基尼系数越小，则分的类越好。以下是给定的t点的Gini计算方法：GINI(t)=I-p(j|t)2其中，(p(j|t)

8、是在结点t中，类j发生的概率。C10C26Gini=0.000C13C23Gini=0.500C12C24Gini=0.444当一个结点p分割成k个部分(孩子)，划分的质量可由下面公式计算:nGINIspM一二GINI(i)i=in其中，ni=孩子结点i的记录数,n=父结点p的记录数.对于二元属性，结点被划分成两个部分，得到的GINI值越小，这种划分越可行.例如，计算B点的Gini值，检验这种划分是否合适。GinHINI)=1_(5/6产_(2/6)2-q.194Gjni(N2)=1-(1/6)2-(4/6尸-0.528Gini(B)=7/12*0/194+5/12*0.528=0.333基尼

9、系数较小，此划分可行。15*0I学K盘鼠息计1DO.Q叫934|a评估度量|根霍AUGGini$R-流失07110.422类别与nNo32.05125JU计B.J617tJ节,4谓别nNo行.圜9?14吊s如urn电计3艮43丁35目协同过滤协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西，这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。也就是说，算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。要实现协同过滤的推荐算法，要进行以下三个步骤：收集数据一一找到相似用户和物品一一进行推荐两种推荐方式：(1)基于用户的协同过滤；(2)基于物品的协同过滤。基于用户的协同过滤：(1)找到与目标用户兴趣相似的用户集合；(2)找到这个集合中用户喜欢的、并且目标用户没有听说过的物品推荐给目标用户。基于物品的协同过滤：(1)找到相似的物品集合；(2)找到目标用户喜欢的物品所在的集合，将集合中排除他喜欢的物品外其他的物品推荐给他用户/物品将品自物品B物品C用户A7y用户BV用户c推荐计算用户间以及物品间的相似度，以下是几种计算相似度的方法:欧几里德距离四,力=必E淅品峦皮尔逊相关系数以（工3，）=懵=/巨孙匚1弟2（*_Ds4（、卜3一（aPCosine相ftlj#丁（而）=Tanimoto系数T（茁J）:一:/iwi+i卜一戈”屈一匹二2

展开阅读全文