1主讲人:丁兆云第八课 模型的评价 17607310865 https:/ Recap70%30%新数据预测检验集数据训练集导出模型评估准确率3准确率的局限不平衡分类过拟合和欠拟合03020141.1 准确率评价PREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)InstanceP(+|A)True Class10.95+20.93+30.8740.8550.8560.85+70.7680.53+90.43100.25+5填空1作答正常使用填空题需3.0以上版本雨课堂l考虑一个二分类问题l0类的实例数=9990l1类的实例数=10l如果模型预测每个实例为0类,则准确率为l准确率是误导l模型不能正确预测任何1类实例l而在疾病检测中,1类更需要被关心InstanceP(+|A)True Class10.95+20.93+30.8740.8550.8560.85+70.7680.53+90.43100.25+填空题1分6l混淆矩阵l真阳历TP,真阳性(Truepositiverate,TPR)或灵敏度(sensitivity)、查全率(recall)TPR=TP/(TP+FN)l真阴历TN,真阴性(Truenegativerate,TNR)或特指度(specificity)TNR=TN/(TN+FP)l假阳历FP,假阳性(Falsepositiverate,FPR)或误报率FPR=FP/(TN+FP)l假阴历FN,假阴性(Falsenegativerate,FNR)漏报率(与查全率此消彼长)FNR=FN/(TP+FN)1.2 其它度量PREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)7TPR是指真阳性灵敏度漏报率查全率(recall)ABCDPREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)提交多选题1分8TNR是指真阴性灵敏度特指度查全率(recall)ABCDPREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)提交多选题1分9FPR是指假阴性假阳性漏报率误报率ABCDPREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)提交多选题1分10FNR是指假阴性假阳性漏报率误报率ABCDPREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)提交多选题1分11l两个广泛使用的度量l召回率(查全率,recall)和精确率(查准率,precision)1.2 其它度量PREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)12填空1作答正常使用填空题需3.0以上版本雨课堂l假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。
lTP:将正类预测为正类数:lFN:将正类预测为负类数:lFP:将负类预测为正类数:lTN:将负类预测为负类数:l准确率(accuracy)=预测对的/所有=(TP+TN)/(TP+FN+FP+TN)=l精确率(precision)=TP/(TP+FP)=l召回率(recall)=TP/(TP+FN)=填空2填空3填空4填空5填空6填空7填空题7分131.2 其它度量l假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标lTP:将正类预测为正类数:40lFN:将正类预测为负类数:20(60-40,剩余没正确分类的正样本)lFP:将负类预测为正类数:10lTN:将负类预测为负类数:30l准确率(accuracy)=预测对的/所有=(TP+TN)/(TP+FN+FP+TN)=70%l精确率(precision)=TP/(TP+FP)=80%l召回率(recall)=TP/(TP+FN)=2/314l下面是两个场景:1.地震的预测,对于地震的预测,我们希望的是recall非常高,也就是说每次地震我们都希望预测出来这个时候我们可以牺牲precision。
情愿发出1000次警报,把10次地震都预测正确了也不要预测100次,对了8次,漏了2次2.嫌疑人定罪,基于不错怪一个好人的原则(无罪推定原则,presumptionofinnocence),对于嫌疑人的定罪我们希望是非常准确的(precision高),及时有时候放过了一些罪犯(recall低),但也是值得的TP=填空1,FN=填空2,FP=填空3正常使用填空题需3.0以上版本雨课堂1.3 查全率vs.查准率TP=填空4,FN=填空5,FP=填空6作答PREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)填空题6分151.4 ROC曲线l前面分类器性能评价的局限性:分类器预测结果为离散的1或者0l朴素贝叶斯输出?l其他分类器输出?APCCCTPFNPCFPTNNPNAll16输出是一个连续的概率值,且同我们仅仅关系“1”类别的概率1.4 ROC曲线l前面分类器性能评价的局限性:分类器预测结果为离散的1或者0l朴素贝叶斯输出?l其他分类器输出?APCCCTPFNPCFPTNNPNAll17输出是一个连续的概率值,且同我们仅仅关系“1”类别的概率1.4 ROC曲线l前面分类器性能评价的局限性:分类器预测结果为离散的1或者0l朴素贝叶斯输出?l其他分类器输出?APCCCTPFNPCFPTNNPNAllInstanceP(+|A)10.9520.9330.8740.8550.8560.8570.7680.5390.43100.2518输出是一个连续的概率值,且同我们仅仅关系“1”类别的概率1.4 ROC曲线l前面分类器性能评价的局限性:分类器预测结果为离散的1或者0l朴素贝叶斯输出?l其他分类器输出?l解决方法:连续的值离散化l导致的问题:离散阈值难以确定APCCCTPFNPCFPTNNPNAllInstanceP(+|A)10.9520.9330.8740.8550.8560.8570.7680.5390.43100.2519l接收者操作特征曲线(ReceiverOperatingCharacteristicCurve,或者叫ROC曲线)是一种坐标图式的分析工具,用于l选择最佳的分类模型、舍弃次佳的模型。
l在同一模型中设定最佳阈值l给定一个二元分类模型和它的阈值,就能从所有样本的(阳性阴性)真实值和预测值计算出一个(X=FPR,Y=TPR)坐标点1.4 ROC曲线APCCCTPFNPCFPTNNPNAll20阴性阳性AB提交(FPR,TPR):l(0,0):任何分类都是阴性l(1,1):任何分类都是【选择题】l(0,1):理想分类l对角线:l随机猜测结果l对角线以下:预测结果与真实结果相反APCCCTPFNPCFPTNNPNAll单选题1分21正常使用填空题需3.0以上版本雨课堂lROC曲线下方的区域称为AUC,AreaUndertheROCcurvelIdeal:Area=lRandomguess:Area=填空1作答APCCCTPFNPCFPTNNPNAll填空2填空题2分221.4 如何构建ROC曲线l首先利用分类器计算每个数据记录的后验概率P(+|A)l将这些数据记录对应的P(+|A)从高到低排列(如右表):l由低到高,对于每个P(+|A)值(threshold,阈值),把对应的记录以及那些值高于或等于阈值指派为阳性类positive,把那些值低于阈值指派为阴性类negativel统计TP,FP,TN,FNl计 算 TPR=TP/(TP+FN)和FPR=FP/(FP+TN)l绘出诸点(FPR,TPR)并连接它们InstanceP(+|A)True Class10.95+20.93+30.8740.8550.8560.85+70.7680.53+90.43100.25+23A=填空1B=填空2作答Class+-+-+-+P0.250.430.530.760.850.850.850.870.930.950.95TP54433332210FP55443211000TN00112344555FN01122223345TPR10.80.80.60.60.60.60.40.40.20FPR110.80.80.60.40.20.2000InstanceP(+|A)True Class10.95+20.93+30.8740.8550.8560.85+70.7680.53+90.43100.25+Threshold=AB填空题2分24A=填空1B=填空2作答Class+-+-+-+P0.250.430.530.760.850.850.850.870.930.950.95TP54433332210FP55443211000TN00112344555FN01122223345TPR10.80.80.60.60.60.60.40.40.20FPR110.80.80.60.40.20.2000InstanceP(+|A)True Class10.95+20.93+30.8740.8550.8560.85+70.7680.53+90.43100.25+Threshold=AB填空题2分25A=填空1B=填空2作答Class+-+-+-+P0.250.430.530.760.850.850.850.870.930.950.95TP54433332210FP55443211000TN00112344555FN01122223345TPR10.80.80.60.60.60.60.40.40.20FPR110.80.80.60.40.20.2000InstanceP(+|A)True Class10.95+20.93+30.8740.8550.8560.85+70.7680.53+90.43100.25+Threshold=AB填空题2分261.3 如何构建ROC曲线Class+-+-+-+P0.250.430.530.760.850.850.850.870.930.950.95TP54433332210FP55443211000TN00112344555FN01122223345TPR10.80.80.60.60.60.60.40.40.20FPR110.80.80.60.40.20.2000InstanceP(+|A)True Class10.95+20.93+30.8740.8550.8560.85+70.7680.53+90.43100.25+Threshold=27准确率的局限不平衡分类过拟合和欠拟合03020128l数据不平衡问题2 Imbalanced Data Mining 292.1 基于抽样的方法l基于抽样的方法l考虑一个包含100个正样本和1000个负样本的数据集lOversampling 过采样复制正样本,直到训练集中正样本和负样本一样多可能导致模型过分拟合,因为一些噪声样本也可能被复制多次lUndersampling欠采样随机抽取100个负样本,与所有的正样本一起形成训练集问题:一些有用的负样本可能没有选出来用于训练,因此导致一个不太优的模型解决问题的方法:多次执行不充。