当前位置:网站首页>机器学习之评价指标(二)——分类评价指标
机器学习之评价指标(二)——分类评价指标
2022-07-27 15:49:00 【helpburn】
回归问题的评价指标见:https://blog.csdn.net/itlilyer/article/details/117880207
现在我们介绍一下分类问题中常用的评价指标。
在介绍评价指标前首先要了解"混淆矩阵"。"混淆矩阵"个人理解是一个分析一个分类模型对一个输入数据预测结果不同情况的说明矩阵。
从表格中看到真实值和预测结果会有四种组合:
真正(True Positive): 把标签也就是真实值为True的预测为Positive,比如,将一张小狗图片,标签为狗,预测结果也为狗。
真负(True Negative): 把标签也就是真实值为False的预测为Negative,比如,将一张不是小狗图片,标签为其他,预测结果也为其他。
假正(False Positive): 把标签也就是真实值为False的预测为Positive,比如,将一张小猫图片,标签为猫,但是预测结果为狗。
假负(False Negative): 把标签也就是真实值为True的预测为Negative,比如,将一张小狗图片,标签为狗,预测结果为不是狗。
真正率(True Positive Rate,TPR): 又称灵敏度,被预测为正的正样本/实际正样本总数——TPR = T P T P + F N \frac {TP} {TP+FN} TP+FNTP
真负率(True Negative Rate,TNR): 又称特异度,被预测为负的负样本/实际负样本总数——TNR = T N T N + F P \frac {TN} {TN+FP} TN+FPTN
假正率(False Positive Rate,FPR): 被预测为正的负样本/实际负样本总数——FPR = F P F P + T N \frac {FP} {FP+TN} FP+TNFP
假负率(False Negative Rate,FNR): 被预测为负的正样本/实际正样本总数——FNR = F N T P + F N \frac {FN} {TP+FN} TP+FNFN
1.准确率
准确率(Accuracy): 分类正确的样本数/总样本数,也就是正样本预测结果为正,负样本预测结果为负的数量和除以总数。
ACC = T P + T N T P + T N + F P + F N \frac {TP + TN} {TP + TN + FP + FN} TP+TN+FP+FNTP+TN
2.平均准确率
平均准确率(Average per-class Accuracy):所有类别准备率的平均值,这里就是指将正样本预测为正和负样本预测为负的平均值。
AVE_ACC = T P T P + F N + T N T N + F P 2 \frac {\frac {TP} {TP + FN} + \frac {TN} {TN + FP}} {2} 2TP+FNTP+TN+FPTN
3.错误率
错误率:分类错误的样本数量/总样本数。
ERROR = F P + F N T P + T N + F P + F N \frac {FP + FN} {TP + TN + FP + FN} TP+TN+FP+FNFP+FN
4. 精确率
精确率(Precision):也叫查准率,看一下预测结果中有多少是预测正确的。比如预测10个图片为小狗,但是真正为狗的为8个,其他为猫和猪,则精确率为0.8。
P = T P T P + F P \frac {TP} {TP + FP} TP+FPTP
5.召回率
召回率(Recall):也叫查全率,是指预测正确的正样本占所有正样本的比例。比如一共有15张小狗图片,其中12张预测为狗,其他预测为其他动物,则召回率为0.8。
Recall = T P T P + F N \frac {TP} {TP + FN} TP+FNTP
6.F1
F-Score(也叫F-Measure):因为不同情况下对精精确率和召回率的重视程度不同,有些需要尽可能的减少预测错误,有些则需要召回率更高。F1是调和平均值Fβ特殊情况,当β取1时就退化为了F1。
Fβ = ( 1 + β 2 ) ∗ P ∗ R ( β 2 ∗ P ) + R \frac {(1 + \beta^2) * P * R} {( β^2 * P) + R} (β2∗P)+R(1+β2)∗P∗R ; 当 β=1时, F1 = 2 ∗ P ∗ R P + R \frac {2 * P * R} {P + R} P+R2∗P∗R
7. ROC和AUC
ROC(Receiver Operating Characteristic),常用来评价一个二值分类器的优劣。在逻辑回归中通常会设置一个阈值,超过阈值则预测为正类,小于阈值则为负类。如果调小该值预测为正类的数量就会增加,同时这里面会包含一些本是负类的样本被识别为正类。ROC可以直观的表达该现象。上面我们已经介绍过了真正率(TPR, True Positive Rate)和假正率(FPR, False Positive Rate),ROC曲线就是以TPR为y轴,FPR为x轴根据分类结果得到的一条曲线。如果曲线比较平滑的话一般不会出现过拟合问题。
我们主要关注图中的四个点和一条线。
第一个点**(0, 0):即TPR和FPR都是0,也就是说分类器把所有的样本不管正负都预测为负类。
第二个点(0, 1):即TPR = 1,FPR = 0,也就是说所有的样本分类都正确,正样本预测为正,负样本预测为负。
第三个点(1, 0):即TPR = 0,FPR = 1,也就是说所有的样本分类都错误,正样本预测为负,负样本预测为正。
第四个点(1, 1)**:即TPR和FPR都是1,也就是说分类器把所有的样本不管正负都预测为正类。
通过这几个点的意义我们可以看出ROC曲线越接近左上角,该分类器的性能越好。
AUC(Area Under Curve):是ROC曲线下方的面积,面积越大意味着分类器越好。很明显该面积不会大约1。
ROC和AUC有一个特性:不管测试仪的正负样本的数量分布是什么样的,ROC曲线都不会变化。针对实际情况中数据集会出现样本数据分布不均衡的情况,正样本会比负样本多很多或者少很多。
8. PR曲线
PR曲线的横坐标是Recall,纵坐标是Precision。一条PR曲线要对应一个阈值(统计学的概率)。通过选择合适的阈值(比如0.5)对样本进行合理的划分,概率大于0.5的样本为正例,小于0.5的样本为负例,样本分类完成后计算相应的精准率和召回率,最后我们会得到对应关系,如下图所示。
在众多学习器对数据进行学习后,如果其中一个学习器的PR曲线A完全包住另一个学习器B的PR曲线,则可断言A的性能优于B。但是A和B发生交叉,那性能该如何判断呢?我们可以根据曲线下方的面积大小来进行比较,但更常用的是平衡点F1。平衡点(BEP)是P=R时的取值(斜率为1),F1值越大,我们可以认为该学习器的性能较好。F1的计算公式上面我们已经介绍过了
边栏推荐
- 【cf】#681 A. Kids Seating (Div. 2, based on VK Cup 2019-2020 - Final)
- Smart fish tank design based on stm32
- Neural network implementation of handwritten numeral classification matlab
- 【obs】NewSocketLoopEnable 网络优化
- Interviewer: what is scaffolding? Why do you need scaffolding? What are the commonly used scaffolds?
- 面试官:什么是脚手架?为什么需要脚手架?常用的脚手架有哪些?
- [single chip microcomputer] 2.1 hardware composition of AT89S52 single chip microcomputer
- 树莓派驱动代码的编译和测试
- Technical practice dry goods | from workflow to workflow
- How to learn C language? This article gives you the complete answer
猜你喜欢

Are those who are absent from the written examination shortlisted for the teacher recruitment interview? Henan Xiangfu: the statistics of individual candidates' scores are wrong
![[MCU] 2.2 pin function of AT89S52](/img/d0/b204efb80ec5f0b7bc2d83d0250eb9.png)
[MCU] 2.2 pin function of AT89S52

神经网络实现手写数字分类matlab

快解析结合海典医药

Cow! His secret is to reproduce the paper in 2 hours——

详解二叉树之堆

阿里巴巴鹰眼系统简介

【单片机】2.3 AT89S52的CPU

信号量保护之位带操作

JS to realize the right-click menu bar function
随机推荐
Today's sleep quality record 82 points
With the arrival of large displacement hard core products, can the tank brand break through the ceiling of its own brand?
Wechat applet cloud function batch delete multiple data error: errcode: -502005 database collection not exists
js实现右键菜单栏功能
DDD(领域驱动设计)分层架构
Tencent cloud upload
Yyds dry inventory interview must brush top101: specified interval reversal in the linked list
Are those who are absent from the written examination shortlisted for the teacher recruitment interview? Henan Xiangfu: the statistics of individual candidates' scores are wrong
JSP自定义标签(下)
$attrs and $listeners components transfer values
【单片机】2.1 AT89S52单片机的硬件组成
微信小程序 实现拨打电话
Understanding service governance in distributed development
Soul 1: why is es more suitable for complex condition search than MySQL?
7 岁男孩被 AI 机器人折断手指,仅因下棋太快?
选择体育场馆的LED显示屏时应该注重哪些方面
笔试缺考者入围教师招聘面试?河南祥符:个别考生成绩统计错误
wallys/DR882-Qualcomm-Atheros-QCA9882-2T2R-MIMO-802.11ac-Mini-PCIe-Wi-Fi-Module-5G-high-power.
Mlx90640 infrared thermal imager temperature sensor module development notes (VII)
anaconda重新卸载