首页 > 试题广场 >

在使用机器学习解决现实问题时,有时出现分类问题的正负样本集不

[单选题]
在使用机器学习解决现实问题时,有时出现分类问题的正负样本集不均衡的现象,在这种情况下,以下哪种指标不合理?
  • F-measure
  • Accuracy
  • AUC
  • G-mean
正确率和F值的计算都是基于混淆矩阵(Confusion Matrix)的,混淆矩阵如下图7所示,每行代表预测情况,每列代表实际类别,TP,FP,FN,TN分别代表正类正确分类数量,预测为正类但是真实为负类,预测为负类但是真实为正类,负类正确分类数量。
正确率(Accuracy)和F值的计算如下式所示。可见正确率或错误率并不能表示不平衡数据下模型的表现,对于不平衡数据即使全部预测为多数类也可以达到较高的正确率较低的错误率,而F值【同时考虑到了少数类的准确率和召回率】,因此【能衡量不平衡数据下模型的表现】,其中$\beta$取值通常为1。
G-Mean是另外一个指标,同理也能评价不平衡数据的模型表现,其计算公式如下。
接受者工作特征曲线(Receiver Operating Characteristic Curve,简称ROC曲线)如下图所示。显然A点为最优点,ROC曲线越靠近A点代表模型表现越好,曲线下面积(Area Under Curve, AUC)越大,AUC是衡量模型表现好坏的一个重要指标。同理也能评价不平衡数据的模型表现。
ref:
作者:练绪宝
链接:https://www.jianshu.com/p/3e8b9f2764c8
发表于 2019-12-20 19:45:37 回复(0)