机器学习极简入门课学习笔记-第八课(模型的质量和评判指标)

分类模型的评判指标

精准率/查准率(Precision)

Precision=TP/(TP+FP),即在所有被预测为 Class_A 的测试数据中,预测正确的比率。

如<<机器学习>>(周志华)中的描述,对一堆西瓜进行分类为好瓜和坏瓜,希望选出来认为是好瓜的准确率尽可能高,则这个概念叫精准率/查准率。

召回率/查全率(Recall)

Recall=TP/(TP+FN),即在所有实际为 Class_A 的测试数据中,预测正确的比率。

如<<机器学习>>(周志华)中的描述,对一堆西瓜进行分类为好瓜和坏瓜,希望尽可能的选出里面所有的好瓜,则个概念叫召回率/查全率

F1Score

F1Score = 2(Precision Recall)/(Precision + Recall)

1
此处需要注意,P、R、F1Score 在分类问题中都是对某一个分类而言的。如针对一堆西瓜中的好瓜,有P,R,F1Score。对一堆西瓜中的熟瓜,也有P,R,F1Score。
1
假设一个模型总共可以分10个类,那么对于每一个类都有一套独立的 P、R、F1Score 的值。衡量模型整体质量,要综合看所有10套指标,而不是只看一套。

TP

True Positive

TN

True Negative

FP

False Positive

FN

False Positive

欠拟合(Underfitting)

如果一个模型,在训练集上的预测结果就不佳,指标偏低,那一般是欠拟合的问题。

欠拟合多数情况下是因为选定模型类型太过简单,特征选取不够导致的

过拟合(Overfitting)

训练过程中为了尽可能命中训练集所有标签,导致最后训练出来的模型对训练集的验证误差率很低,但是当使用该模型运用在其他验证集或者测试集上时,该模型的误差率陡然增高的现象。

过拟合则可能是模型太过复杂,特征选择不当(过多或组合不当)造成的。

1
无论是过拟合问题还是欠拟合问题,增大训练数据量都可能会有所帮助。
支持原创,随手一扫