混淆矩阵是机器学习中最具说服力的预测分析工具。混淆矩阵是分类器(或分类模型)为二元分类任务产生的正确和错误预测数量的汇总分析表。
简单来说,“混淆矩阵是机器学习算法的性能度量”。
通过可视化混淆矩阵,个人可以通过观察对角线值来确定模型的准确性,以衡量准确分类的数量。
如果考虑矩阵的结构,矩阵的大小与输出类的数量成正比。
混淆矩阵是矩阵形式,其中列代表预测值,行代表模型的实际值。具体来说,混淆矩阵可以总结分类模型预测结果。
测量混淆矩阵可以更好地了解分类模型是否正确,它还可以清晰知道分类模型产生了哪些类型的错误。
混淆矩阵的好处
1、提供有关分类器所犯错误和所犯错误类型的信息。
2、反映分类模型在进行预测时是如何混乱的。
3、有助于克服单独部署分类准确性的限制。
4、混淆矩阵非常适合计算召回率、精确度、准确率和AUC-ROC曲线。
混淆矩阵中的精确度、召回率、准确度和 F-Measure
1、精确度:精度解释了有多少正确预测的值实际上是正的。或者简单地说,它给出了模型在所有正确预测的正值中给出的正确输出的数量。
它确定模型是否可靠,计算精度的公式为TP/(TP+FP)。
2、召回率:召回描述了从模型中正确预测出的实际正值的数量。计算召回率的公式是TP/(TP+FN)。
提高精度会降低召回率,反之亦然,这称为精度/召回率权衡。
3、准确性:它是确定分类问题准确性的重要参数之一,它解释了模型预测正确输出的频率,并且可以测量为分类器做出的正确预测的数量与由分类器做出的预测总数的比率。分类器。公式是;
精度:(TP+TN)/(TP+TN+FP+FN)
4、F-measure:对于两个模型具有低精度、高召回或高精度、低召回的情况,很难比较这些模型,因此为了解决这个问题,我们可以部署F-score。 F-score是精度和召回的调和平均值。
通过计算 F-score,我们可以同时评估召回率和准确率。此外,如果召回率等于精度,则F分数最大,可以使用以下公式计算:F-measure= (2*Recall*precision)/ (Recall + Precision)