应用机器学习，第2部分:ROC曲线

赛斯·德兰，马修斯

使用ROC曲线评估分类模型。ROC曲线绘制不同阈值的真阳性率与假阳性率。 

本视频通过几个例子大致说明了什么是ROC曲线以及为什么要使用它们。它还概述了使用ROC曲线时可能遇到的有趣场景。

ROC曲线是评估分类模型的重要工具。它们也有点抽象，所以让我们首先回顾一些评估模型的简单方法。

让我们用一个与心脏发出的声音有关的例子。从一段心脏录音中给出71种不同的特征，我们试图区分心脏听起来是正常的还是异常的。

最容易理解的指标之一是模型的准确性——或者，换句话说，它正确的频率。准确性很有用，因为它是一个数字，便于比较。我现在看到的分类器的准确率为86.3%。

准确度不能告诉你模型是对是错。对于这一点，有一个混淆矩阵，它显示了诸如真实阳性率之类的东西。在这种情况下，它是74%，这意味着分类器在74%的时间内正确预测异常心音。我们还有9%的假阳性率。这是当心音实际正常时分类器预测异常的速率。

混淆矩阵给出了单个模型的结果。但大多数机器学习模型不仅对事物进行分类，它们实际上还计算概率。该模型的混淆矩阵显示了将概率大于等于0.5的任何事物分类为异常，将概率小于0.5的任何事物分类为正常的结果。但是0.5不一定是固定的，事实上，我们可以在0到1之间的概率范围内的任何地方设置阈值。

这就是ROC曲线的由来。ROC曲线绘制了该阈值的不同值的真实阳性率与假阳性率。

让我们更详细地看看这个。

这是我的模型，我要用我的测试数据来运行它来得到异常心音的概率。现在让我们把这些概率的阈值设定为0.5。如果我这样做，我得到的真阳性率是74%假阳性率是9%。

但是如果我们想要非常保守，即使心音异常的概率只有10%，我们也会把它归类为异常。

如果这样做，就得到这个点。

如果我们想要非常确定，只把有90%可能性的声音归类为异常，那该怎么办?然后我们得到这个点，假阳性率更低，但真阳性率也更低。

现在，如果我们为这个阈值在0和1之间创建一系列的值，假设1000次试验均匀间隔，我们会得到很多这些ROC点，这就是我们得到ROC曲线的地方。ROC曲线向我们展示了在阈值变化时真实阳性率和假阳性率的权衡。

ROC曲线上总有一个点在(0,0)处。在我们的例子中，一切都被归为“正常”。在1,1处总会有一个点，所有的东西都被归为“异常”。

曲线下的面积是衡量分类器好坏的指标。一个完美的分类器的AUC是1。在本例中，AUC是0.926。

在MATLAB中，你不需要像我在这里做的那样手工做这些。你可以从perfcurve函数中得到ROC曲线和AUC。

现在我们有了这个，让我们来看看ROC曲线的一些有趣的例子:

·如果一条曲线一直向上向左，你有一个分类器，对于某些阈值，它完美地标记了测试数据中的每个点，你的AUC是1。你要么有一个非常好的分类器，要么你可能想担心你没有足够的数据，或者你的分类器过拟合。

·如果曲线是从左下角到右上角的直线，则分类器的性能并不比随机猜测好（其AUC为0.5）。您可能想尝试其他类型的模型，或者返回培训数据，看看是否可以设计出更好的功能。

·如果曲线看起来有点锯齿，这有时是由于不同类型的分类器的行为。例如，决策树只有有限数量的决策节点，每个节点都有特定的概率。锯齿来自于我们之前讨论过的阈值与某个节点上的概率的交叉。锯齿也通常来自测试数据的缺口。

从这些例子中可以看出，ROC曲线可以是评估分类器性能的简单而微妙的工具。

如果你想了解更多关于机器学习模型评估的知识，请查看下方描述中的链接。

了解更多

性能曲线

性能曲线文件

模型建立与评估

ROC曲线

阅读白皮书

读电子书

阅读白皮书

读电子书

电动汽车建模与仿真-架构到部署:网络研讨会系列

免费注册

统计和机器学习工具箱

下一个:

了解超参数，包括它们是什么以及使用它们的原因。探索更改机器学习算法中的超参数如何使您的模型更准确地适应数据

4:43

第3部分:超参数优化

查看完整的系列(4视频)

应用机器学习，第2部分:ROC曲线

相关产品s manbetx 845

了解更多

统计和机器学习工具箱

下一个:

相关视频: