应用机器学习，第2部分：ROC曲线

Seth Deland，Mathworks

使用ROC曲线评估分类模型。ROC曲线绘制真正的阳性率与阈值不同值的假阳性率。 

此视频遍及几个示例，这些示例广泛地说明了Roc曲线以及为什么要使用它们。它还概述了使用ROC曲线时可能遇到的有趣方案。

ROC曲线是评估分类模型的重要工具。它们也有点抽象，因此让我们首先审查一些更简单的评估模型的方法。

让我们使用一个与心脏的声音有关的示例。给出了一颗心的音频记录的71个不同的功能，我们试图分类心脏声音正常或异常。

要理解的最简单的指标之一是模型的准确性 - 或者，换句话说，换句话说，它是正确的。准确性是有用的，因为它是单个数字，使比较变得容易。我现在正在看的分类器的准确性为86.3％。

准确性没有告诉你是模型是正确还是错的。为此，有混乱的矩阵，这表明了真正的阳性率。在这种情况下，它为74％，这意味着分类器正确预测的异常心脏声音74％的时间。我们也有9％的假阳性率。这是当心脏声音实际正常时，分类器预测异常的速率。

混淆矩阵为单个模型提供结果。但大多数机器学习模型不仅仅是对事物进行分类，他们实际上是计算概率。该模型的困惑矩阵显示了将具有> = 0.5的概率分类为异常的任何可能的结果，以及概率<0.5的任何概率<0.5。但是，0.5不必固定，实际上我们可以在0到1之间的概率范围内的任何地方阈值。

这就是ROC曲线进入的地方。ROC曲线绘制真正的阳性率与该阈值不同值的假阳性率。

让我们更详细地看待这一点。

这是我的模型，我将在我的测试数据上运行它以获得异常心声的概率。现在让我们开始在0.5时缩小这些概率。如果我这样做，我会得到真正的阳性率为74％，假阳性率为9％。

但是，如果我们想要非常保守，那么即使心声异常的概率只是10％，我们也会将其分类为异常。

如果我们这样做，我们就会实现这一点。

如果我们想要真的肯定，何时只有90％的概率归类为异常的声音？然后我们明白了这一点，这具有较低的假阳性率，也具有较低的真正阳性率。

现在，如果我们在0到1之间为此阈值创建一堆价值，请说出1000个试验均匀间隔，我们会得到许多这些Roc积分，这就是我们获得ROC曲线的曲线。ROC曲线向我们展示了真正阳性率和假阳性率的权衡，以实现该阈值的不同价值。

ROC曲线上将在0逗号0上有一个点。在我们的情况下，一切都被归类为“正常”。并且总会有1个逗号1的点，其中一切都被归类为“异常”。

曲线下的区域是我们的分类器有多好的度量。一个完美的分类器将有一个1的1。在这个例子中，AUC为0.926。

在Matlab中，你不需要用我在这里完成的手才能做到这一切。您可以从Perfcurve功能获取ROC曲线和AUC。

现在我们有那么下来，让我们来看看ROC曲线的一些有趣的案例：

·如果曲线一直向上和向左，则您有一个分类器，对于某些阈值完全标记测试数据中的每一点，您的AUC是1.您有一个非常好的分类器，或者您可能需要be concerned that you don’t have enough data or that your classifier is overfit.

·如果曲线是从左下角到右上角的直线，则您的分类器不会比随机猜测更好（其AUC为0.5）。您可能想要尝试其他类型的型号或返回您的培训数据，以查看您是否可以始介更好的功能。

·如果曲线看起来有点锯齿状，有时是由于不同类型的分类器的行为。例如，决策树仅具有有限数量的判定节点，并且每个节点具有特定概率。当我们谈到的阈值迄今谈到的阈值交叉时，锯齿性来自于一个节点的一个节点。锯齿也通常来自测试数据中的差距。

您可以从这些示例中看到，ROC曲线可以是一个简单但对分类性能进行分类的更简单但细致的工具。

如果您想了解有关机器学习模型评估的更多信息，请查看以下说明中的链接。

了解更多

性能曲线

perfcurve文件

模型建筑和评估

ROC曲线

阅读白皮书

读电子书

阅读白皮书

读电子书

统计和机器学习工具箱

下一个：

了解HyperParameters，包括它们是什么以及为什么要使用它们。探索如何更改计算机学习算法中的超级参数，使您可以更准确地将模型符合数据。

4:43

第3部分：封锁率优化

查看全系列（4个视频）

有关的影片：