MATLAB中的模型可解释性

Hermes Suen，Mathworks

可解释的机器学习（或深入学习，“解释为AI”）提供了克服AI模型的黑匣子性质的技术和算法。通过揭示各种功能如何为预测贡献（或不贡献），您可以验证该模型正在使用正确的证据，以便其预测，并揭示在培训期间不明显的模型偏差。

获得模型可解释性及其处理的用例的概述。对于那些对机器学习感兴趣但又对黑盒模型感到厌倦的工程师和科学家，我们解释了可解释性如何满足规定，如何建立对机器学习的信任，以及如何验证模型是否有效。这在金融和医疗器械等监管规定严格的行业尤为重要。我们概述了机器学习的可解释性方法，以及如何在MATLAB®中应用它们。我们在医学应用的背景下论证了可解释性，根据心电信号对心律失常进行分类。

近年来，我们看到了AI和机器学习算法超越或匹配人类性能，如医学成像诊断和操作机动车。然而，这些成就的核心缺少的是对这些算法如何工作的直观了解。

这个视频解释了为什么可解释性很重要，有哪些方法可以解释，并演示了如何在Matlab中使用这些技术。具体来说，我们将研究LIME、部分相关图和排列预测器重要性算法。我们将在心电图分类的背景下检查可解释性。所描述的技术可以应用于任何模型。这段视频不需要医学背景。

为什么我们需要可解释性?首先，机器学习模型并不容易理解，更精确的模型通常难以解释。此外，在医疗、金融和安全行业，还需要解释方法来帮助克服监管障碍。

还需要可解释的模型，以确保它们使用正确的证据，并揭示训练数据中的偏见。最近一场灾难性的人工智能应用是在信用卡评分中，据报道，一种算法对男性的信用额度高于女性。这可能是由于训练数据中的偏差，实时数据中的偏差，或其他原因。解释性模型帮助我们预防这些问题。

对于我们的示例，您将对机器学习模型应用可解释性，这些模型根据来自两个公开数据库的ECG数据将心跳分为异常或正常。心电图代表心脏对来自窦房音的电刺激的反应，通常分解为QRS方式。我们将使用Matlab的小波工具箱从原始信号数据中自动提取QRS波的位置。然后，我们从r峰中提取了8个特征用于训练。

一旦我们有了特征，我们就可以使用分类学习器快速训练模型。在这里，我们训练了一个决策树作为一个固有可解释模型的例子，以及两个复杂的模型。如果精确度是最重要的，那么它只会选择性能最好的模型。然而，在一些情况下，如预测生命终点护理，可解释性是非常重要的。我们要确保模型使用正确的证据进行预测，也要了解模型可能出错的情况。

使用Matlab的perised Predictor函数，我们可以看到，对于我们最好的模型，随机森林，r波的振幅被作为重要的预测因子。然后我们可以使用Matlab的部分相关图量化r幅值对模型输出的影响。我们看到，当振幅接近0时，输出异常心跳分类的概率发生5%的变化。

但是，这与我们的域名知识相矛盾。专家表示，R幅度水平对心跳的分类几乎没有影响。我们希望确保这些数据中的这些偏差不包括在我们的模型中。所以接下来，我们恢复了我们没有幅度的模型。一旦我们删除了偏见，我们就可以看到我们的新决策树如何在全球层面上工作。树代替倾向于r型幅度，而是将RR0和RR2间隔考虑成为最重要的预测因子。

对于更复杂的模型，如我们随机森林，我们再次使用部分依赖性地块，了解我们最重要的预测因素如何影响模型。我们看到极短的RR1间隔通常导致异常心跳分类的概率更高。直观地，这是有道理的。

我们还可以使用部分依赖图来比较不同的模型。SVM的相同特征表明它与我们的随机森林有相似的趋势。然而，图更平滑，这表明支持向量机对方差和输入数据不太敏感，使它成为一个更可解释的模型。

除了了解这些模型如何在全球范围内工作，其他情况可能会致电我们了解他们如何为个人预测工作。Lime是一种关于围绕兴趣点的数据点和模型预测的技术。从那里，它构建了一个简单的线性模型，它充当我们复杂的一个近似值。我们近似线性模型的系数用作确定每个特征涉及我们兴趣点的预测的多少代理。

让我们看看我们的SVM将其误解为正常的观察。我们看到，我们在此观察中的RR0的价值为0.0528。从我们的部分依赖性地块之前，我们注意到，在0.05左右的值，预测异常心跳的可能性下降。我们还可以看到石灰在RR0上放置高负重。RR0的高值和负加权驱动降低预测异常心跳的可能性，解释我们的错误分类。

但是，有一些局限性。Lime作为我们模型的近似，绝不是我们的模型工作原理的准确表示。为了说明这一点，我们可以看到有些情况，其中我们的复杂模型的预测与近似值不匹配。为避免这种情况，请尝试再次使用不同的参数运行石灰算法，直到预测同意，例如增加要绘制的重要预测因子的数量。

我们已经演示了如何在Matlab中使用可解释性技术，现在可以使用可解释性来比较不同的模型，揭示数据偏差，并理解预测出错的原因。即使没有数据科学背景，我们也可以参与到让机器学习变得可解释的运动中来。有关视频中介绍的技术的更多信息，请参阅下面的链接。类似的可解释性技术也存在于神经网络中，所以请务必查看这些资源。