深度学习可视化方法
深入学习网络常常被描述为“黑匣子”,因为网络的原因使某一决策并不总是显而易见的。正在使用越来越多的深度学习网络域从医疗到贷款申请,所以理解为什么网络特定的决策是至关重要的。
您可以使用可解释性技术网络行为转化为输出,一个人可以解释。这可说明的输出可以回答关于网络的预测问题。可解释性技术有许多应用,例如,验证,调试,学习,评估偏差,和模型选择。
您可以应用可解释性技术网络训练后,或建立的网络。岗位培训方法的优点是,你不需要花时间构建一个可深度学习的网络。这个话题集中在岗位培训方法,使用测试图像解释的预测网络训练图像数据。
可视化方法是一种可解释性使用视觉表示,解释网络预测技术的网络。有很多技术可视化网络行为,如热量地图,凸起地图,地图功能重要性,和低维投影。
可视化方法
可解释性的方法有不同的特点;你使用哪个方法将取决于你想要的解释和网络训练。方法可以当地的只有调查网络行为或为一个特定的输入全球并研究网络行为在整个数据集。
每个可视化方法都有一个特定的方法,决定了它产生的输出。一个常见的方法之间的区别是基于梯度或扰动。Gradient-based方法backpropagate输出回到输入的信号。Perturbation-based方法扰乱网络的输入,并考虑在预测扰动的影响。另一种方法可解释性技术包括映射或近似的复杂网络模型更可判断的空间。例如,一些近似方法使用简单网络预测,更可说明的模型。其他方法使用降低高维降维技术激活可判断的二维或三维空间。
下表比较可视化可解释性深度学习模型图像分类的技术。为例展示如何使用可视化方法研究预测图像的分类网络,看到的探索网络预测使用深度学习的可视化技术。
深度学习的可视化图像分类的方法
方法 | 可视化例子 | 函数 | 位置 | 方法 | 决议 | 需要调优 | 描述 |
---|---|---|---|---|---|---|---|
激活 |
|
当地的 | 激活可视化 | 低 | 没有 | 可视化激活是一个简单的理解网络行为。大多数卷积神经网络学习检测功能,如颜色和边缘在第一卷积层。在更深的卷积层、网络学习检测更复杂的功能。 有关更多信息,请参见可视化卷积神经网络的激活。 |
|
凸轮 |
|
没有 |
当地的 | 激活热图Gradient-based类 | 低 | 没有 | 类活动映射(CAM)是一个简单的技术生成的视觉解释卷积神经网络的预测[1]。凸轮使用卷积神经网络的全球平均池层生成地图强调的哪些部分图像网络使用对一个特定的类标签。 有关更多信息,请参见调查网络预测使用类激活映射。 |
Grad-CAM |
|
当地的 | 激活热图Gradient-based类 | 低 | 没有 | Gradient-weighted类激活映射(Grad-CAM)是一个泛化的凸轮方法使用分类评分的梯度对卷积特性取决于网络了解哪些部分观察最重要的分类[2]。梯度比较大的地方的地方最终得分大部分依赖于数据。 Grad-CAM给类似的结果凸轮没有凸轮的结构限制。 有关更多信息,请参见Grad-CAM揭示了深度学习的决定背后的原因和探索使用Grad-CAM语义分割网络。 |
|
闭塞的敏感性 |
|
当地的 | Perturbation-based热图 | 低到中等 | 是的 | 闭塞敏感性措施网络灵敏度小扰动输入数据。方法扰乱小范围的输入,代之以一个阻塞面具,通常一个灰色的方框。随着面具在形象、技术措施的变化概率评分对于一个给定的类。您可以使用阻塞灵敏度来突出图像的哪个部分最重要的分类。 从闭塞的灵敏度得到最好的结果,你必须选择正确的值 有关更多信息,请参见了解网络使用阻塞预测。 |
|
石灰 |
|
当地的 | Perturbation-based代理模型,特征的重要性 | 低到高 | 是的 | 石灰技术近似的分类行为深入学习网络使用一个更简单,更可说明的模型,如线性模型或回归树[3]。简单的模型确定功能的输入数据的重要性,作为一个代理的重要性深入学习网络的特性。 有关更多信息,请参见理解网络预测使用石灰和调查使用石灰声谱图分类。 |
|
梯度归因 |
|
没有 |
当地的 | Gradient-based显著地图 | 高 | 没有 | 梯度归因方法提供像素的分辨率的地图显示的像素是最重要的网络分类决策[4][5]。这些方法计算梯度类的分数对输入像素。直觉上,地图显示像素最影响类分数时改变。 梯度归因方式生产出地图输入图像的大小相同。因此,梯度归因地图有一个高分辨率,但他们往往噪声很大,作为一个训练有素的深层网络不是强烈依赖于特定像素的精确值。 有关更多信息,请参见使用梯度归因技术调查分类决策。 |
深的梦想 |
|
全球 | Gradient-based激活最大化 | 低到高 | 是的 | 深的梦想是一个特性可视化技术,综合图像强烈激活网络层[6]。通过观察这些图片,可以突出图像特征通过网络学习。这些图片是有用的对于理解和诊断网络的行为。 有关更多信息,请参见深度图像使用GoogLeNet梦想。 |
|
t-SNE |
|
|
全球 | 降维 | N /一个 | 没有 | t-SNE保持距离是一种降维技术,以便点附近附近的高维表示也彼此彼此的低维表示[7]。您可以使用t-SNE可视化深度学习网络如何改变输入数据的表示,因为它通过网络层。 有关更多信息,请参见视图使用tsne网络行为。 |
最大和最小启动映像 |
|
没有 |
全球 | Gradient-based激活最大化 | N /一个 | 没有 | 可视化图像强或弱激活网络为每一个类是一个简单的低估你的网络。图片强烈激活突出网络认为“典型”的形象从这类的样子。图像弱激活可以帮助你发现你的网络为什么做出错误的分类预测。 有关更多信息,请参见使用最大和最小启动图像可视化图像分类。 |
探索应用这些方法使用一个应用程序交互,看到探索深层网络Explainability使用应用程序GitHub®存储库。
可解释性的方法非成象数据
许多可解释性重点解读图像分类或回归网络。解释非成象数据通常是更具挑战性由于其非自然的数据。您可以使用Grad-CAM可视化分类决策的一维卷积网络训练时间序列数据。有关更多信息,请参见使用Grad-CAM解释深度学习时间序列分类。探索LSTM网络的激活使用激活
和tsne
(统计和机器学习的工具箱)功能。为一个例子,演示如何探索一个LSTM网络的预测,明白了可视化LSTM网络的激活。探索网络培训表格的行为特性,使用石灰
(统计和机器学习的工具箱)和沙普利
(统计和机器学习的工具箱)功能。为例展示如何解释一个功能的输入网络,看到的解释使用石灰深度网络预测表格数据。关于解释机器学习模型的更多信息,请参阅解释机器学习模型(统计和机器学习的工具箱)。
引用
[1],Bolei Aditya斯拉,Agata Lapedriza,这和安东尼·托拉尔巴制作。“学习深有识别力的本地化特征。”In2016年《IEEE计算机视觉与模式识别会议:2921 - 2929。拉斯维加斯:IEEE 2016。
[2]Selvaraju, Ramprasaath R。迈克尔·Cogswell阿布Das,室利罗摩克里希纳Vedantam Devi帕里克说,Dhruv巴特拉。基于“Grad-CAM:视觉解释从深层网络通过梯度本地化。“在2017年美国IEEE计算机视觉:618 - 626。意大利威尼斯:IEEE 2017。https://doi.org/10.1109/ICCV.2017.74。
[3]里贝罗,马可杜立欧,Sameer辛格,卡洛斯Guestrin。“我为什么要相信你?”:解释任何分类器的预测。“在22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘(2016):1135 - 1144。纽约,纽约州:计算机协会,2016。https://doi.org/10.1145/2939672.2939778。
[4]Simonyan,凯伦,安德里亚·Vedaldi和安德鲁Zisserman。”深处卷积网络:想象图像分类模型和卓越的地图。2014年4月19日,“预印本,提交。https://arxiv.org/abs/1312.6034。
[5]Tomsett,理查德,Dan Harborne Supriyo Chakraborty, Prudhvi Gurram,和阿伦•泼里斯。“卓越指标的健康检查。”人工智能学报AAAI会议34岁的没有。04(2020年4月):6021 - 29日,https://doi.org/10.1609/aaai.v34i04.6064。
[6]TensorFlow。“DeepDreaming TensorFlow。”https://github.com/tensorflow/docs/blob/master/site/en/tutorials/generative/deepdream.ipynb。
[7]van der Maaten、劳伦斯和杰弗里•辛顿。“使用t-SNE可视化数据。”机器学习研究期刊》的研究,9 (2008):2579 - 2605。
另请参阅
gradCAM
|imageLIME
|occlusionSensitivity
|deepDreamImage
|tsne
(统计和机器学习的工具箱)|激活