计算机视觉的深度学习

概述

而深度学习虽然可以实现最先进的目标识别和目标检测精度，但很难训练、评估和比较深度学习模型。深度学习还需要大量的数据和计算资源。

在这次网络研讨会中，我们将探讨MATLAB如何^®解决最常见的深度学习挑战，深入了解训练精确深度学习模型的过程。我们将介绍用于目标识别和目标检测的深度学习和计算机视觉的新功能。

突出了

我们将使用现实世界的例子来演示:

访问和管理大的映像集
使用可视化来洞察训练过程
利用预先训练的网络来执行新的识别任务转移学习
使用gpu和并行计算工具箱™加速训练过程

的主持人

Johanna Pingel于2013年加入MathWorks团队，专注于MATLAB图像处理和计算机视觉应用。她拥有伦斯勒理工学院的硕士学位和卡内基梅隆大学的学士学位。她在计算机视觉应用领域工作超过5年，主要研究对象检测和跟踪。

记录:2017年8月2日

大家好，我是Johanna，我是Gabriel，我们将讨论计算机视觉的深度学习。我们将向您展示一些很棒的新演示和功能。让我们开始吧。

好的，我们先从背景介绍开始。我们的网站上还有其他深度学习视频，比这次网络研讨会短得多，你们也一定要看一下。但最主要的是，与其他视频相比，我们将在这次网络研讨会中进行更深入的讨论。我们正在讨论计算机视觉的深度学习。什么是深度学习?这是一种机器学习，可以直接从数据中学习特征和任务，数据可以是图像、文本或声音。

既然我们在讨论计算机视觉，我们自然会关注图像数据。但请记住，深度学习适用于许多其他不处理图像的任务。

正确的。让我们来看看深度学习的工作流程。假设我们有一组图像，其中每个图像包含一到四种不同的对象。我们想要一种能自动识别图像中的物体的东西。我们从标记的图像开始，这意味着我们告诉深度学习算法图像包含什么。有了这些信息，它开始理解对象的特定特征并将它们与相应的类别联系起来。

您会注意到，任务是直接从数据中学习的，这也意味着我们对学习的特性没有任何影响。你可能会听到这被称为端到端学习，但无论如何，请记住深度学习直接从数据中学习特征。

这就是深度学习的基本工作流程。虽然深度学习的概念已经出现了一段时间，但由于技术极大地提高了这些分类器的准确性，以至于它们在分类图像时的表现超过了人类，所以它在最近才变得更受欢迎。因此，也有几个因素使深度学习成为可能，包括大量的标记数据，强大的gpu来加速训练，以及使用他人的工作作为起点来训练自己的深度神经网络的能力，我们将在后面讨论。

是的,我们会的。所以在我们开始讨论之前，我们想给你们一些背景和框架来解释我们为什么要举办这个网络研讨会。深度学习是困难的。这是前沿技术，它可能变得复杂，无论你是在处理网络架构，理解如何训练一个精确的模型，还是整合成千上万的训练图像。

是啊，更不用说每个人最喜欢的任务了——试图弄清楚为什么有些东西不能工作。

我们希望MATLAB使深度学习对每个人来说都是容易的和可访问的。在这次网络研讨会上，以及我们网站上的其他资源中，我们将解释如何使用MATLAB快速开始深度学习。我们的网络研讨会中的示例还将演示如何处理大量的图像集，轻松集成gpu以更快地训练深度学习模型，理解模型在训练过程中发生的事情，并基于该领域专家的模型进行构建，这样您就不必从头开始。说到这里，我们开始吧。

是的。让我们做它。因此，我们将介绍三个深度学习的例子:使用预先训练的网络进行图像分类，转移学习对新对象进行分类，以及在图像和视频中进行对象检测。首先是使用预训练的网络进行图像分类。我这里有一张辣椒的图片，我想对它们进行分类。信不信由你，我可以用MATLAB用四行基本代码就能做到。

首先，导入一个预先训练好的模型。第二，引入图像。三，调整图像的大小。第四，对图像进行分类。

很好。

这就是它。

很酷。

好了，现在开始第二个演示

他是在开玩笑。

是的,我在开玩笑。我们来谈谈这里发生了什么。

第一行代码中的AlexNet是什么?亚历克斯是谁，我们为什么要用他的网?

直接回答你的问题，AlexNet是一个由很多人设计的卷积神经网络，包括Alex Krizhevsky。但我可能应该提供一些背景信息。有一个与MATLAB无关的独立项目已经存在一段时间了叫做ImageNet项目。它的目标是建立一个海量的视觉内容仓库，比如图像，供人们研究和设计视觉对象识别。

所以它始于2010年。他们举办了一场年度竞赛，名为“ImageNet到大规模视觉识别挑战”。

哦,是的。老ILSVRC。

是的,那竞争。所以竞争者提交软件程序来竞争正确分类和检测[听不清]中的物体。现在，直到2012年，实现计算机视觉的标准方法是通过一个叫做特征工程的过程，与AlexNet相反，AlexNet使用并改进了基于深度学习的方法。所以你可能猜到了，AlexNet被提交给了2012 ILSVRC，团队名称是Supervision，一个字。它把竞争彻底打败了，我想这既可以指竞争对手，也可以指竞争本身。

有很多关于它的宣传，因为人们意识到深度学习不仅仅是理论。它真的很实用，比我们以前做的要好得多。所以撇开历史不谈，AlexNet经过训练可以准确识别1000种不同的物体，我猜这与ILSVRC 2012的胜利条件有关。它是你可以从MATLAB访问的几个预先训练的网络之一，它还包括VGG-16和19。

我们有这方面的历史课吗?

我不会为这些人上历史课。让我们回到这四行代码。所以首先看看MATLAB是如何让导入预训练模型变得非常容易的。没有比这更容易的事了。如果你的电脑上没有AlexNet，你只需要下载它一次，无论是通过附加管理器，还是使用错误中的链接(如果你没有下载代码的话)。现在你可以在演示中使用它，或者做任何你想做的事情。

所以在第二行，你引入了图像。这看起来很简单。但你为什么要调整图片的大小?我第一次这么做的时候，我试着用三行代码就搞定了。

没有调整吗?

是的。我得到了这个错误，它提到了关于大小的东西，这意味着，我要找出为什么它不能工作。

每个人都喜欢做的事情。

如果我用net。layers，它会显示网络的结构。乍一看有点吓人，但第一层，也就是输入层，大小是227 * 227像素。最后的x3是RGB值，因为这是一张彩色照片。看到这个，我就想，哦，好吧。只需使用MATLAB来调整图像的大小，这样在传输到网络时就不会出错。最后一行代码现在可以对图像进行分类了。

你之前提到过AlexNet是一个卷积神经网络。这是什么意思，我能简称CNN吗?

我的意思是，只要观众不要把这次网络研讨会和某个有线新闻网络——有线新闻——混为一谈。这就是CNN所代表的，不是吗?CNN不仅是一个自我参照的有线新闻网络，它还是深度学习中很受欢迎的架构，用于解决图像和计算机视觉问题。独立于AlexNet，了解cnn的三件主要事情是卷积、激活和池化。

卷积是一种数学运算，你可能记得在大学课程中介绍过傅里叶变换和拉普拉斯变换，无论好坏。我们将输入的图像进行多次变换，每一次变换都从图像中提取特定的特征。激活对卷积的输出应用一个变换。一个流行的激活函数是ReLU，或者ReLU，番茄，番茄，它只是取输出并将其映射到最高的正数值。最后，拉取是一个简化输出的过程，我们只取一个值携带到下一层，这有助于减少模型需要了解的参数数量。

因此，重复这三个步骤来形成整个CNN体系结构，该体系结构可以有几十或数百个层，每个层学习检测不同的特征。MATLAB的一个优点是它能让你看特征图。所以如果你比较接近初始层的特征和接近最终层的特征，它们会变得越来越复杂，从颜色和边缘到看起来更详细的东西。

让我们再来看看AlexNet的各个层次。您可以看到卷积、激活和池。其他一些网络对这些层有不同的配置，但在最后，它们都有一个执行分类的最终层。只需多写几行代码，我们就可以重复显示一张图像以及AlexNet认为它是什么。有时会成功，有时不会。但这很好，只要对象在最初的1000个集合中。

这就引出了一个问题，如果不是，你能做什么?

请允许我这样回答这个问题，那是使用预训练模型进行的图像分类。让我们继续看第二个演示。

好的。在下一个演示中，我们有汽车在高速公路上行驶的视频。我们希望能够将这些分类为轿车、卡车或suv。我们将使用AlexNet对网络进行微调，只针对我们的对象分类，这个过程叫做转移学习，它可以用于对不在原始网络中的对象进行分类。

这就是上一个问题的答案。快速跟进。如果你有一个分类任务，你的对象恰好是1000个中的一个，你有什么理由不直接使用AlexNet吗?

好问题。在这种情况下，迁移学习的主要好处是有一个特定于数据的分类器。如果你训练的类别更少，你就有可能提高准确率。

是有意义的。

所以我用我的手机拍了这个视频，我可以用IP网络摄像头自动把它放进MATLAB中。这个功能让我可以拍摄数小时的办公室窗外汽车行驶的视频。现在，使用MATLAB和计算机视觉，我能够根据每一帧视频中的汽车运动，使用一个相对简单的过程，称为背景减法，来提取它们。

这只需要观察两张连续图像之间的像素差异然后找出差别足够大的部分。

现在，当车辆经过时，我们想把它们分为轿车、卡车或SUV。这不是AlexNet认为我们要调查的。因此，如果我们当前的模型对我们的数据不起作用，我们就需要一个新的模型。假设我们要对五种不同的车辆进行分类——轿车、卡车、大型卡车、suv和面包车。我们的计划是使用AlexNet作为起点，并使用迁移学习创建一个特定于这五个类别的模型。

那么，你为什么要使用迁移学习而不是从头开始训练一个网络呢?

所以从头开始训练绝对是你可以尝试的。我们在MATLAB中提供了所有的工具来做这个。但是有几个非常实际的原因来代替迁移学习。例如，您不必自己设置网络体系结构，这需要大量的试错才能找到层的良好组合。此外，与从零开始训练相比，迁移学习不需要太多的图像来构建精确的模型。最后，你可以利用深度学习领域的顶级研究人员的知识和专业技能，他们花了比我们更多的时间训练模型。

听起来不错。

这里有五个文件夹包含了我们五个类别的很多图片。我们想要一种简单的方法将这些数据引入我们的深度学习算法。早些时候，加布里埃尔用imread来引入辣椒的形象。但我们不想对每一张图像都这么做。相反，我将使用一个称为图像数据存储的函数，这是一种引入数据的有效方法。

我们应该注意到在MATLAB中有许多不同类型的数据存储用于不同的大数据和数据分析任务。所以它不仅仅是为了图像。如果您有大量数据，那么数据存储是您的好朋友。

一旦那个点图像数据存储到我的文件夹中，它会根据包含图像的文件夹名称自动标记所有数据。所以没有必要一个一个地做。一旦我这样做了，我就可以访问有用的功能，比如查看每个类别有多少张图片，并能够快速地将我的图片分成训练集和测试集。

如果需要，还可以指定自定义读函数。默认情况下，图像数据存储为imread，以读取所有图像，这对于标准图像格式非常有用。但如果您碰巧有imread不知道如何处理的非标准图像格式，您只需编写自己的函数，将其传递到图像数据存储中，然后就可以开始了。

即使您有标准的图像格式，您也可以创建一个自定义的读取函数来进行图像预处理，如调整大小、锐化或去噪。在我们的例子中，使用AlexNet，我们需要将它们的大小调整为227 * 227。我们使用这个自定义read函数。

我注意到你没有直接调整大小。看起来你在填充图像。原因是什么?

这只是我个人的经验。我试着调整图片的大小，但网络运行得不是很好。当我自己看着这些图片时，我分不清汽车和suv之间的区别。所以我做了一些有相同效果的裁剪图像和保持纵横比。因为这有助于保持结构上的差异，我认为这可能有助于网络。之前你看到AlexNet在分类汽车和卡车方面做得很差。所以我们需要调整网络。

如果我们看一下这些层，你可以看到最后的完全连接层代表了AlexNet训练的1000个类别。为了执行迁移学习，我们将对象的五个类别中的1000替换为5。然后这一行重置分类，这意味着忘掉你学过的1000个对象的名字。你只关心这五个新的。

这是你唯一需要做的核心改变吗?

是的。这就是你需要做的所有网络操作。如果你运行这个，你会得到一个分类器，它会输出这五个对象中的一个。

所以我想问题是，它有多好?

所以我们事先训练了这个网络，它实际上得到了很好的结果，比如97%的准确率。

对于代码的两个小改动来说，这已经很了不起了。

但说实话，你可能不会马上想到这一点。记住，AlexNet是根据数百万张图像进行训练的，包括一些车辆。所以我们有理由假设它恰好非常顺利地转移到我们的数据上。但如果你要在与原始集合非常不同的其他图像上转移学习，也许你需要做更多的改变。

是有意义的。那么，如果人们发现自己的准确率低于标准，他们可以尝试些什么呢?

有很多事情你可以尝试。我们将进入快速射击模式。你可以跟着这张幻灯片走。首先，在你开始改变参数之前你可以做一些事情。检查你的数据。我怎么强调都不为过。一开始，我的火车模型对很多图像分类错误。我意识到我的一些数据放在了错误的文件夹里。显然，如果你的设置不准确，不管是错误的文件夹还是糟糕的训练数据，你都不会走得很远。

接下来，尝试获取更多数据。有时，分类器需要更多的图像来更好地理解问题。最后，尝试不同的网络。我们正在与AlexNet合作，但正如我们提到的，还有其他的网络可供您使用。另一个CNN可能会提供更好的结果。

听起来不错。假设我很确定我的设置是正确的。我现在能做什么?

所以现在的问题是改变网络和训练过程。让我们从网络开始。改变网络意味着增加、删除或修改层。您可以在网络中添加另一个完全连接的层，这将增加网络的非线性，并有助于提高网络的准确性，这取决于数据。您还可以修改新层的学习权重，使它们比网络的早期原始层学习得更快。如果您想要保留网络先前从原始数据中学到的丰富特征，这是很有用的。

至于改变训练过程，就是改变训练选择。您可以尝试更多的阶段，更少的阶段，以及其他选项，您可以在我们的网站上找到相关文档。

所以我这么说很公平。所有的选择似乎都是，你把网络当做一个黑匣子。如果你训练它，结果不是很好，那么你就对它进行其中一项修改，让它开始训练，等待完整的等待时间，然后你就会发现它真的让情况变好了还是变坏了。那么，在这个过程中，我们能做些什么呢?

绝对的。我们有一组输出函数可以告诉我们网络在训练时发生了什么。第一个图绘制了网络在训练时的准确性。理想情况下，您希望看到准确性随着时间的推移而上升的趋势。如果这不是你所看到的，你可以停止训练，试着在你可能浪费几个小时在没有改善的东西上训练之前修复它。也可以根据具体情况，提前停止训练。这里我告诉网络如果我达到99.5%的准确率就停止。

我猜这样你就不会过度训练和过度适应网络。

是的。我们还有检查点的概念。您可以在某个特定点停止网络训练，看看它在测试集上的表现如何，然后如果您决定它需要更多的训练，您不必从头开始。你可以继续你中断的训练。如你所料，我们的网站上有很多不同的培训选项的文档。如果你看一下这里，你可以看到我刚刚概述的选项-绘制训练精度，这里，停止在一个指定的精度。所以一定要试试这些例子。

是的,请。复制粘贴此代码。有些人从不复制粘贴你在网上找到的代码。我明白他们的意思，不要盲目地复制东西，期望它就能成功。但说真的，伙计们，让没有复制粘贴互联网代码的人投出第一个错误消息。

你绝对应该复制我们的代码。不需要自己编写所有的代码，这很好，而且有一些很好的起点，可以更好地控制训练过程。

假设我非常想对我的网络进行微调，我想尽可能地去掉网络中的黑箱部分。所以我猜你可能无法直接看到网络看到的东西。但我们如何开始更深入地了解我们的网络呢?

你能做的一件事就是将网络找到的特征在我们的图像中可视化。我们可以查看滤镜，我们可以查看滤镜应用后的图像结果。在第一个卷积中，我们看到我们提取出了边缘，深色和浅色的图案。它们可能非常明显，也可能不那么明显。这一切都取决于这些特征在图像中的强弱。

所以你可以在网络的任何一层做这个?

是的。让我们来看看另一个例子。这个图像的第四次卷积的输出产生了一些更抽象但有趣的特征。你可以假设这个特定的通道将车轮和汽车的保险杠作为特征。为了验证我们的理论，让我们试试另一张图像，在图像的左侧看不到后轮。如果我们的假设是正确的，那么这个通道的输出应该不会像图像左侧那么活跃。这就是我们所看到的。

很好。因此，如果你们中的任何人想要调试网络，这种技术为您提供网络所看到的内容的可视化表示，并可能帮助您更好地理解正在发生的事情。

是的。所有的代码都在文档中。网站上的例子是通过寻找面部特征，但概念是一样的。我们来看看另一个你可能会觉得有用的工具，叫做深度做梦。深度梦可以用来制作非常有趣的、艺术的图像，你可能在网上看到过。但这是我们用来理解网络的另一个工具。深度梦将输出一个图像，代表它在整个训练过程中学习到的特征。

理解这一点的一种方法是，不给网络一个图像，让它连接到一个类，让我们反过来。我们给网络一个类，让它给我们一个图像。这为什么有用呢?

让我们看一下文档。神经网络工具箱有一个关于深度学习的页面。这里的一个概念是深度梦和一个使用AlexNet深度梦的例子。我们可以看到我想要一只母鸡，这是AlexNet训练的类别之一。深邃的梦境让我对母鸡的样子有了抽象的认识。我们可以为网络中的任何类别创建深度梦境图像。

所以如果我们看到的东西和类别不一样，我们可以假设我们的网络可能没有正确地学习我们的类别。

是的，这可能是训练数据的问题。让我给你举个例子。在AlexNet最初的1000个分类中，有一个松鼠分类。我正好有一堆松鼠的照片，我们可以在我们的网络上试试。我们看到所有的预测都是正确的，除了这个。如果我们观察松鼠的深度梦，我们会看到什么?那头发呢，它被误认为什么了?有一些充满活力的颜色与我们尝试的前几张图片很好地对应。你可以看到与尾巴相关的特征。这些都是这张图片所没有的强烈特征。

我想我们可以在我们的网络中添加更多包含这些特征或缺乏这些特征的测试图像。

现在你已经有足够的知识开始深度学习，更具体地说，转移学习。但是我们的例子还没有完全结束。还记得我们刚才放的那个视频吗汽车在路上行驶?我们试着用AlexNet进行分类，这就是为什么我们克服了所有的困难来创建我们自己的定制模型。使用与之前相同的算法来检测图像中的汽车，我现在可以使用我们的模型进行分类。我们可以看到我们的模型认为它们是什么以及这个预测的能力。

很好。

这就是从迁移学习开始，以及很多了解你的网络并进行改进的技巧和技巧。我们希望您已经了解了MATLAB如何使处理大量图像、访问该领域专家的模型、可视化和调试网络以及使用gpu加速深度学习变得简单。

等等，你完全没讲完最后一个。

啊，这么说你注意到了。

是的,我是。

是的，我们没有明确说过。但如果你仔细看训练片段，输出消息表明我们是在一个单一的GPU上训练，一个NVIDIA^®3.0计算能力的GPU，这是使用GPU进行深度学习的最低要求。GPU计算和MATLAB的美妙之处在于它都是在幕后处理的。而你，作为一个用户，不需要担心它。MATLAB在默认情况下使用GPU，如果您使用GPU或云中的GPU集群或GPU，甚至CPU，则这些功能都不会改变。

你能用中央处理器来训练吗?我喜欢你从很大，更大，最大，然后缩小到基本的计算。

是的，技术上你可以使用CPU。但看看这段视频，试着在CPU和GPU上训练相同的深度学习算法。

哇。这是非常出众。

是的。所有这些都适用于培训过程的任何部分，无论是培训、测试，还是可视化一个网络。所以如果CPU是你唯一的选择，那就去买吧。但是我们鼓励你使用GPU进行训练，或者至少确保你在训练模型时有一个很长的咖啡休息时间。

好的。在我们最后的演示中，我们将讨论一个更有挑战性的问题它经常引起我们的注意。看看这张照片。如果我们把它呈现给我们的网络，它会认为它是什么?在任何情况下，到目前为止，我们只展示了将整个图像分类为一个类别的例子。但在这张图中，很明显在多个地点有多种车辆。我们训练的网络不能告诉我们这些。

这个经典问题叫做物体检测，或者在场景中定位物体。在这个例子中，我们看的是几辆车的后部。我们的目标是探测它们。所以我们需要创建一个对象检测器来识别我们所关心的对象。现在，我们该怎么做呢?

这次网络研讨会的主题是深度学习，那么深度学习呢?

太棒了。所以如果我们要训练一个车辆检测器从后面识别汽车，它需要大量的图像来训练。现在的问题是，我们的图像数据还没有裁剪到每一辆车，这意味着乍一看，我们必须从头开始完成裁剪和标记所有图像的繁琐任务。这个网络研讨会要多长时间?

30分钟或更少。

我觉得我们做不到。除非我们有MATLAB。耶。我很抱歉。MATLAB有内置的应用程序来帮助你完成这个过程。首先，你可以快速浏览所有数据，并在场景中的对象周围画出边界框。现在，即使这比手工裁剪好，你也不想重复100或1000次。因此，如果你有一个视频或图像序列，MATLAB可以自动在场景中标记对象的过程。

在视频的第一帧中，我指定了物体的位置。现在MATLAB会在整个视频中跟踪它。就像这样，我有数百个新标签的汽车背面不需要做100次。现在我们有了所有的图像和我们关心的对象的边界框。同样，对于真实世界和健壮的解决方案，你需要成千上万个对象的例子。万博尤文图斯想象一下在没有应用程序的情况下手动操作。

回到深度学习。我们要用CNN来训练物体探测器。我们完全可以像以前一样引进一个训练有素的CNN，这完全可以。但为了向你们展示一些新的东西，我们将从零开始创建一个CNN架构。所以我们不会实时输入所有内容，但是在MATLAB中从零开始创建一个CNN只是一个卷积、激活和拉层的问题——这是你之前谈到的三件事。

这就是我们在这里按顺序得到的。你可以决定使用多少个过滤器。由于我们将向您提供所有这些代码，您可以随意使用它，并从零开始创建您自己的CNN。现在是时候训练我们的探测器了。有了MATLAB的计算机视觉工具，我们实际上有几个物体检测器可供选择。很棒的是，你可以使用相同的训练数据对任何一个你选择的。正如你从这段代码中看到的，你可以非常简单地尝试所有这些，看看它们是如何工作的。

我们有关于这些检测器的文档，它将提供在特定场景中使用哪种检测器的建议。所以如果你计划使用对象检测，一定要注意这一点。

是的。我们训练了我们的探测器。我们会在一个样本图像上进行测试。你可以在这里看到结果。看起来很好。但为了更令人印象深刻的演示，让我们在视频中尝试一下。就像你看到的，它开在高速公路上。它对所有汽车进行分类。这是相当漂亮的。对于高级用户，您可以访问辅助函数以更好地了解其性能。

下面是MATLAB如何使目标检测变得简单，通过内置的应用程序快速标记你的数据，并用深度学习和计算机视觉中的其他工具训练你的算法。总结一下，请记住，尽管我们在示例中使用了很多车辆，但MATLAB和深度学习并不局限于对车辆进行分类。所以无论是人的脸，狗的品种，还是一个巨大的松鼠集合，你都可以用MATLAB轻松完成。

我想很快地提出我们对用深度学习解决回归问题的支持，这意味着你可万博1manbetx以输出一个数值而不是一个类或类别。我们有一些这样的例子，你可以检测道路上的车道边界。对于那些听腻了汽车的人，我们有一个预测面部关键点的软件，可以用来预测一个人的面部表情。

今天我们看到了一些用MATLAB和深度学习可以做的新事情。我们希望你们能够清楚地看到MATLAB是如何使令人生畏的深度学习任务变得更加容易。所以一定要查看我们在网络研讨会上使用的所有代码，并在自己的数据上进行测试。

如果你去Add On Manager，在那里你可以得到我们预先训练过的网络，你可以在同样的地方找到一些其他的资源来启动和运行深度学习，包括一个视频，展示如何使用MATLAB通过网络摄像头快速分类对象。

查看我们网站上的其他资源，了解如何开始深度学习，如果有任何问题，请随时给我们发邮件image-processing@mathworks.com．