网络架构定义了深度学习模型的构建方式,更重要的是它的设计目的。架构将决定:
在选择网络体系结构之前,重要的是要了解您拥有什么样的用例和可用的公共网络。
在开始深度学习时,你可能会遇到以下常见的架构:
•卷积神经网络(CNN): CNN通常与图像相关联,作为输入数据,但它们也可以用于其他输入数据,我将在问题1中详细介绍这些细节。
•递归神经网络(RNN): RNN通过连接来跟踪以前的信息,从而做出未来的预测。与cnn不同的是,每个输入都假定是一个独立的事件,rnn可以处理可能相互影响的数据序列。一个例子是在自然语言处理中,前一个单词会影响下一个单词的可能性。
•长短期记忆(LSTM): LSTM网络是用于序列和信号数据的一种常用RNN。我会在第三个问题中讲得更详细。
非常好的问题。简单的答案就是你可能希望CNN能对图片进行分类
这是为什么。
让我们从CNN和LSTM网络是什么开始,以及它们是如何被普遍使用的。
当谈到卷积神经网络时,有些人会说“卷积神经网络”,但每当我试图在对话中放弃这个词时,我总是觉得我在努力表现得很酷,但实际上我并不酷。
cnn由许多层组成,但遵循某种类似于| ReLU |池化的卷积模式,这种模式会不断重复(不断重复)。它们在图像分类中非常有用,因为它们非常擅长于局部空间模式匹配,而且在图像特征提取方面也普遍优于其他方法。请记住cnn的核心是卷积.将输入图像与一系列过滤器进行卷积,可以在不丢失相邻像素之间空间交互的情况下突出图像中的特征。
这个主题有很多变体,但cnn的一些常见配置如下:
长短期记忆网络主要与时间序列和序列数据有关。LSTM网络在做决定之前记住了部分数据,现在他们在上下文中看到数据,这有助于更好地进行关联。
这个图演示了一个简单的LSTM网络分类:
时间序列回归场景2:我有来自多个传感器的数据,想要预测剩余的使用寿命(机器需要维修或更换之前的时间)。
我和我的同事在工业自动化领域的客户身上看到了这个问题,他们需要在问题变得危险或昂贵之前识别出问题。这一次,您可能希望通过机器学习回归使用LSTM网络。这种方法减少了手动识别特征的需要,对于多个传感器来说,这将是一个重要的任务。
时间序列回归场景#3:我有音频数据想去噪。
在这里你可以使用CNN。这种方法的重要之处在于,在将信号传递到网络之前,先将其转换成图像。这意味着信号通过傅里叶变换或其他时频操作变成图像表示。使用图像提供了一种方法,可以看到你可能无法在原始信号中可视化的特征。所使用的网络可以是为图像设计的预先训练的网络,因为傅里叶变换本质上是一幅图像。
现在,再一次,你可以做你想做的。很有可能在场景1中使用LSTM网络,或者在场景2中使用CNN。这些场景只是给你一个起点。
网络架构和预先训练的网络是携手并进的。预训练模型是一个已经经过训练的神经网络。网络的权重和偏差根据输入数据进行调整,网络可以更快地为新任务进行重新训练。这个过程被称为迁移学习,有时需要更少的图像和更小的数据集。另一种探索方法是通过模拟或扩充“创造”更多数据。
现在,我要说的是,您应该使用任何您想要的网络,而不管数据集的大小,但是可以考虑使用预先训练过的网络,以减少输入数据的需求,或者考虑增加数据集的方法。我的下一篇专栏文章将讨论预先训练过的网络和模型,所以请关注这个主题的更多内容。