主要内容

深度学习技巧和技巧

本页描述了用于提高深度学习网络准确性的各种训练选项和技术。

选择网络架构

合适的网络体系结构取决于任务和可用的数据。在决定使用哪种体系结构以及是使用预训练的网络还是从头开始训练时,请考虑这些建议。

数据 任务描述 了解更多
图片 自然图像分类

尝试不同的预训练网络。有关预训练深度学习网络的列表,请参见预训练的深度神经网络

要了解如何使用深度网络设计器交互地准备用于迁移学习的网络,请参见基于深度网络设计器的迁移学习

自然图像回归 尝试不同的预训练网络。有关显示如何将预训练的分类网络转换为回归网络的示例,请参见将分类网络转换为回归网络
非自然图像的分类和回归(如微小图像和光谱图)

有关如何对微小图像进行分类的示例,请参见图像分类残差网络训练

有关如何对光谱图进行分类的示例,请参见利用深度学习训练语音指令识别模型

语义分割 计算机视觉工具箱™提供工具来创建用于语义分割的深度学习网络。有关更多信息,请参见开始使用深度学习进行语义分割(计算机视觉工具箱)
序列、时间序列和信号 Sequence-to-label分类 有关示例,请参见使用深度学习的序列分类
序列到序列的分类和回归 要了解更多信息,请参见使用深度学习的序列到序列分类而且使用深度学习的序列到序列回归
Sequence-to-one回归 有关示例,请参见使用深度学习的序列对一回归
时间序列预测 有关示例,请参见利用深度学习进行时间序列预测
文本 分类与回归 文本分析工具箱™提供了为文本数据创建深度学习网络的工具。有关示例,请参见使用深度学习分类文本数据
文本生成 有关示例,请参见使用深度学习生成文本
音频 音频分类与回归

尝试不同的预训练网络。有关预训练深度学习网络的列表,请参见Pretrained模型(音频工具箱)

若要了解如何以编程方式准备用于迁移学习的网络,请参见预训练音频网络的迁移学习(音频工具箱).要了解如何使用深度网络设计器交互地准备用于迁移学习的网络,请参见深度网络设计器中预训练音频网络的迁移学习

有关如何使用深度学习对声音进行分类的示例,请参见使用深度学习分类声音(音频工具箱)

选择培训项目

trainingOptions函数提供了多种选项来训练你的深度学习网络。

提示 更多的信息
监控培训进度 若要打开训练进度图,请设置“阴谋”选项trainingOptions“训练进步”
使用验证数据

要指定验证数据,请使用“ValidationData”选项trainingOptions

请注意

如果您的验证数据集太小,不能充分表示数据,那么报告的指标可能对您没有帮助。使用过大的验证数据集会导致训练变慢。

对于迁移学习,加快新层的学习速度,放慢已迁移层的学习速度

属性为新层指定更高的学习率因子WeightLearnRateFactor的属性convolution2dLayer

方法降低初始学习率“InitialLearnRate”选择trainingOptions

当迁移学习时,你不需要训练那么多周期。属性减少epoch的数量“MaxEpochs”选项trainingOptions

要了解如何使用深度网络设计器交互地准备用于迁移学习的网络,请参见基于深度网络设计器的迁移学习

每个纪元都洗牌数据

要在每个纪元(数据的一次完整传递)重新排列数据,请设置“洗牌”选项trainingOptions“every-epoch”

请注意

对于序列数据,变换会对准确性产生负面影响,因为它会增加填充或截断数据的数量。如果您有序列数据,那么按序列长度对数据进行排序会有所帮助。要了解更多信息,请参见序列填充,截断和分割

尝试不同的优化器

要指定不同的优化器,请使用solverName论点trainingOptions

有关更多信息,请参见参数设置与卷积神经网络训练

提高训练准确性

如果你在培训中发现了问题,那么考虑一下这些可能的解决方案。万博 尤文图斯

问题 可能的解决方案
nan或损失的大峰值

方法降低初始学习率“InitialLearnRate”选择trainingOptions

如果降低学习率没有帮助,那么尝试使用梯度裁剪。要设置梯度阈值,请使用“GradientThreshold”选项trainingOptions

在训练结束时,损失仍在减少 方法,通过增加使用的epoch数来训练更长的时间“MaxEpochs”选项trainingOptions
损失高原

如果损失在一个出乎意料的高值处,则在该平台处降低学习率。要更改学习率计划,请使用“LearnRateSchedule”选项trainingOptions

如果降低学习率没有帮助,那么模型可能是欠拟合的。尝试增加参数或层的数量。您可以通过监视验证损失来检查模型是否欠拟合。

验证损失远高于训练损失

为了防止过拟合,请尝试以下一种或多种方法:

损失减少得非常缓慢

方法提高初始学习率“InitialLearnRate”选择trainingOptions

对于图像数据,尝试在网络中包含批处理归一化层。有关更多信息,请参见batchNormalizationLayer

有关更多信息,请参见参数设置与卷积神经网络训练

纠正培训中的错误

如果你的网络根本没有训练,那么考虑一下可能的解决方案。万博 尤文图斯

错误 描述 可能的解决方案
训练时内存不足错误 可用的硬件无法存储当前的小批、网络权重和计算的激活。

方法减小小批大小“MiniBatchSize”选择trainingOptions

如果减小迷你批处理大小不起作用,那么尝试使用更小的网络,减少层数,或减少层中的参数或过滤器的数量。

自定义层错误 自定义层的实现可能存在问题。

检查自定义层的有效性,并发现潜在的问题checkLayer

如果在使用时测试失败checkLayer,然后函数提供了测试诊断和框架诊断。测试诊断突出任何层问题,而框架诊断提供更详细的信息。要详细了解测试诊断并获取可能解决方案的建议,请参见万博 尤文图斯诊断

训练抛出错误“CUDA_ERROR_UNKNOWN” 有时,GPU在用于操作系统的计算和显示请求时抛出此错误。

方法减小小批大小“MiniBatchSize”选择trainingOptions

如果减小小批大小不起作用,那么在Windows中®,尝试调整TDR (Timeout Detection and Recovery)设置。例如,更改TdrDelay从2秒(默认值)到4秒(需要注册表编辑)。

你可以分析你的深度学习网络使用analyzeNetwork.的analyzeNetwork函数显示网络体系结构的交互式可视化,检测网络的错误和问题,并提供有关网络层的详细信息。使用网络分析器来可视化和理解网络体系结构,检查您已经正确地定义了体系结构,并在培训之前发现问题。的问题,analyzeNetwork检测包括丢失或断开的层,层输入的不匹配或大小不正确,层输入的数量不正确,以及无效的图形结构。

准备和预处理数据

您可以通过预处理数据来提高准确性。

体重或平衡课程

理想情况下,所有类都有相同数量的观测值。然而,对于某些任务,类可能是不平衡的。例如,街道场景的汽车数据集往往有更多的天空、建筑和道路像素,而不是行人和骑自行车的像素,因为天空、建筑和道路覆盖了更多的图像区域。如果处理不当,这种不平衡可能不利于学习过程,因为学习倾向于优势阶级。

对于分类任务,可以使用“ClassWeights”选择classificationLayer.有关示例,请参见使用不平衡类数据的训练序列分类网络.对于语义分割任务,可以使用ClassWeights(计算机视觉工具箱)的属性pixelClassificationLayer(计算机视觉工具箱)

或者,你可以通过以下一项或多项来平衡这些类:

  • 从最不频繁的类中添加新的观察结果。

  • 从最频繁的类中删除观察值。

  • 将相似的类分组。例如,将类“car”和“truck”组合到单个类“vehicle”中。

预处理图像数据

有关预处理图像数据的详细信息,请参见用于深度学习的图像预处理

任务 更多的信息
调整图像

要使用预训练的网络,必须将图像大小调整为网络的输入大小。要调整图像大小,请使用augmentedImageDatastore.例如,此语法调整图像数据存储中的图像大小洛桑国际管理发展学院

auimds = augmentedImageDatastore(inputSize,imds);

提示

使用augmentedImageDatastore用于深度学习图像的有效预处理,包括图像大小调整。

请勿使用readFcn选项imageDatastore函数用于预处理或调整大小,因为此选项通常显着较慢。

图像增强

为了避免过度拟合,使用图像变换。要了解更多信息,请参见列车网络与增强图像

归一化回归目标

在将预测器输入到网络之前,将其规范化。如果在训练之前将响应归一化,则必须转换训练网络的预测以获得原始响应的预测。

有关更多信息,请参见训练卷积神经网络回归

预处理序列数据

有关使用LSTM网络的详细信息,请参见长短期记忆网络

任务 更多的信息
规范化序列数据

为了将序列数据归一化,首先计算所有序列的每个特征的平均值和标准偏差。然后,对于每个训练观察值,减去平均值并除以标准差。

要了解更多信息,请参见规范化序列数据

减少序列填充和截断

若要在填充或截断序列时减少填充或丢弃的数据量,请尝试按序列长度对数据进行排序。

要了解更多信息,请参见序列填充,截断和分割

为预测指定小批量大小和填充选项

当您使用不同长度的序列进行预测时,小批大小可能会影响添加到输入数据中的填充量,从而导致不同的预测值。尝试使用不同的值,看看哪个最适合你的网络。

要指定小批处理大小和填充选项,请使用“MiniBatchSize”而且“SequenceLength”的选项分类预测classifyAndUpdateState,predictAndUpdateState功能。

使用可用硬件

要指定执行环境,请使用“ExecutionEnvironment”选项trainingOptions

问题 更多的信息
CPU训练速度慢 如果在单个CPU上的训练太慢,可以尝试使用预先训练好的深度学习网络作为特征提取器,并训练机器学习模型。有关示例,请参见利用预训练网络提取图像特征
在GPU上训练LSTM速度较慢

CPU更适合使用具有短序列的小批量训练LSTM网络。如果需要使用CPU,请设置“ExecutionEnvironment”选项trainingOptions“cpu”

软件不会使用所有可用的图形处理器 如果您可以访问具有多个gpu的计算机,只需设置“ExecutionEnvironment”选项trainingOptions“multi-gpu”.有关更多信息,请参见基于MATLAB的多gpu深度学习

有关更多信息,请参见并行、gpu和云中扩展深度学习

修复从mat文件加载的错误

如果您无法从mat文件加载层或网络,并得到窗体警告

警告:无法将类layerType的实例加载到异构数组中。layerType的定义可能缺失或包含错误。默认对象将被替换。警告:当加载类'SeriesNetwork'的对象时:在层nnet.cnn.layer.MissingLayer中使用'forward'错误。该函数抛出错误,无法执行。
那么mat文件中的网络可能包含不可用的层。这可能是由于以下原因:

  • 要加载包含自定义层的网络,请将自定义层文件添加到MATLAB中®路径。

  • —如果要从支持包中使用层加载网络,请在命令行中使用相应的函数(例如:万博1manbetxresnet18)或使用Add-On资源管理器。

  • 要从文档示例中加载包含自定义层的网络,请将示例作为活动脚本打开,并将该层从示例文件夹复制到您的工作目录。

  • 该文件包含来自工具箱的未安装层-要从其他工具箱(例如,计算机视觉工具箱或文本分析工具箱)访问层,请安装相应的工具箱。

尝试建议的解决方案后,重新加载mat文件。万博 尤文图斯

另请参阅

|||

相关的话题