主要内容

在GPU和云中并行扩展深度学习

训练深度网络是计算密集型的,可能需要很多小时的计算时间;然而,神经网络本质上是并行算法。通过使用高性能GPU和计算机集群并行运行,可以利用这种并行性。

建议使用一个GPU或多个GPU进行训练。如果没有GPU,只能使用单CPU或多CPU。在训练和推理方面,CPU通常比GPU慢得多。在单个GPU上运行通常比在多个CPU核上运行提供更好的性能。

如果您没有合适的GPU,您可以在云中租用高性能GPU和群集。有关热门访问MATLAB的更多信息®在深度学习的云里,看云中的深度学习

使用GPU或并行选项需要并行计算工具箱™。使用GPU还需要支持的GPU设备。万博1manbetx有关支持设备的信息,请参阅万博1manbetxGPU版万博1manbetx本支持(并行计算工具箱).使用远程群集也需要MATLAB并行服务器™

提示

对于列车网络工作流,GPU支持是自动的。默万博1manbetx认情况下列车网络函数使用GPU,如果一个可用。如果您可以访问具有多个GPU的机器,请指定ExecutionEnvironment培训选项为“多gpu”

运行自定义培训工作流程,包括数据链路网络工作流,在GPU上,使用minibatchqueue自动地将数据转换为gpuArray对象。

您可以使用并行资源来扩展单个网络的深度学习。你也可以同时训练多个网络。以下部分展示了在MATLAB中并行进行深度学习的可用选项:

笔记

如果您在单个远程机器(例如通过ssh或远程桌面协议连接到的云机器)上运行MATLAB,那么请按照以下步骤来获取本地资源。有关连接到云资源的更多信息,请参见云中的深度学习

并行训练单网络

利用局部资源并行训练单个网络

下表显示了在本地工作站上使用单一网络进行培训和推理的可用选项。

资源 列车网络工作流程 自定义培训工作流程 所需产品s manbetx 845
单CPU

如果没有可用的GPU,则为自动。

不建议使用单个CPU进行培训。

不建议使用单个CPU进行培训。

  • MATLAB

  • 深度学习工具箱™

多CPU核

如果您可以访问GPU,则不建议使用多个CPU核进行培训。

如果您可以访问GPU,则不建议使用多个CPU核进行培训。

  • MATLAB

  • 深度学习工具箱

  • 并行计算工具箱

单一的GPU

自动的。默认情况下,如果可以使用,则在GPU上运行培训和推理。

或者,指定ExecutionEnvironment培训选项为“GPU”

使用minibatchqueue自动地将数据转换为gpuArray对象。有关更多信息,请参阅在GPU和并行运行自定义培训循环

例如,请参见使用自定义训练循环的训练网络

多个GPU

指定ExecutionEnvironment培训选项为“多gpu”

例如,请参见使用自动多gpu支持训练网络万博1manbetx

启动本地并行池,使用尽可能多的工作GPU。有关详细信息,请参阅基于多gpu的MATLAB深度学习

使用parpool.用小批量的一部分对每个工人进行培训或推理。将每个部分迷你批次数据转换为gpuArray物体。对于训练,在每次迭代后聚合梯度、损失和状态参数。有关详细信息,请参阅在GPU和并行运行自定义培训循环

例如,请参见与自定义训练循环并行的训练网络.设定executionEnvironment可变到“自动”“GPU”

使用远程群集资源并行训练单个网络

下表显示了使用远程集群上的单个网络进行训练和推断的可用选项。

资源 列车网络工作流程 自定义培训工作流程 所需产品s manbetx 845
多个CPU.

如果您可以访问GPU,则不建议使用多个CPU核进行培训。

如果您可以访问GPU,则不建议使用多个CPU核进行培训。

  • MATLAB

  • 深度学习工具箱

  • 并行计算工具箱

  • MATLAB并行服务器

多个GPU

指定所需的群集作为默认群集配置文件。有关详细信息,请参阅管理群集配置文件和自动池创建

指定ExecutionEnvironment培训选项为“平行”

例如,请参见使用自动并行支持在云中训练网络万博1manbetx

在所需集群中启动一个并行池,使用尽可能多的可用GPU。有关详细信息,请参阅基于多gpu的MATLAB深度学习

使用parpool.在每个工作人员上执行培训或推断,在每个工作人员上的一部分迷你批处理。将每个部分迷你批次数据转换为gpuArray物体。对于训练,在每次迭代后聚合梯度、损失和状态参数。有关详细信息,请参阅在GPU和并行运行自定义培训循环

例如,请参见与自定义训练循环并行的训练网络.设定executionEnvironment可变到“自动”“GPU”

使用深度网络设计器和实验管理器并行训练单个网络

您可以使用深度网络设计器并行训练单个网络。您可以使用本地资源或远程集群进行培训。

  • 要使用多个gpu进行本地培训,请设置执行环境选项multi-gpu在“培训选项”对话框中。

  • 要使用远程群集进行培训,请设置执行环境选项平行在“培训选项”对话框中。如果当前没有并行池,软件将使用默认群集配置文件启动一个并行池。如果池可以访问GPU,则只有具有唯一GPU的工作人员才能执行培训计算。如果池中没有GPU,那么将对所有可用的CPU工作人员进行培训。

您可以使用实验管理器使用多个并行工作程序运行单个试验。有关详细信息,请参阅使用实验管理器并行训练网络

并行列车多个网络

使用本地或远程集群资源并行训练多个网络

要并行培训多个网络,请在不同的并行工作者上培训每个网络。您可以在每个工人上修改网络或培训参数以并行执行参数扫描。

使用议案(并行计算工具箱)Parfeval.(并行计算工具箱)为每个工人培训一个网络。要在后台运行而不阻塞本地MATLAB,请使用Parfeval.. 您可以使用OutputFcn培训选项。

您可以在本地运行,也可以使用远程集群。使用远程集群需要MATLAB并行服务器

资源 列车网络工作流程 自定义培训工作流程 所需产品s manbetx 845
多个CPU.

指定所需的群集作为默认群集配置文件。有关详细信息,请参阅管理群集配置文件和自动池创建

使用议案Parfeval.同时对每个工人执行培训或推断。指定ExecutionEnvironment培训选项为“中央处理器”为每个网络。

有关示例,请参见

指定所需的群集作为默认群集配置文件。有关详细信息,请参阅管理群集配置文件和自动池创建

使用议案Parfeval.同时对每个工人进行培训或推理。有关详细信息,请参阅在GPU和并行运行自定义培训循环

  • MATLAB

  • 深度学习工具箱

  • 并行计算工具箱

  • (可选)MATLAB并行服务器

多个GPU

在所需集群中启动一个并行池,使用尽可能多的可用GPU。有关详细信息,请参阅基于多gpu的MATLAB深度学习

使用议案Parfeval.在每个工作进程上同时执行网络。指定ExecutionEnvironment培训选项为“GPU”为每个网络。

有关示例,请参见

在所需集群中启动一个并行池,使用尽可能多的可用GPU。有关详细信息,请参阅基于多gpu的MATLAB深度学习

使用议案Parfeval.同时对每个工人进行培训或推理。有关详细信息,请参阅在GPU和并行运行自定义培训循环

将每个小批量数据转换为gpuArray. 使用minibatchqueue和集合户外环境财产“图形”自动地将数据转换为gpuArray对象。

使用实验经理并行培训多个网络

您可以使用实验经理同时运行多个并行工作者的试用。设置并行环境并启用使用并行选项,然后再运行您的实验。“实验管理器”运行的同步试验数量与并行池中的工作人员数量相同。有关详细信息,请参阅使用实验管理器并行训练网络

批处理深度学习

您可以使用一批(并行计算工具箱)作用这意味着您可以在后台运行计算时继续使用MATLAB,也可以关闭客户端MATLAB并稍后获取结果。

可以在本地集群或远端集群中运行批处理作业。要卸载您的深度学习计算,请使用一批提交在集群中运行的脚本或函数。您可以作为批处理作业执行任何类型的深度学习计算,包括并行计算。例如,请参见发送深度学习批作业到集群

要并行运行,请使用包含本地或集群中并行运行相同代码的脚本或函数。例如,您的脚本或函数可以运行列车网络使用“刽子度环境”,“平行”选项,或者并行运行自定义的训练循环。使用一批将脚本或函数提交到集群并使用水池选项指定要使用的工作进程数。有关使用运行并行计算的详细信息一批, 看运行批次并行作业(并行计算工具箱)

如果要在多个网络上进行深度学习计算,建议为每个网络提交单个批处理作业。这样做可以避免在集群中启动并行池所需的开销,并允许您使用作业监视器分别观察每个网络计算的进度。

您可以提交多个批处理作业。如果提交的作业需要更多的工人,而不是当前在群集中可用,那么稍后的作业将排队,直到早期的作业完成。排队的工作开始,当足够的工人可以运行这项工作时。

Worker的默认搜索路径可能与客户端的路径不同。要确保群集中的辅助对象可以访问所需的文件,例如代码文件、数据文件或模型文件,请使用含量径选择。

要在完成作业后检索结果,请使用获取输出(并行计算工具箱)作用获取输出检索批处理工作区中的所有变量。当您将批处理作业作为脚本提交时,默认情况下,工作区变量将从客户端复制到工人。为避免递归工作空间变量,请将批量作业提交为函数而不是脚本。

你可以使用日记(并行计算工具箱)在运行批处理作业时捕获命令行输出。执行时,这可能是有用的列车网络函数与冗长的选项设置为真正的

管理群集配置文件和自动池创建

并行计算工具箱是预先配置的集群配置文件地方的用于在本地桌面机器上运行并行代码。默认情况下,Matlab使用该启动所有并行池地方的集群配置文件。如果要在远程群集上运行代码,则必须使用远程群集配置文件启动并行池。您可以使用群集配置文件管理器管理群集配置文件。有关管理群集配置文件的详细信息,请参阅发现集群并使用集群配置文件(并行计算工具箱)

一些功能,包括列车网络预测分类议案,Parfeval.可以自动启动并行池。要利用自动并行池创建,请在群集配置文件管理器中将所需群集设置为默认群集配置文件。或者,您可以手动创建池,并在创建池时指定所需的群集资源。

如果希望在远程集群中使用多个gpu并行地训练多个网络或进行自定义训练循环,最佳实践是在所需集群中手动启动一个并行池,使用尽可能多的可用gpu。有关更多信息,请参阅基于多gpu的MATLAB深度学习

深度学习精度

为获得最佳性能,建议使用GPU进行所有深度学习工作流程。因为GPU的单精度和双精度性能大大不同,所以重要的是知道在进行精确计算。通常,GPU在单精度下为计算提供更好的性能。

如果您只使用GPU进行深度学习,则单精度性能是GPU最重要的特征之一。如果您还使用Parallet Computing Toolbox使用GPU进行其他计算,则高双精度性能很重要。这是因为Matlab中的许多函数默认使用双精度算术。有关更多信息,请参阅使用单精度计算提高性能(并行计算工具箱)

当你用列车网络功能,或使用预测或验证功能时Dagnetwork.系列网络对象,软件使用单精度浮点算术执行这些计算。培训,预测和验证的功能包括列车网络预测分类,激活.当你同时使用cpu和gpu训练网络时,该软件使用单精度算法。

对于自定义培训工作流程,建议将数据转换为单次精度进行培训和推理。如果你使用minibatchqueue要管理小批量,默认情况下,数据将转换为单精度。

也可以看看

||||

相关的话题