主要内容

自动保存检查点在神经网络训练

定期在神经网络训练,中间结果可以保存到垫申请恢复如果计算机失败或你杀死的训练过程。这有助于保护长距离训练的价值,否则如果中断需要完全重新启动。这个特性尤其有用长平行训练,由计算资源更容易被打断的失败。

检查点保存与可选的启用“CheckpointFile”训练参数随后检查点文件名称或路径。如果你仅指定一个文件名,文件是默认放置在工作目录。文件必须有.mat文件扩展名,但如果不指定这个值是自动添加的。在这个例子中,检查点保存的文件MyCheckpoint.mat在当前工作目录中。

[x, t] = bodyfat_dataset;网= feedforwardnet (10);net2 =火车(净,x, t,“CheckpointFile”,“MyCheckpoint.mat”);
22 - 3月- 2013 04:49:05第一个检查点# 1:/ WorkingDir / MyCheckpoint。垫22 - 3月- 2013 04:49:06最后的检查点# 2:/ WorkingDir / MyCheckpoint.mat

默认情况下,检查点保存发生最多每隔60秒。前短训练的例子,结果只有两个检查点保存:一个开始和一个结束时的训练。

可选的训练参数“CheckpointDelay”可以更改保存的频率。例如,这里最低检查点延迟设置为10秒时间序列问题,神经网络训练模型悬浮磁铁。

[x, t] = maglev_dataset;网= narxnet (1:2, 1:2, 10);[X, Xi,人工智能,T] = preparets(净,X, {}, T);net2 =火车(净,X, T, Xi,人工智能,“CheckpointFile”,“MyCheckpoint.mat”,“CheckpointDelay”10);
22 - 3月- 2013 04:59:28第一个检查点# 1:/ WorkingDir / MyCheckpoint。垫22 - 3月- 2013 04:59:38写检查点# 2:/ WorkingDir / MyCheckpoint。垫22 - 3月- 2013 04:59:48写检查点# 3:/ WorkingDir / MyCheckpoint。垫22 - 3月- 2013 04:59:58写检查点# 4:/ WorkingDir / MyCheckpoint。垫22 - 3月- 2013 05:00:08写检查点# 5:/ WorkingDir / MyCheckpoint。垫22 - 3月- 2013 05:00:09最后的检查点# 6:/ WorkingDir / MyCheckpoint.mat

电脑故障或中断训练之后,可以重新加载关卡结构包含中断之前,得到的最好的神经网络和培训记录。在这种情况下,阶段字段值是“最后一次”,最后保存在最后的时期因为训练成功完成。第一个时代检查点是表示“第一”,以及中间的检查点“写”

负载(“MyCheckpoint.mat”)
检查点=文件:' / WorkdingDir / MyCheckpoint。垫的时间:[2013 3 22 5 0 9.0712]数量:6个阶段:“最终的净:[1 x1网络]tr: [1 x1 struct]

你可以从最后一个检查点恢复训练通过重新加载数据集(如果需要),然后调用训练与恢复网络。

网= checkpoint.net;[x, t] = maglev_dataset;负载(“MyCheckpoint.mat”);[X, Xi,人工智能,T] = preparets(净,X, {}, T);net2 =火车(净,X, T, Xi,人工智能,“CheckpointFile”,“MyCheckpoint.mat”,“CheckpointDelay”10);