MATLABによる複数のGPUでの深層学習- MATLAB和Simuli万博1manbetxnk MathWorks日本

MATLABによる複数のGPUでの深層学習

ニューラルネットワークは本質的に並列アルゴリズムです。この並列性の利点を活かし,并行计算工具箱™を使用し,学習をマルチコアCPUやマルチコアGPU,複数のCPUとGPUを備えたコンピューターのクラスターに分散させることができます。

複数のGPUがあるマシンにアクセスできる場合は,関数trainingOptionsを使用して単純に学習オプション“multi-gpu”を指定できます。複数のGPUを使用した学習の場合,各イメージバッチがGPU間に分散されます。複数のGPUを使用した学習の詳細については,複数のGPUによる学習を参照してください。

より多くのリソースを使用する必要がある場合は,深層学習における学習をクラスターまたはクラウドにスケールアップできます。並列オプションの詳細は,並列およびクラウドでの深層学習のスケールアップを参照してください。例を試してみるには,自動並列サポートを使用したクラウドでのネットワークの学習を参照してください。

学習に使用する特定のGPUの選択

マシン上の利用可能なGPUをすべて使用するには,単純に学習オプション“ExecutionEnvironment”、“multi-gpu”を指定します。

複数のGPUのうち1つを選択して1つのモデルの学習に使用するには,次を使用します。

gpuDevice(索引)

1つのモデルの学習に複数のGPUを使用するが,全部のGPUは使わない場合は,事前に並列プールを開き,GPUを手動で選択します。特定のGPUを選択するには,次のコードを使用します。gpuIndicesはGPUのインデックスです。

parpool(当地的元素个数(gpuIndices));spmd gpuDevice (gpuIndices (labindex));结束

“multi-gpu” ExecutionEnvironment(または同じ結果が得られる“平行”)を使用してtrainNetworkを実行する場合,学習関数はこのプールを使用し,新しいプールを開きません。

別のオプションは,trainingOptionsの“WorkerLoad”オプションを使用してワーカーを選択する方法です。次に例を示します。

parpool(“当地”,5);opts = trainingOptions('sgdm'， 'WorkerLoad'，[1 1 1 0 1]，…)

この場合4番目のワーカーはプールの一部ですがアイドル状態であり,並列リソースの理想的な使用方法ではありません。gpuDeviceでGPUを指定する方が効率的です。

複数のモデルに1つずつGPUを使用して学習させる場合,それぞれのMATLABセッションを開始し,gpuDeviceを使用してデバイスを選択します。

または,parforループを使用します。

parfor i = 1: gpuDeviceCount trainNetwork(…);结束

自動並列サポートを使用したクラウドでのネットワークの学習

この例では次を使用します:

ライブスクリプトを開く

この例では,並列学習用のMATLABの自動サポートを使用して畳み込みニューラルネットワークに学習させる方法を説明します。多くの場合,深層学習における学習には数時間または数日かかります。並列計算を使用すると,複数のグラフィックス処理装置(GPU)をローカルで,またはクラウドのクラスターで使用して,学習を高速化できます。複数のGPUがあるマシンにアクセスできる場合は,データのローカルコピーに対してこの例を完了させることができます。より多くのリソースを使用する必要がある場合は,深層学習における学習をクラウドにスケールアップできます。並列学習のオプションの詳細は,並列およびクラウドでの深層学習のスケールアップを参照してください。この例では,MATLABの自動並列サポートを使用して,クラウドのクラスターで深層学習ネットワークに学習させる手順について順を追って説明します。

要件

例を実行する前に,クラスターを構成し,データをクラウドにアップロードする必要があります。MATLABでは、MATLAB デスクトップから直接、クラウドにクラスターを作成できます。[ホーム]タブの[並列]メニューで,[クラスターの作成と管理)を選択します。クラスタープロファイルマネージャーで,[クラウドクラスターの作成)をクリックします。または,MathWorksCloud Center を使用して計算クラスターを作成し、そのクラスターにアクセスすることもできます。詳細については、云中心入门を参照してください。その後,データをAmazon S3バケットにアップロードして,MATLABから直接アクセスします。この例では,Amazon S3に既に格納されているCIFAR-10データセットのコピーを使用します。手順については,クラウドへの深層学習データのアップロードを参照してください。

並列プールの設定

クラスターの並列プールを起動して,ワーカー数をクラスターのGPU数に設定します。GPUより多くのワーカーを指定した場合,残りのワーカーはアイドル状態になります。この例では,使用するクラスターが既定のクラスタープロファイルとして設定されていると仮定します。MATLABの[ホーム]タブの[並列]、(既定のクラスターの選択]で,既定のクラスタープロファイルを確認します。

numberOfWorkers = 8;parpool (numberOfWorkers);

使用“myclusterincloud”配置文件启动并行池(parpool)…连接8个工人。

クラウドからのデータセットの読み込み

imageDatastoreを使用して,学習データセットとテストデータセットをクラウドから読み込みます。この例では,Amazon S3に格納されているCIFAR-10データセットのコピーを使用します。ワーカーがクラウドのデータストアに確実にアクセスできるように,AWS資格情報の環境変数が正しく設定されていることを確認してください。クラウドへの深層学習データのアップロードを参照してください。

imdsTrain = imageDatastore (s3: / / cifar10cloud / cifar10 /火车'，．．．“IncludeSubfolders”,真的,．．．“LabelSource”，“foldernames”）;imdsTest = imageDatastore (s3: / / cifar10cloud / cifar10 /测试”，．．．“IncludeSubfolders”,真的,．．．“LabelSource”，“foldernames”）;

augmentedImageDatastoreオブジェクトを作成し,拡張イメージデータを使用してネットワークに学習させます。ランダムな平行移動と水平方向の反転を使用します。データ拡張は,ネットワークで過適合が発生したり,学習イメージの正確な詳細が記憶されたりすることを防止するのに役立ちます。

imageSize = [32 32 3];pixelRange = [-4 4];imageAugmenter = imageDataAugmenter (．．．“RandXReflection”,真的,．．．“RandXTranslation”pixelRange,．．．“RandYTranslation”, pixelRange);imdsTrain augmentedImdsTrain = augmentedImageDatastore(图象尺寸,．．．“DataAugmentation”imageAugmenter,．．．“OutputSizeMode”，“randcrop”）;

ネットワークアーキテクチャと学習オプションの定義

CIFAR-10データセット用のネットワークアーキテクチャを定義します。コードを簡略化するために,入力を畳み込む畳み込みブロックを使用します。プーリング層は空間次元をダウンサンプリングします。

blockDepth = 4;% blockDepth控制卷积块的深度netWidth = 32;% netWidth控制卷积块中过滤器的数量[imageInputLayer(imageSize) convolutionalBlock(netWidth,blockDepth) maxPooling2dLayer(2，“步”2) convolutionalBlock (2 * netWidth blockDepth) maxPooling2dLayer (2“步”，2) convolutionalBlock(4* nettwidth,blockDepth) averagePooling2dLayer(8) full connectedlayer (10) softmaxLayer classiationlayer];

学習オプションを定義します。実行環境を平行に設定して,現在のクラスターを使用してネットワークの並列学習を行います。複数のGPUを使用する場合,利用可能な計算リソースを増やします。GPUの数でミニバッチサイズをスケールアップし,各GPUでの作業負荷を一定に維持します。ミニバッチサイズに応じて学習率をスケーリングします。学習率のスケジュールを使用して,学習の進行に応じて学習率を下げます。学習の進行状況プロットをオンにして,学習中に,可視化されたフィードバックを取得します。

miniBatchSize = 256 * numberOfWorkers;initialLearnRate = 1e-1 * miniBatchSize/256;选择= trainingOptions (“个”，．．．“ExecutionEnvironment”，“平行”，．．．%打开自动并行支持。万博1manbetx“InitialLearnRate”initialLearnRate,．．．%设置初始学习速率。“MiniBatchSize”miniBatchSize,．．．%设置MiniBatchSize。“详细”假的,．．．%不发送命令行输出。“阴谋”，“训练进步”，．．．打开培训进度图。“L2Regularization”1平台以及．．．“MaxEpochs”, 50岁,．．．“洗牌”，“every-epoch”，．．．“ValidationData”imdsTest,．．．“ValidationFrequency”、地板(元素个数(imdsTrain.Files) / miniBatchSize),．．．“LearnRateSchedule”，“分段”，．．．“LearnRateDropFactor”, 0.1,．．．“LearnRateDropPeriod”, 45岁);

ネットワークの学習と分類での使用

クラスターでネットワークに学習させます。学習中に進行状況のプロットが表示されます。

净= trainNetwork (augmentedImdsTrain、层、期权)

net = SeriesNetwork与属性:层:[43×1 nnet.cn .layer. layer]

学習済みネットワークを使用してローカルマシン上でテストイメージを分類し,ネットワークの精度を判断します。次に,予測ラベルを実際のラベルと比較します。

YPredicted =分类(净,imdsTest);精度= sum(YPredicted == imdst . labels)/numel(imdst . labels)

補助関数の定義

ネットワークアーキテクチャで畳み込みブロックを作成する関数を定義します。

函数layers = convolutionalBlock(numFilters,numConvLayers)“填充”，“相同”) batchNormalizationLayer relullayer];层= repmat(层numConvLayers 1);结束

参考

imageDatastore|trainingOptions|trainNetwork|gpuDevice(并行计算工具箱)|spmd(并行计算工具箱)