カスタムミニバッチデータストアの開発- MATLAB和Simul万博1manbetxink MathWorks日本

カスタムミニバッチデ，タストアの開発

“ミニバッチデータストア”とは,バッチ単位でのデータの読み取りをサポートするデータストアの実装です。ミニバッチデータストアは,深度学习工具箱™を使用する深層学習アプリケーションの学習データセット,検証データセット,テストデータセット,および予測データセットのソースとして使用できます。

シーケンスデータ,時系列データ,またはテキストデータを前処理するには,ここで説明するフレームワークを使用して独自のミニバッチデータストアを構築します。カスタムミニバッチデタストアを使用する方法を示す例にいては，シ，ケンスデ，タのカスタムミニバッチデ，タストアを使用したネットワ，クの学習を参照してください。

概要

カスタムデータストアのクラスおよびオブジェクトを使用して,カスタムデータストアインターフェイスを構築します。次に，カスタムデ，タストアを使用してデ，タをmatlab^®に読み込みます。

カスタムミニバッチデ，タストアの設計には，matlab.io.Datastoreおよびmatlab.io.datastore.MiniBatchableクラスからの継承や，必要なプロパティおよびメソッドの実装が含まれます。オプションで，学習中のシャッフルのサポ，トを追加できます。

処理のニ，ズ	クラス
深度学习工具箱での学習データセット,検証データセット,テストデータセット,および予測データセット用のミニバッチデータストア	`matlab.io.Datastore`および`matlab.io.datastore.MiniBatchable` MiniBatchableデ，タストアの実装を参照してください。
学習中のシャッフルをサポ，トするミニバッチデ，タストア	`matlab.io.Datastore`、`matlab.io.datastore.MiniBatchable`および`matlab.io.datastore.Shuffleable` シャッフルのサポ，トの追加を参照してください。

処理のニ，ズ

クラス

深度学习工具箱での学習データセット,検証データセット,テストデータセット,および予測データセット用のミニバッチデータストア

matlab.io.Datastoreおよびmatlab.io.datastore.MiniBatchable

MiniBatchableデ，タストアの実装を参照してください。

学習中のシャッフルをサポ，トするミニバッチデ，タストア

matlab.io.Datastore、matlab.io.datastore.MiniBatchableおよびmatlab.io.datastore.Shuffleable

シャッフルのサポ，トの追加を参照してください。

`MiniBatchable`デ，タストアの実装

MyDatastoreという名前のカスタムミニバッチデ，タストアを実装するには，スクリプトMyDatastore.mを作成します。このスクリプトはMATLABパス上になければならず,適切なクラスから継承し,必要なメソッドを定義するコードを含んでいる必要があります。深度学习工具箱での学習データセット、検証データセット、テストデータセット、および予測データセット用のミニバッチデータストアを作成するコードは以下でなければなりません。

クラスmatlab.io.Datastoreおよびmatlab.io.datastore.MiniBatchableから継承する。
プロパティMiniBatchSizeおよびNumObservationsを定義する。
メソッドhasdata、读、重置，および进步を定義する。

これらの手順に加えて，デ，タの処理および解析に必要なその他のプロパティやメソッドを定義できます。

メモ

ネットワ，クに学習させていて，trainingOptionsが“洗牌”を“一次”または“every-epoch”に指定している場合，matlab.io.datastore.Shuffleableクラスからも継承しなければなりません。詳細にいては，シャッフルのサポ，トの追加を参照してください。

デ，タストアの読み取り関数は，表でデ，タを返さなければなりません。表の要素は,スカラー,行ベクトルであるか,数値配列が格納された1行1列の细胞配列でなければなりません。

単一の入力層をも2。

ヒント

複数の入力層があるネットワ，クにデ，タストアを使用するには，関数结合および变换を使用して、列数が(numInputs+ 1)のcell配列を出力するデタストアを作成します。ここで，numInputsはネットワ，ク入力の数です。この場合，最初のnumInputs列は各入力の予測子を指定し，最後の列は応答を指定します。入力の順序は，層グラフ层のInputNamesプロパティによって指定します。

予測子の形式は，デ，タのタ，プによって異なります。

デタ	予測子の形式
2次元	高x宽x宽の数値配列。ここで，h、w、および c は、それぞれイメージの高さ、幅、およびチャネル数です。
3次元	高x宽x深x深の数値配列。ここで，h、w、d、および c は、それぞれイメージの高さ、幅、深さ、およびチャネル数です。
ベクトルシ，ケンス	C行s列の行列。ここで，c はシーケンスの特徴の数、s はシーケンス長です。
1次元メジシケンス	H x c x sの配列。ここで，h および c はそれぞれイメージの高さおよびチャネル数に対応します。s はシーケンス長です。ミニバッチ内の各シ，ケンスは，同じシ，ケンス長でなければなりません。
2次元メジシケンス	高x宽x c x sの配列。ここで，h、w、および c はそれぞれイメージの高さ、幅、およびチャネル数に対応します。s はシーケンス長です。ミニバッチ内の各シ，ケンスは，同じシ，ケンス長でなければなりません。
3次元メジシケンス	高x宽x深x c x sの配列。ここで，h、w、d、および c は、それぞれイメージの高さ、幅、深さ、およびチャネル数に対応します。s はシーケンス長です。ミニバッチ内の各シ，ケンスは，同じシ，ケンス長でなければなりません。
特徴	C行1列の列ベクトル。Cは特徴の数です。

表要素には,数値スカラー,数値行ベクトルが含まれているか,数値配列が格納された1行1列の细胞配列が含まれていなければなりません。

関数trainNetworkは，複数のシケンス入力層をもネットワクをサポトしていません。

応答の形式は，タスクのタ。

タスク	応答の形式
分類	分类スカラ
回帰	スカラ数値ベクトル ►►►►►►►►►►►►►►►►►►►►►►►►►►
序列对序列分類	カテゴリカルラベルの1行s列のシ，ケンス。ここで，s は対応する予測子シーケンスのシーケンス長です。
序列对序列回帰	R行s列の行列。ここで，R は応答の数、s は対応する予測子シーケンスのシーケンス長です。

表要素には,直言スカラー,数値スカラー,数値行ベクトルが含まれているか,数値配列が格納された1行1列の细胞配列が含まれていなければなりません。

この例では,シーケンスデータを処理するためのカスタムミニバッチデータストアを作成する方法を説明します。スクリプトをMySequenceDatastore.mという名前のファ@ @ルに保存します。

手順実装

手順	実装
クラスの定義を開始します。基底クラス`matlab.io.Datastore`および`matlab.io.datastore.MiniBatchable`クラスから継承します。プロパティを定義します。 `MiniBatchSize`および`NumObservations`のプロパティを再定義します。オプションで，追加のプロパティ属性をどらかのプロパティに割り当てることができます。詳細にいては，プロパティの属性を参照してください。カスタムミニバッチデ，タストアに固有のプロパティを定義することもできます。メソッドを定義します。カスタムミニバッチデ，タストアコンストラクタ，を実装します。 `hasdata`メソッドを実装します。 `读`メソッドを実装します。このメソッドは1番目の列が予測子,2番目の列が応答であるテーブルとしてデータを返さなければなりません。シケンスデタの場合，シケンスはサズがc行s列の行列でなければなりません。Cは特徴の数，sはシ，ケンス長です。Sの値はミニバッチ間で異なる場合があります。 `重置`メソッドを実装します。 `进步`メソッドを実装します。カスタムミニバッチデ，タストアに固有のメソッドを定義することもできます。 `classdef`セクションを終了します。	classdefMySequenceDatastore < matlab.io.Datastore &.．.matlab.io.datastore.MiniBatchable属性数据存储标签NumClasses SequenceDimension MiniBatchSize结束属性(SetAccess = protected) NumObservations结束属性(Access = private)此属性从数据存储继承CurrentFileIndex结束方法函数ds = MySequenceDatastore(文件夹)构造一个MySequenceDatastore对象创建文件数据存储。readSequence函数为%定义在类定义之后。fds = fileDatastore(文件夹，.．.“ReadFcn”@readSequence,.．.“IncludeSubfolders”,真正的);ds。数据存储= fds;从文件夹名中读取标签numObservations = numel(fds.Files);为i = 1:numObservations file = fds.Files{i};Filepath = fileparts(文件);[~，label] = fileparts(filepath);标签{i,1} =标签;结束ds。标签=分类的(标签);ds。NumClasses = numel(唯一的(标签));确定序列维数。定义LSTM时%网络架构，您可以使用此属性来指定sequenceInputLayer的输入大小。X =预览(fds);ds。SequenceDimension = size(X,1);初始化数据存储属性。ds。MiniBatchSize = 128;ds。NumObservations = NumObservations;ds。CurrentFileIndex = 1;结束函数Tf = hasdata(ds)%如果有更多可用数据则返回trueTf = ds。CurrentFileIndex + ds。MiniBatchSize - 1.．.< = ds.NumObservations;结束函数[data,info] = read(ds)读取一个小批量数据miniBatchSize = ds.MiniBatchSize;Info = struct;为i = 1:miniBatchSize predictors{i,1} = read(ds.Datastore);responses(i,1) = ds.Labels(ds.CurrentFileIndex);ds。CurrentFileIndex = ds。CurrentFileIndex + 1;结束data = preprocessData(ds,predictors,responses);结束函数data = preprocessData(ds,predictors,responses)% data = preprocessData(ds,predictors,responses)预处理%预测器和响应中的数据，并返回表%的数据miniBatchSize = ds.MiniBatchSize;将数据填充到最长序列的长度。sequenceLengths = cellfun(@(X) size(X,2)，predictors);maxSequenceLength = max(sequenceLengths);为i = 1:miniBatchSize X = predictors{i};%零填充序列。如果size(X,2) < maxSequenceLength X(:，maxSequenceLength) = 0;结束预测器{i} = X;结束以表形式返回数据。数据=表(预测器，响应);结束函数重置(ds)重置到数据的开始位置重置(ds.Datastore);ds。CurrentFileIndex = 1;结束结束方法(Hidden = true)函数压裂=进展(ds)确定从数据存储读取数据的百分比压裂= (ds。CurrentFileIndex - 1) / ds.NumObservations;结束结束结束结束类定义カスタムデ，タストアの読み取り方法の実装には，`readSequence`という関数が使用されます。Matファルからシケンスデタを読み取るにはこの関数を作成しなければなりません。函数数据= readSequence(文件名)% data = readSequence(filename)从mat文件中读取序列X%文件名S = load(文件名);数据= S.X;结束

クラスの定義を開始します。基底クラスmatlab.io.Datastoreおよびmatlab.io.datastore.MiniBatchableクラスから継承します。
プロパティを定義します。
- MiniBatchSizeおよびNumObservationsのプロパティを再定義します。オプションで，追加のプロパティ属性をどらかのプロパティに割り当てることができます。詳細にいては，プロパティの属性を参照してください。
- カスタムミニバッチデ，タストアに固有のプロパティを定義することもできます。
メソッドを定義します。
- カスタムミニバッチデ，タストアコンストラクタ，を実装します。
- hasdataメソッドを実装します。
- 读メソッドを実装します。このメソッドは1番目の列が予測子,2番目の列が応答であるテーブルとしてデータを返さなければなりません。
  シケンスデタの場合，シケンスはサズがc行s列の行列でなければなりません。Cは特徴の数，sはシ，ケンス長です。Sの値はミニバッチ間で異なる場合があります。
- 重置メソッドを実装します。
- 进步メソッドを実装します。
- カスタムミニバッチデ，タストアに固有のメソッドを定義することもできます。
classdefセクションを終了します。

classdefMySequenceDatastore < matlab.io.Datastore &.．.matlab.io.datastore.MiniBatchable属性数据存储标签NumClasses SequenceDimension MiniBatchSize结束属性(SetAccess = protected) NumObservations结束属性(Access = private)此属性从数据存储继承CurrentFileIndex结束方法函数ds = MySequenceDatastore(文件夹)构造一个MySequenceDatastore对象创建文件数据存储。readSequence函数为%定义在类定义之后。fds = fileDatastore(文件夹，.．.“ReadFcn”@readSequence,.．.“IncludeSubfolders”,真正的);ds。数据存储= fds;从文件夹名中读取标签numObservations = numel(fds.Files);为i = 1:numObservations file = fds.Files{i};Filepath = fileparts(文件);[~，label] = fileparts(filepath);标签{i,1} =标签;结束ds。标签=分类的(标签);ds。NumClasses = numel(唯一的(标签));确定序列维数。定义LSTM时%网络架构，您可以使用此属性来指定sequenceInputLayer的输入大小。X =预览(fds);ds。SequenceDimension = size(X,1);初始化数据存储属性。ds。MiniBatchSize = 128;ds。NumObservations = NumObservations;ds。CurrentFileIndex = 1;结束函数Tf = hasdata(ds)%如果有更多可用数据则返回trueTf = ds。CurrentFileIndex + ds。MiniBatchSize - 1.．.< = ds.NumObservations;结束函数[data,info] = read(ds)读取一个小批量数据miniBatchSize = ds.MiniBatchSize;Info = struct;为i = 1:miniBatchSize predictors{i,1} = read(ds.Datastore);responses(i,1) = ds.Labels(ds.CurrentFileIndex);ds。CurrentFileIndex = ds。CurrentFileIndex + 1;结束data = preprocessData(ds,predictors,responses);结束函数data = preprocessData(ds,predictors,responses)% data = preprocessData(ds,predictors,responses)预处理%预测器和响应中的数据，并返回表%的数据miniBatchSize = ds.MiniBatchSize;将数据填充到最长序列的长度。sequenceLengths = cellfun(@(X) size(X,2)，predictors);maxSequenceLength = max(sequenceLengths);为i = 1:miniBatchSize X = predictors{i};%零填充序列。如果size(X,2) < maxSequenceLength X(:，maxSequenceLength) = 0;结束预测器{i} = X;结束以表形式返回数据。数据=表(预测器，响应);结束函数重置(ds)重置到数据的开始位置重置(ds.Datastore);ds。CurrentFileIndex = 1;结束结束方法(Hidden = true)函数压裂=进展(ds)确定从数据存储读取数据的百分比压裂= (ds。CurrentFileIndex - 1) / ds.NumObservations;结束结束结束结束类定义

カスタムデ，タストアの読み取り方法の実装には，readSequenceという関数が使用されます。Matファルからシケンスデタを読み取るにはこの関数を作成しなければなりません。

函数数据= readSequence(文件名)% data = readSequence(filename)从mat文件中读取序列X%文件名S = load(文件名);数据= S.X;结束

シャッフルのサポ，トの追加

シャッフルのサポ，トを追加するには，まず，MiniBatchableデ，タストアの実装の手順に従います。次にMySequenceDatastore.mの実装コ，ドを次のように更新します。

追加クラスmatlab.io.datastore.Shuffleableから継承します。
追加メソッド洗牌を定義します。

この例のコ，ドでは，シャッフルのサポ，トをMySequenceDatastoreクラスに追加します。縦並びの省略記号は，MySequenceDatastoreの実装からコ，ドをコピ，する必要がある場所を示します。

手順実装

手順	実装
クラス定義を更新して，`matlab.io.datastore.Shuffleable`クラスからも継承します。 `洗牌`の定義を既存の`方法`セクションに追加します。	classdefMySequenceDatastore < matlab.io.Datastore &.．.matlab.io.datastore.MiniBatchable &.．.matlab.io.datastore.Shuffleable%先前定义的属性……方法%先前定义的方法……函数dsNew = shuffle(ds)% dsNew = shuffle(ds)打乱文件和%对应的标签在数据存储。创建一个数据存储副本dsNew =复制(ds);dsNew。Datastore = copy(ds.Datastore);fds = dsnew .数据存储;打乱文件和相应的标签numObservations = dsNew.NumObservations;idx = randperm(numObservations);fds。Files = fds.Files(idx);dsNew。标签= dsNew.Labels(idx);结束结束结束

クラス定義を更新して，matlab.io.datastore.Shuffleableクラスからも継承します。
洗牌の定義を既存の方法セクションに追加します。

classdefMySequenceDatastore < matlab.io.Datastore &.．.matlab.io.datastore.MiniBatchable &.．.matlab.io.datastore.Shuffleable%先前定义的属性……方法%先前定义的方法……函数dsNew = shuffle(ds)% dsNew = shuffle(ds)打乱文件和%对应的标签在数据存储。创建一个数据存储副本dsNew =复制(ds);dsNew。Datastore = copy(ds.Datastore);fds = dsnew .数据存储;打乱文件和相应的标签numObservations = dsNew.NumObservations;idx = randperm(numObservations);fds。Files = fds.Files(idx);dsNew。标签= dsNew.Labels(idx);结束结束结束

カスタムミニバッチデ，タストアの検証

ここに記載したすべての手順に従うと，カスタムミニバッチデ，タストアの実装が完了します。このデ，タストアを使用する前に，カスタムデタストアのテストのガドランに記載されているガドランを使用して，デタストアが適切か確認します。

参考

trainNetwork

カスタムミニバッチデ，タストアの開発

概要

MiniBatchableデ，タストアの実装

シャッフルのサポ，トの追加

カスタムミニバッチデ，タストアの検証

参考

関連する例

詳細

`MiniBatchable`デ，タストアの実装