lstmLayer

長短期記憶 (LSTM) 層

このページをすべて展開する

説明

LSTM 層は、時系列データおよびシーケンスデータのタイムステップ間の長期的な依存関係を学習します。

この層により交互作用が付加され、学習中の長いシーケンスでの勾配フローの改善に役立ちます。

作成

構文

layer = lstmLayer(numHiddenUnits)

layer = lstmLayer(numHiddenUnits,Name,Value)

説明

例

layer= lstmLayer(numHiddenUnits)は、LSTM 層を作成し、NumHiddenUnitsプロパティを設定します。

例

layer= lstmLayer(numHiddenUnits,Name,Value)は、1 つ以上の名前と値のペアの引数を使用して、追加のOutputMode、活性化、状態、パラメーターと初期化、学習率および正則化、およびNameの各プロパティを設定します。複数の名前と値のペアの引数を指定できます。各プロパティ名を引用符で囲みます。

プロパティ

すべて展開する

LSTM

`NumHiddenUnits`—隠れユニットの数
正の整数

このプロパティは読み取り専用です。

隠れユニットの数 (隠れサイズとも呼ばれる)。正の整数として指定します。

隠れユニットの数は、タイムステップ間に層によって記憶された情報 (隠れ状態) の量に相当します。隠れ状態には、シーケンス長に関係なく、以前のすべてのタイムステップからの情報を含めることができます。隠れユニットの数が大きすぎる場合、層が学習データに対して過適合する可能性があります。

隠れ状態によって、1 回の反復の間に層で処理されるタイムステップ数が制限されることはありません。関数trainNetworkを使用するときにシーケンスをより小さなシーケンスに分割するには、SequenceLength学習オプションを使用します。

この層は、NumHiddenUnits個のチャネルをもつデータを出力します。

`OutputMode`—出力モード
`'sequence'`(既定値) |`'last'`

このプロパティは読み取り専用です。

出力モード。次のいずれかの値として指定します。

'sequence'— シーケンス全体を出力します。
'last'— シーケンスの最後のタイムステップを出力します。

`HasStateInputs`—層への状態入力のフラグ
`0`(false)(既定値) |`1`(true)

このプロパティは読み取り専用です。

層への状態入力のフラグ。0(false) または1(true) として指定します。

HasStateInputsプロパティが0(false) の場合、層は、入力データに対応する'in'という名前の 1 つの入力をもちます。この場合、層はHiddenStateプロパティとCellStateプロパティを使用して層処理を行います。

HasStateInputsプロパティが1(true) の場合、層は、それぞれ入力データ、隠れ状態、およびセル状態に対応する'in'、'hidden'、および'cell'という名前の 3 つの入力をもちます。この場合、層はこれらの入力に渡された値を使用して層処理を行います。HasStateInputsが1(true) の場合、HiddenStateプロパティとCellStateプロパティは空でなければなりません。

`HasStateOutputs`—層からの状態出力のフラグ
`0`(false)(既定値) |`1`(true)

このプロパティは読み取り専用です。

層からの状態出力のフラグ。0(false) または1(true) として指定します。

HasStateOutputsプロパティが0(false) の場合、層は、出力データに対応する'out'という名前の 1 つの出力をもちます。

HasStateOutputsプロパティが1(true) の場合、層は、それぞれ出力データ、隠れ状態、およびセル状態に対応する'out'、'hidden'、および'cell'という名前の 3 つの出力をもちます。この場合、層は、計算した状態値も出力します。

`InputSize`—入力サイズ
`'auto'`(既定値) |正の整数

このプロパティは読み取り専用です。

入力サイズ。正の整数または'auto'として指定します。InputSizeが'auto'の場合、学習時に入力サイズが自動的に割り当てられます。

データ型:double|char

活性化

`StateActivationFunction`—セル状態と隠れ状態を更新する活性化関数
`'tanh'`(既定値) |`'softsign'`

このプロパティは読み取り専用です。

セル状態と隠れ状態を更新する活性化関数。次のいずれかの値として指定します。

'tanh'— 双曲線正接関数 (tanh) を使用します。
'softsign'— ソフトサイン関数 $softsign (x) = \frac{x}{1 + | x |}$ を使用します。

層は,セル状態と隠れ状態を更新する計算における関数 $σ_{c}$ としてこのオプションを使用します。LSTM 層が活性化関数をどのように使用するかの詳細については、長短期記憶層を参照してください。

`GateActivationFunction`—ゲートに適用する活性化関数
`'sigmoid'`(既定値) |`'hard-sigmoid'`

このプロパティは読み取り専用です。

ゲートに適用する活性化関数。次のいずれかの値として指定します。

'sigmoid'— シグモイド関数 $σ (x) = {(1 + e^{- x})}^{- 1}$ を使用します。
'hard-sigmoid'— ハードシグモイド関数を使用します。

$σ (x) = {\begin{matrix} \begin{array}{l} 0 \\ 0.2 x + 0.5 \\ 1 \end{array} & \begin{array}{l} if x < - 2.5 \\ if - 2.5 \leq x \leq 2.5 \\ if x > 2.5 \end{array} \end{matrix} .$

層は、層のゲートの計算における関数 $σ_{g}$ としてこのオプションを使用します。

状態

`CellState`—セル状態
`[]`(既定値) |数値ベクトル

層処理で使用されるセル状態。NumHiddenUnits行 1 列の数値ベクトルとして指定します。この値は、データが層に渡されるときのセル状態の初期値に対応します。

このプロパティを手動で設定した後に関数resetStateを呼び出すと、セル状態がこの値に設定されます。

HasStateInputsが1(true) の場合、CellStateプロパティは空でなければなりません。

データ型:single|double

`HiddenState`—隠れ状態
`[]`(既定値) |数値ベクトル

層処理で使用される隠れ状態。NumHiddenUnits行 1 列の数値ベクトルとして指定します。この値は、データが層に渡されるときの隠れ状態の初期値に対応します。

このプロパティを手動で設定した後に関数resetStateを呼び出すと、隠れ状態がこの値に設定されます。

HasStateInputsが1(true) の場合、HiddenStateプロパティは空でなければなりません。

データ型:single|double

パラメーターと初期化

`InputWeightsInitializer`—入力の重みを初期化する関数
`'glorot'`(既定値) |`'he'`|`'orthogonal'`|`'narrow-normal'`|`'zeros'`|`'ones'`|関数ハンドル

入力の重みを初期化する関数。次のいずれかに指定します。

'glorot'– Glorot 初期化子[4](Xavier 初期化子とも呼ばれる) を使用して入力の重みを初期化します。Glorot 初期化子は、平均 0、分散2/(InputSize + numOut)の一様分布から個別にサンプリングを行います。ここで、numOut = 4*NumHiddenUnitsです。
'he'– He 初期化子[5]を使用して入力の重みを初期化します。He 初期化子は、平均 0、分散2/InputSizeの正規分布からサンプリングを行います。
'orthogonal'– 直交行列 Q を使用して入力の重みを初期化します。この直交行列は、単位正規分布からサンプリングされた乱数行列 Z に対する Z = QR の QR 分解によって与えられます。[6]
'narrow-normal'– 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、入力の重みを初期化します。
'zeros'– 0 で入力の重みを初期化します。
'ones'– 1 で入力の重みを初期化します。
関数ハンドル – カスタム関数で入力の重みを初期化します。関数ハンドルを指定する場合、関数はweights = func(sz)という形式でなければなりません。ここで、szは入力の重みのサイズです。

この層では、InputWeightsプロパティが空の場合にのみ入力の重みが初期化されます。

データ型:char|string|function_handle

`RecurrentWeightsInitializer`—再帰重みを初期化する関数
`'orthogonal'`(既定値) |`'glorot'`|`'he'`|`'narrow-normal'`|`'zeros'`|`'ones'`|関数ハンドル

再帰重みを初期化する関数。次のいずれかに指定します。

'orthogonal'– 直交行列 Q を使用して再帰重みを初期化します。この直交行列は、単位正規分布からサンプリングされた乱数行列 Z に対する Z = QR の QR 分解によって与えられます。[6]
'glorot'– Glorot 初期化子[4](Xavier 初期化子とも呼ばれる) を使用して再帰重みを初期化します。Glorot 初期化子は、平均 0、分散2/(numIn + numOut)の一様分布から個別にサンプリングを行います。ここで、numIn = NumHiddenUnitsおよびnumOut = 4*NumHiddenUnitsです。
'he'– He 初期化子[5]を使用して再帰重みを初期化します。He 初期化子は、平均 0、分散2/NumHiddenUnitsの正規分布からサンプリングを行います。
'narrow-normal'——平均0,標準偏差0.01の正規分布から個別にサンプリングを行って,再帰重みを初期化します。
'zeros'– 0 で再帰重みを初期化します。
'ones'– 1 で再帰重みを初期化します。
関数ハンドル – カスタム関数で再帰重みを初期化します。関数ハンドルを指定する場合、関数はweights = func(sz)という形式でなければなりません。ここで、szは再帰重みのサイズです。

この層では、RecurrentWeightsプロパティが空の場合にのみ再帰重みが初期化されます。

データ型:char|string|function_handle

`BiasInitializer`—バイアスを初期化する関数
`'unit-forget-gate'`(既定値) |`'narrow-normal'`|`'ones'`|関数ハンドル

バイアスを初期化する関数。次のいずれかの値として指定します。

'unit-forget-gate'— 忘却ゲートバイアスを 1 で初期化し、残りのバイアスを 0 で初期化します。
'narrow-normal'— 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、バイアスを初期化します。
'ones'— 1 でバイアスを初期化します。
関数ハンドル — カスタム関数でバイアスを初期化します。関数ハンドルを指定する場合、関数はbias = func(sz)という形式でなければなりません。ここで、szはバイアスのサイズです。

この層では、Biasプロパティが空の場合にのみバイアスが初期化されます。

データ型:char|string|function_handle

`InputWeights`—入力重み
`[]`(既定値) |行列

入力の重み。行列として指定します。

この入力重み行列は、LSTM 層にあるコンポーネント (ゲート) の 4 つの入力重み行列の連結です。4 つの行列は、以下の順で垂直に連結されています。

入力ゲート
忘却ゲート
セル候補
出力ゲート

入力の重みは学習可能なパラメーターです。関数trainNetworkによってネットワークに学習させる際、InputWeightsが空ではない場合、InputWeightsプロパティが初期値として使用されます。InputWeightsが空の場合、InputWeightsInitializerによって指定された初期化子が使用されます。

学習時、InputWeightsは4*NumHiddenUnits行InputSize列の行列です。

`RecurrentWeights`—再帰重み
`[]`(既定値) |行列

再帰重み。行列として指定します。

この再帰重み行列は、LSTM 層にあるコンポーネント (ゲート) の 4 つの再帰重み行列の連結です。4 つの行列は、以下の順で垂直に連結されています。

入力ゲート
忘却ゲート
セル候補
出力ゲート

再帰重みは学習可能なパラメーターです。関数trainNetworkによってネットワークに学習させる際、RecurrentWeightsが空ではない場合、RecurrentWeightsプロパティが初期値として使用されます。RecurrentWeightsが空の場合、RecurrentWeightsInitializerによって指定された初期化子が使用されます。

学習時、RecurrentWeightsは4*NumHiddenUnits行NumHiddenUnits列の行列です。

`Bias`—層のバイアス
`[]`(既定値) |数値ベクトル

層のバイアス。数値ベクトルとして指定します。

このバイアスベクトルは、層にあるコンポーネント (ゲート) の 4 つのバイアスベクトルの連結です。この層は、4 つのベクトルを次の順序で垂直に連結します。

入力ゲート
忘却ゲート
セル候補
出力ゲート

層のバイアスは学習可能なパラメーターです。ネットワークの学習時に、Biasが空ではない場合、trainNetworkはBiasプロパティを初期値として使用します。Biasが空の場合、trainNetworkはBiasInitializerによって指定された初期化子を使用します。

学習時、Biasは4*NumHiddenUnits行 1 列の数値ベクトルです。

学習率および正則化

`InputWeightsLearnRateFactor`—入力の重みの学習率係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

入力の重みの学習率係数。非負のスカラーまたは 1 行 4 列の数値ベクトルとして指定します。

この係数にグローバル学習率が乗算されて、層の入力の重みの学習率係数が決定されます。たとえば、InputWeightsLearnRateFactorが2の場合、層の入力の重みの学習率係数は現在のグローバル学習率の 2 倍になります。関数trainingOptionsで指定した設定に基づいて、グローバル学習率が決定されます。

InputWeightsに含まれる 4 つの個々の行列について学習率係数の値を制御するには、1 行 4 列のベクトルを指定します。InputWeightsLearnRateFactorのエントリは、以下のコンポーネントの学習率係数に対応します。

入力ゲート
忘却ゲート
セル候補
出力ゲート

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例:2

例:[1 2 1 1]

`RecurrentWeightsLearnRateFactor`—再帰重みの学習率係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

再帰重みの学習率係数。非負のスカラーまたは 1 行 4 列の数値ベクトルとして指定します。

この係数にグローバル学習率が乗算されて、層の再帰重みの学習率が決定されます。たとえば、RecurrentWeightsLearnRateFactorが2の場合、層の再帰重みの学習率は現在のグローバル学習率の 2 倍になります。関数trainingOptionsで指定した設定に基づいて、グローバル学習率が決定されます。

RecurrentWeightsに含まれる 4 つの個々の行列について学習率係数の値を制御するには、1 行 4 列のベクトルを指定します。RecurrentWeightsLearnRateFactorのエントリは、以下のコンポーネントの学習率係数に対応します。

入力ゲート
忘却ゲート
セル候補
出力ゲート

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例:2

例:[1 2 1 1]

`BiasLearnRateFactor`—バイアスの学習率係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

バイアスの学習率係数。非負のスカラーまたは 1 行 4 列の数値ベクトルとして指定します。

この係数にグローバル学習率が乗算されて、この層のバイアスの学習率が決定されます。たとえば、BiasLearnRateFactorが2の場合、層のバイアスの学習率は現在のグローバル学習率の 2 倍になります。関数trainingOptionsで指定した設定に基づいて、グローバル学習率が決定されます。

Biasに含まれる 4 つの個々のベクトルについて学習率係数の値を制御するには、1 行 4 列のベクトルを指定します。BiasLearnRateFactorのエントリは、以下のコンポーネントの学習率係数に対応します。

入力ゲート
忘却ゲート
セル候補
出力ゲート

すべてのベクトルに同じ値を指定するには、非負のスカラーを指定します。

例:2

例:[1 2 1 1]

`InputWeightsL2Factor`—入力の重みの L₂正則化係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

入力の重みの L₂正則化係数。非負のスカラーまたは 1 行 4 列の数値ベクトルとして指定します。

この係数にグローバル L₂正則化係数が乗算されて、層の入力の重みの L₂正則化係数が決定されます。たとえば、InputWeightsL2Factorが2の場合、層の入力の重みの L₂正則化係数は現在のグローバル L₂正則化係数の 2 倍になります。関数trainingOptionsで指定した設定に基づいて、L₂正則化係数が決定されます。

InputWeightsに含まれる 4 つの個々の行列の L₂正則化係数の値を制御するには、1 行 4 列のベクトルを指定します。InputWeightsL2Factorのエントリは、以下のコンポーネントの L₂正則化係数に対応します。

入力ゲート
忘却ゲート
セル候補
出力ゲート

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例:2

例:[1 2 1 1]

`RecurrentWeightsL2Factor`—再帰重みの L₂正則化係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

再帰重みの L₂正則化係数。非負のスカラーまたは 1 行 4 列の数値ベクトルとして指定します。

この係数にグローバル L₂正則化係数が乗算されて、層の再帰重みの L₂正則化係数が決定されます。たとえば、RecurrentWeightsL2Factorが2の場合、層の再帰重みの L₂正則化係数は現在のグローバル L₂正則化係数の 2 倍になります。関数trainingOptionsで指定した設定に基づいて、L₂正則化係数が決定されます。

RecurrentWeightsに含まれる 4 つの個々の行列の L₂正則化係数の値を制御するには、1 行 4 列のベクトルを指定します。RecurrentWeightsL2Factorのエントリは、以下のコンポーネントの L₂正則化係数に対応します。

入力ゲート
忘却ゲート
セル候補
出力ゲート

すべての行列に同じ値を指定するには、非負のスカラーを指定します。

例:2

例:[1 2 1 1]

`BiasL2Factor`—バイアスの L₂正則化係数
0(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

バイアスの L₂正則化係数。非負のスカラーまたは 1 行 4 列の数値ベクトルとして指定します。

この係数にグローバル L₂正則化係数が乗算されて、この層のバイアスの L₂正則化が決定されます。たとえば、BiasL2Factorが2の場合、この層のバイアスの L₂正則化はグローバル L₂正則化係数の 2 倍になります。関数trainingOptionsで指定した設定に基づいて、グローバル L₂正則化係数が決定されます。

Biasに含まれる 4 つの個々のベクトルの L₂正則化係数の値を制御するには、1 行 4 列のベクトルを指定します。BiasL2Factorのエントリは、以下のコンポーネントの L₂正則化係数に対応します。

入力ゲート
忘却ゲート
セル候補
出力ゲート

すべてのベクトルに同じ値を指定するには、非負のスカラーを指定します。

例:2

例:[1 2 1 1]

層

`Name`—層の名前
`''`(既定値) |文字ベクトル|string スカラー

層の名前。文字ベクトルまたは string スカラーとして指定します。Layer配列入力の場合、関数trainNetwork、assembleNetwork、layerGraph、およびdlnetworkは、名前が''の層に自動的に名前を割り当てます。

データ型:char|string

`NumInputs`—入力の数
`1`|`3`

このプロパティは読み取り専用です。

層への入力の数。

データ型:double

`InputNames`—入力名
`{'in'}`|`{'in','hidden','cell'}`

このプロパティは読み取り専用です。

層の入力名。

`NumOutputs`—出力の数
`1`|`3`

このプロパティは読み取り専用です。

層への出力の数。

HasStateOutputsプロパティが0(false) の場合、層は、出力データに対応する'out'という名前の 1 つの出力をもちます。

データ型:double

`OutputNames`—出力名
`{'out'}`|`{'out','hidden','cell'}`

このプロパティは読み取り専用です。

層の出力名。

HasStateOutputsプロパティが0(false) の場合、層は、出力データに対応する'out'という名前の 1 つの出力をもちます。

例

すべて折りたたむ

LSTM 層の作成

ライブスクリプトを開く

名前が'lstm1'で、隠れユニットが 100 個の LSTM 層を作成します。

layer = lstmLayer(100,'Name','lstm1')

layer = LSTMLayer with properties: Name: 'lstm1' InputNames: {'in'} OutputNames: {'out'} NumInputs: 1 NumOutputs: 1 HasStateInputs: 0 HasStateOutputs: 0 Hyperparameters InputSize: 'auto' NumHiddenUnits: 100 OutputMode: 'sequence' StateActivationFunction: 'tanh' GateActivationFunction: 'sigmoid' Learnable Parameters InputWeights: [] RecurrentWeights: [] Bias: [] State Parameters HiddenState: [] CellState: [] Show all properties

Layer配列に LSTM 層を含めます。

inputSize = 12; numHiddenUnits = 100; numClasses = 9; layers = [...sequenceInputLayer(inputSize) lstmLayer(numHiddenUnits) fullyConnectedLayer(numClasses) softmaxLayer classificationLayer]

layers = 5x1 Layer array with layers: 1 '' Sequence Input Sequence input with 12 dimensions 2 '' LSTM LSTM with 100 hidden units 3 '' Fully Connected 9 fully connected layer 4 '' Softmax softmax 5 '' Classification Output crossentropyex

シーケンス分類についてのネットワークの学習

ライブスクリプトを開く

sequence-to-label 分類について深層学習 LSTM ネットワークに学習をさせます。

[1] および [2] に記載のある Japanese Vowels データセットを読み込みます。XTrainは、LPC ケプストラム係数に対応する 12 の特徴をもつ可変長の 270 個のシーケンスが含まれる cell 配列です。Yは、ラベル 1、2、...、9 の categorical ベクトルです。XTrainのエントリは行列で、行数が 12 (特徴ごとに 1 行) で、列数が可変 (タイムステップごとに 1 列) です。

[XTrain,YTrain] = japaneseVowelsTrainData;

最初の時系列をプロットで可視化します。各ラインは特徴に対応しています。

figure plot(XTrain{1}') title("Training Observation 1") numFeatures = size(XTrain{1},1); legend("Feature "+ string(1:numFeatures),'Location','northeastoutside')

Figure contains an axes object. The axes object with title Training Observation 1 contains 12 objects of type line. These objects represent Feature 1, Feature 2, Feature 3, Feature 4, Feature 5, Feature 6, Feature 7, Feature 8, Feature 9, Feature 10, Feature 11, Feature 12.

LSTM ネットワークアーキテクチャを定義します。入力サイズを 12 (入力データの特徴の数) に指定します。100 個の隠れユニットを含み、シーケンスの最後の要素を出力するように LSTM 層を指定します。最後に、サイズが 9 の全結合層を含めることによって 9 個のクラスを指定し、その後にソフトマックス層と分類層を配置します。

inputSize = 12; numHiddenUnits = 100; numClasses = 9; layers = [...sequenceInputLayer(inputSize) lstmLayer(numHiddenUnits,'OutputMode','last') fullyConnectedLayer(numClasses) softmaxLayer classificationLayer]

layers = 5x1 Layer array with layers: 1 '' Sequence Input Sequence input with 12 dimensions 2 '' LSTM LSTM with 100 hidden units 3 '' Fully Connected 9 fully connected layer 4 '' Softmax softmax 5 '' Classification Output crossentropyex

学習オプションを指定します。ソルバーを'adam'、'GradientThreshold'を 1 に指定します。ミニバッチサイズを 27、エポックの最大回数を 70 に設定します。

ミニバッチが小さく、シーケンスが短いため、学習には CPU が適しています。'ExecutionEnvironment'を'cpu'に設定します。GPU が利用できる場合、GPU で学習を行うには、'ExecutionEnvironment'を'auto'(既定値) に設定します。

maxEpochs = 70; miniBatchSize = 27; options = trainingOptions('adam',...'ExecutionEnvironment','cpu',...'MaxEpochs',maxEpochs,...'MiniBatchSize',miniBatchSize,...'GradientThreshold',1,...'Verbose',false,...“阴谋”,'training-progress');

学習オプションを指定して LSTM ネットワークに学習させます。

net = trainNetwork(XTrain,YTrain,layers,options);

テストセットを読み込み、シーケンスを話者別に分類します。

[XTest,YTest] = japaneseVowelsTestData;

テストデータを分類します。学習に使用されるサイズと同じミニバッチサイズを指定します。

YPred = classify(net,XTest,'MiniBatchSize',miniBatchSize);

予測の分類精度を計算します。

acc = (YPred = =欧美)。/元素个数(欧美)

acc = 0.9541

分類用の LSTM ネットワーク

ライブスクリプトを開く

sequence-to-label 分類用の LSTM ネットワークを作成するには、シーケンス入力層、LSTM 層、全結合層、ソフトマックス層、および分類出力層を含む層配列を作成します。

シーケンス入力層のサイズを入力データの特徴の数に設定します。全結合層のサイズをクラスの数に設定します。シーケンス長を指定する必要はありません。

LSTM 層では、隠れユニットの数と出力モード'last'を指定します。

numFeatures = 12; numHiddenUnits = 100; numClasses = 9; layers = [...sequenceInputLayer(numFeatures) lstmLayer(numHiddenUnits,'OutputMode','last') fullyConnectedLayer(numClasses) softmaxLayer classificationLayer];

sequence-to-label 分類について LSTM ネットワークに学習をさせ、新しいデータを分類する方法の例については、深層学習を使用したシーケンスの分類を参照してください。

sequence-to-sequence 分類用の LSTM ネットワークを作成するには、sequence-to-label 分類の場合と同じアーキテクチャを使用しますが、LSTM 層の出力モードを'sequence'に設定します。

numFeatures = 12; numHiddenUnits = 100; numClasses = 9; layers = [...sequenceInputLayer(numFeatures) lstmLayer(numHiddenUnits,'OutputMode','sequence') fullyConnectedLayer(numClasses) softmaxLayer classificationLayer];

回帰用の LSTM ネットワーク

ライブスクリプトを開く

sequence-to-one 回帰用の LSTM ネットワークを作成するには、シーケンス入力層、LSTM 層、全結合層、および回帰出力層を含む層配列を作成します。

シーケンス入力層のサイズを入力データの特徴の数に設定します。全結合層のサイズを応答の数に設定します。シーケンス長を指定する必要はありません。

LSTM 層では、隠れユニットの数と出力モード'last'を指定します。

numFeatures = 12; numHiddenUnits = 125; numResponses = 1; layers = [...sequenceInputLayer(numFeatures) lstmLayer(numHiddenUnits,'OutputMode','last') fullyConnectedLayer(numResponses) regressionLayer];

sequence-to-sequence 回帰用の LSTM ネットワークを作成するには、sequence-to-one 回帰の場合と同じアーキテクチャを使用しますが、LSTM 層の出力モードを'sequence'に設定します。

numFeatures = 12; numHiddenUnits = 125; numResponses = 1; layers = [...sequenceInputLayer(numFeatures) lstmLayer(numHiddenUnits,'OutputMode','sequence') fullyConnectedLayer(numResponses) regressionLayer];

sequence-to-sequence 回帰について LSTM ネットワークに学習をさせて、新しいデータを予測する方法の例については、深層学習を使用した sequence-to-sequence 回帰を参照してください。

深い LSTM ネットワーク

ライブスクリプトを開く

出力モードが'sequence'の追加の LSTM 層を LSTM 層の前に挿入すると、LSTM ネットワークを深くできます。過適合を防止するために、LSTM 層の後にドロップアウト層を挿入できます。

sequence-to-label 分類ネットワークでは、最後の LSTM 層の出力モードは'last'でなければなりません。

numFeatures = 12; numHiddenUnits1 = 125; numHiddenUnits2 = 100; numClasses = 9; layers = [...sequenceInputLayer(numFeatures) lstmLayer(numHiddenUnits1,'OutputMode','sequence') dropoutLayer(0.2) lstmLayer(numHiddenUnits2,'OutputMode','last') dropoutLayer(0.2) fullyConnectedLayer(numClasses) softmaxLayer classificationLayer];

sequence-to-sequence 分類ネットワークでは、最後の LSTM 層の出力モードは'sequence'でなければなりません。

numFeatures = 12; numHiddenUnits1 = 125; numHiddenUnits2 = 100; numClasses = 9; layers = [...sequenceInputLayer(numFeatures) lstmLayer(numHiddenUnits1,'OutputMode','sequence') dropoutLayer(0.2) lstmLayer(numHiddenUnits2,'OutputMode','sequence') dropoutLayer(0.2) fullyConnectedLayer(numClasses) softmaxLayer classificationLayer];

アルゴリズム

すべて展開する

長短期記憶層

LSTM 層は、時系列データおよびシーケンスデータのタイムステップ間の長期的な依存関係を学習します。

層の状態は、"隠れ状態" ("出力状態" とも呼ばれる) および"セル状態" で構成されています。タイムステップ t の隠れ状態には、このタイムステップの LSTM 層の出力が含まれています。セル状態には、前のタイムステップで学習した情報が含まれています。各タイムステップで、層では情報をセル状態に追加したり、セル状態から削除したりします。その際、層では "ゲート" を使用して、これらの更新を制御します。

以下のコンポーネントは、層のセル状態および隠れ状態を制御します。

コンポーネント	目的
入力ゲート (i)	セル状態の更新レベルを制御
忘却ゲート (f)	セル状態のリセット (忘却) レベルを制御
セル候補 (g)	セル状態に情報を追加
出力ゲート (o)	隠れ状態に追加されるセル状態のレベルを制御

次の図は、タイムステップ t でのデータのフローを示しています。この図は、ゲートがセル状態や隠れ状態をどのように忘却、更新、および出力するかを示しています。

LSTM層の学習可能な重みは,入力の重みW (InputWeights)、再帰重み R (RecurrentWeights)、およびバイアス b (Bias) です。行列 W、R、および b はそれぞれ、各コンポーネントの入力の重み、再帰重み、およびバイアスの連結です。この層は、次の方程式に従って行列を連結します。

$W = [\begin{matrix} W_{i} \\ W_{f} \\ W_{g} \\ W_{o} \end{matrix}], R = [\begin{matrix} R_{i} \\ R_{f} \\ R_{g} \\ R_{o} \end{matrix}], b = [\begin{matrix} b_{i} \\ b_{f} \\ b_{g} \\ b_{o} \end{matrix}],$

ここで、i、f、g、および o はそれぞれ、入力ゲート、忘却ゲート、セル候補、および出力ゲートを表します。

タイムステップ t でのセル状態は次で与えられます。

$c_{t} = f_{t} ⊙ c_{t - 1} + i_{t} ⊙ g_{t},$

ここで、 $⊙$ はアダマール積 (ベクトルの要素単位の乗算) を表します。

タイムステップ t での隠れ状態は次で与えられます。

$h_{t} = o_{t} ⊙ σ_{c} (c_{t}),$

ここで、 $σ_{c}$ は状態活性化関数を表します。既定では、関数lstmLayerは双曲線正接関数 (tanh) を使用して状態活性化関数を計算します。

次の式は、タイムステップ t におけるコンポーネントを表しています。

コンポーネント	式
入力ゲート	$i_{t} = σ_{g} (W_{i} x_{t} + R_{i} h_{t - 1} + b_{i})$
忘却ゲート	$f_{t} = σ_{g} (W_{f} x_{t} + R_{f} h_{t - 1} + b_{f})$
セル候補	$g_{t} = σ_{c} (W_{g} x_{t} + R_{g} h_{t - 1} + b_{g})$
出力ゲート	$o_{t} = σ_{g} (W_{o} x_{t} + R_{o} h_{t - 1} + b_{o})$

これらの計算では、 $σ_{g}$ はゲート活性化関数を表します。既定では、関数lstmLayerは $σ (x) = {(1 + e^{- x})}^{- 1}$ で与えられるシグモイド関数を使用して、ゲート活性化関数を計算します。

層の入力形式と出力形式

層配列内または層グラフ内の層は、書式化されたdlarrayオブジェクトとして後続の層にデータを渡します。dlarrayオブジェクトの形式は文字列で、各文字はデータ内の対応する次元を表します。この形式には次の文字が 1 つ以上含まれています。

"S"——空間
"C"— チャネル
"B"— バッチ
"T"— 時間
"U"— 指定なし

たとえば、4 次元配列として表された 2 次元イメージデータがあり、最初の 2 つの次元がイメージの空間次元に対応し、3 番目の次元がイメージのチャネルに対応し、4 番目の次元がバッチ次元に対応している場合、このイメージデータは"SSCB"(spatial、spatial、channel、batch) という書式で表されます。

functionLayerオブジェクトを使用するか、関数forwardと関数predictをdlnetworkオブジェクトと共に使用して、カスタム層の開発などの自動微分ワークフローで、これらのdlarrayオブジェクトを操作できます。

次の表は、LSTMLayerオブジェクトでサポートされている入力形式、および対応する出力形式を示しています。nnet.layer.Formattableクラスを継承していないカスタム層、またはFormattableプロパティが0(false) に設定されたFunctionLayerオブジェクトに層の出力が渡される場合、その層は書式化されていないdlarrayオブジェクトを受け取り、この表に示された形式に従って次元が並べられます。

入力形式	`OutputMode`	出力形式
`"CB"`(通道、批)	`"sequence"`	`"CB"`(通道、批)
`"CB"`(通道、批)	`"last"`	`"CB"`(通道、批)
`"CBT"`(通道、批、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"CBT"`(通道、批、time)	`"last"`	`"CB"`(通道、批)
`"SB"`(spatial、batch)	`"sequence"`	`"CB"`(通道、批)
`"SB"`(spatial、batch)	`"last"`	`"CB"`(通道、批)

dlnetworkオブジェクトでは、LSTMLayerオブジェクトもこれらの入力形式と出力形式の組み合わせをサポートします。

入力形式	`OutputMode`	出力形式
`"SCB"`(spatial、channel、batch)	`"sequence"`	`"CB"`(通道、批)
`"SCB"`(spatial、channel、batch)	`"last"`
`"SSCB"`(spatial、spatial、channel、batch)	`"sequence"`
`"SSCB"`(spatial、spatial、channel、batch)	`"last"`
`"SSSCB"`(spatial、spatial、spatial、channel、batch)	`"sequence"`
`"SSSCB"`(spatial、spatial、spatial、channel、batch)	`"last"`
`"SCBT"`(spatial、channel、batch、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"SCBT"`(spatial、channel、batch、time)	`"last"`	`"CB"`(通道、批)
`"SSCBT"`(spatial、spatial、channel、batch、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"SSCBT"`(spatial、spatial、channel、batch、time)	`"last"`	`"CB"`(通道、批)
`"SSSCBT"`(spatial、spatial、spatial、channel、batch、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"SSSCBT"`(spatial、spatial、spatial、channel、batch、time)	`"last"`	`"CB"`(通道、批)
`"SC"`(spatial、channel)	`"sequence"`	`"CU"`(channel、unspecified)
`"SC"`(spatial、channel)	`"last"`
`"SSC"`(spatial、spatial、channel)	`"sequence"`
`"SSC"`(spatial、spatial、channel)	`"last"`
`"SSSC"`(spatial、spatial、spatial、channel)	`"sequence"`
`"SSSC"`(spatial、spatial、spatial、channel)	`"last"`
`"CT"`(channel、time)	`"sequence"`	`"CT"`(channel、time)
`"CT"`(channel、time)	`"last"`	`"CU"`(channel、unspecified)
`"SCT"`(spatial、channel、time)	`"sequence"`	`"CT"`(channel、time)
`"SCT"`(spatial、channel、time)	`"last"`	`"CU"`(channel、unspecified)
`"SSCT"`(spatial、spatial、channel、time)	`"sequence"`	`"CT"`(channel、time)
`"SSCT"`(spatial、spatial、channel、time)	`"last"`	`"CU"`(channel、unspecified)
`"SSSCT"`(spatial、spatial、channel、time)	`"sequence"`	`"CT"`(channel、time)
`"SSSCT"`(spatial、spatial、channel、time)	`"last"`	`"CU"`(channel、unspecified)
`"SSB"`(spatial、spatial、batch)	`"sequence"`	`"CB"`(通道、批)
`"SSB"`(spatial、spatial、batch)	`"last"`
`"SSSB"`(spatial、spatial、spatial、batch)	`"sequence"`
`"SSSB"`(spatial、spatial、spatial、batch)	`"last"`
`"BT"`(batch、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"BT"`(batch、time)	`"last"`	`"CB"`(通道、批)
`"SBT"`(spatial、batch、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"SBT"`(spatial、batch、time)	`"last"`	`"CB"`(通道、批)
`"SSBT"`(spatial、spatial、batch、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"SSBT"`(spatial、spatial、batch、time)	`"last"`	`"CB"`(通道、批)
`"SSSBT"`(spatial、spatial、spatial、batch、time)	`"sequence"`	`"CBT"`(通道、批、time)
`"SSSBT"`(spatial、spatial、spatial、batch、time)	`"last"`	`"CB"`(通道、批)

trainNetworkワークフローでこれらの入力形式を使用するには、flattenLayerを使用してデータを"CB"(通道、批) または"CBT"(通道、批、time) の形式に変換します。

HasStateInputsプロパティが1(true) の場合、それぞれ隠れ状態とセル状態に対応する"hidden"および"cell"という名前の 2 つの入力が層に追加されます。これらの追加の入力は、"CB"(通道、批) という入力形式を想定しています。

HasStateOutputsプロパティが1(true) の場合、それぞれ隠れ状態とセル状態に対応する"hidden"および"cell"という名前の 2 つの出力が層に追加されます。これらの追加の出力は、"CB"(通道、批) という出力形式をもちます。

参照

[1] M. Kudo, J. Toyama, and M. Shimbo. "Multidimensional Curve Classification Using Passing-Through Regions." Pattern Recognition Letters. Vol. 20, No. 11–13, pages 1103–1111.

[2] UCI Machine Learning Repository: Japanese Vowels Dataset. https://archive.ics.uci.edu/ml/datasets/Japanese+Vowels

[3] Hochreiter, S, and J. Schmidhuber, 1997. Long short-term memory. Neural computation, 9(8), pp.1735–1780.

[4] Glorot, Xavier, and Yoshua Bengio. "Understanding the Difficulty of Training Deep Feedforward Neural Networks." In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 249–356. Sardinia, Italy: AISTATS, 2010.

[5] He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification." In Proceedings of the 2015 IEEE International Conference on Computer Vision, 1026–1034. Washington, DC: IEEE Computer Vision Society, 2015.

[6] Saxe, Andrew M., James L. McClelland, and Surya Ganguli. "Exact solutions to the nonlinear dynamics of learning in deep linear neural networks." arXiv preprint arXiv:1312.6120 (2013).

拡張機能

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

Intel^®MKL-DNN を使用してコードを生成する場合、以下のようになります。

StateActivationFunctionプロパティを'tanh'に設定しなければなりません。
GateActivationFunctionプロパティを'sigmoid'に設定しなければなりません。
HasStateInputsプロパティとHasStateOutputsプロパティを0(false) に設定しなければなりません。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

使用上の注意および制限:

GPU コード生成の場合、StateActivationFunctionプロパティを'tanh'に設定しなければなりません。
GPU コード生成の場合、GateActivationFunctionプロパティを'sigmoid'に設定しなければなりません。
HasStateInputsプロパティとHasStateOutputsプロパティを0(false) に設定しなければなりません。

バージョン履歴

R2017b で導入

すべて展開する

R2019a:既定の入力の重みの初期化は Glorot

R2019a 以降では、既定で、Glorot 初期化子を使用してこの層の入力の重みが初期化されます。この動作は、学習を安定化させるのに役立ち、通常は深いネットワークの学習時間を短縮します。

以前のリリースでは、既定で、平均 0、分散 0.01 の正規分布からサンプリングを行って、層の入力の重みが初期化されます。この動作を再現するには、層の'InputWeightsInitializer'オプションを'narrow-normal'に設定します。

R2019a:既定の再帰重みの初期化は直交

R2019a 以降では、既定で、直交行列 Q を使用してこの層の再帰重みが初期化されます。この直交行列は、単位正規分布からサンプリングされた乱数行列 Z に対する Z = QR の QR 分解によって与えられます。この動作は、学習を安定化させるのに役立ち、通常は深いネットワークの学習時間を短縮します。

以前のリリースでは、既定で、平均 0、分散 0.01 の正規分布からサンプリングを行って、層の再帰重みが初期化されます。この動作を再現するには、層の'RecurrentWeightsInitializer'オプションを'narrow-normal'に設定します。

参考

lstmLayer

説明

作成

構文

説明

プロパティ

LSTM

NumHiddenUnits—隠れユニットの数正の整数

OutputMode—出力モード'sequence'(既定値) |'last'

HasStateInputs—層への状態入力のフラグ0(false)(既定値) |1(true)

HasStateOutputs—層からの状態出力のフラグ0(false)(既定値) |1(true)

InputSize—入力サイズ'auto'(既定値) |正の整数

活性化

StateActivationFunction—セル状態と隠れ状態を更新する活性化関数'tanh'(既定値) |'softsign'

GateActivationFunction—ゲートに適用する活性化関数'sigmoid'(既定値) |'hard-sigmoid'

状態

CellState—セル状態[](既定値) |数値ベクトル

HiddenState—隠れ状態[](既定値) |数値ベクトル

パラメーターと初期化

InputWeightsInitializer—入力の重みを初期化する関数'glorot'(既定値) |'he'|'orthogonal'|'narrow-normal'|'zeros'|'ones'|関数ハンドル

RecurrentWeightsInitializer—再帰重みを初期化する関数'orthogonal'(既定値) |'glorot'|'he'|'narrow-normal'|'zeros'|'ones'|関数ハンドル

BiasInitializer—バイアスを初期化する関数'unit-forget-gate'(既定値) |'narrow-normal'|'ones'|関数ハンドル

InputWeights—入力重み[](既定値) |行列

RecurrentWeights—再帰重み[](既定値) |行列

Bias—層のバイアス[](既定値) |数値ベクトル

学習率および正則化

InputWeightsLearnRateFactor—入力の重みの学習率係数1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

RecurrentWeightsLearnRateFactor—再帰重みの学習率係数1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

BiasLearnRateFactor—バイアスの学習率係数1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

InputWeightsL2Factor—入力の重みの L2正則化係数1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

RecurrentWeightsL2Factor—再帰重みの L2正則化係数1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

BiasL2Factor—バイアスの L2正則化係数0(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

層

Name—層の名前''(既定値) |文字ベクトル|string スカラー

NumInputs—入力の数1|3

InputNames—入力名{'in'}|{'in','hidden','cell'}

NumOutputs—出力の数1|3

OutputNames—出力名{'out'}|{'out','hidden','cell'}

例

LSTM 層の作成

シーケンス分類についてのネットワークの学習

分類用の LSTM ネットワーク

回帰用の LSTM ネットワーク

深い LSTM ネットワーク

アルゴリズム

長短期記憶層

層の入力形式と出力形式

参照

拡張機能

C/C++ コード生成MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

バージョン履歴

R2019a:既定の入力の重みの初期化は Glorot

R2019a:既定の再帰重みの初期化は直交

参考

トピック

`NumHiddenUnits`—隠れユニットの数
正の整数

`OutputMode`—出力モード
`'sequence'`(既定値) |`'last'`

`HasStateInputs`—層への状態入力のフラグ
`0`(false)(既定値) |`1`(true)

`HasStateOutputs`—層からの状態出力のフラグ
`0`(false)(既定値) |`1`(true)

`InputSize`—入力サイズ
`'auto'`(既定値) |正の整数

`StateActivationFunction`—セル状態と隠れ状態を更新する活性化関数
`'tanh'`(既定値) |`'softsign'`

`GateActivationFunction`—ゲートに適用する活性化関数
`'sigmoid'`(既定値) |`'hard-sigmoid'`

`CellState`—セル状態
`[]`(既定値) |数値ベクトル

`HiddenState`—隠れ状態
`[]`(既定値) |数値ベクトル

`InputWeightsInitializer`—入力の重みを初期化する関数
`'glorot'`(既定値) |`'he'`|`'orthogonal'`|`'narrow-normal'`|`'zeros'`|`'ones'`|関数ハンドル

`RecurrentWeightsInitializer`—再帰重みを初期化する関数
`'orthogonal'`(既定値) |`'glorot'`|`'he'`|`'narrow-normal'`|`'zeros'`|`'ones'`|関数ハンドル

`BiasInitializer`—バイアスを初期化する関数
`'unit-forget-gate'`(既定値) |`'narrow-normal'`|`'ones'`|関数ハンドル

`InputWeights`—入力重み
`[]`(既定値) |行列

`RecurrentWeights`—再帰重み
`[]`(既定値) |行列

`Bias`—層のバイアス
`[]`(既定値) |数値ベクトル

`InputWeightsLearnRateFactor`—入力の重みの学習率係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

`RecurrentWeightsLearnRateFactor`—再帰重みの学習率係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

`BiasLearnRateFactor`—バイアスの学習率係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

`InputWeightsL2Factor`—入力の重みの L₂正則化係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

`RecurrentWeightsL2Factor`—再帰重みの L₂正則化係数
1(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

`BiasL2Factor`—バイアスの L₂正則化係数
0(既定値) |非負のスカラー|1 行 4 列の数値ベクトル

`Name`—層の名前
`''`(既定値) |文字ベクトル|string スカラー

`NumInputs`—入力の数
`1`|`3`

`InputNames`—入力名
`{'in'}`|`{'in','hidden','cell'}`

`NumOutputs`—出力の数
`1`|`3`

`OutputNames`—出力名
`{'out'}`|`{'out','hidden','cell'}`

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。