批量归一化层
批量归一化层独立地将每个通道的所有观察结果归一批数据。为了加速卷积神经网络的训练,降低对网络初始化的敏感性,在卷积层和非线性之间使用批量归一化层,例如Relu层。
在归一化之后,该图层以学习的比例因子缩放输入γ.并通过学习偏移来转移β。
批量归一化操作将元素标准化X一世首先计算平均值的输入μ.B.和方差σ.B.2在每个通道的空间,时间和观察尺寸上独立地。然后,它计算规范化的激活
在哪里ε.当方差非常小时,这是一个常数,提高数值稳定性。
为了允许具有零均值和单位方差的输入的可能性对于跟随批量归一化的操作而不是最佳,批量归一化操作进一步换档并使用转换缩放激活
哪里偏移β和规模因子γ.是在网络培训期间更新的可学习参数。
为了在训练后与网络进行预测,批量归一化需要固定的均值和方差以标准化数据。该固定均值和方差可以在训练后计算,或者在使用运行统计计算期间近似地估计。
如果是'BatchnormalizationStatistics'
培训选项是'移动'
然后,软件近似于使用运行估计训练期间批量标准化统计数据,并且在培训后,设置训练有训练
和训练有素
分别为均值和方差的移动估计的最新值的属性。
如果是'BatchnormalizationStatistics'
培训选项是'人口'
然后在网络训练完成后,软件通过数据一次通过数据并设置训练有训练
和训练有素
分别从整个训练数据集计算的平均值和方差。
该层使用了训练有训练
和训练有素
在预测期间归一化输入。
[1] Ioffe,Sergey和Christian Szegedy。“批量标准化:通过减少内部协变速转移加速深度网络培训。”预印,arxiv:1502.03167(2015)。