私の知る限り、あなたが探しているものに最も近いものは、Googleの研究者によるこの最近の記事です:バッチ正規化:内部共変量シフトを削減することによるディープネットワークトレーニングの加速。
バッチ正規化
レイヤーのアクティベーション出力考えます。ここで、は非線形性(ReLU、tanhなど)、はそれぞれ重みとバイアス、はデータのミニバッチです。lyl=f(Wx+b)fW,bx
バッチ正規化(BN)の機能は次のとおりです。
- を標準化して、平均が0、分散が1になるようにします。ミニバッチ全体で行います。が標準化された中間アクティベーション値を示すとしましょう。つまり、は正規化されたバージョンです。Wx+bx^x^Wx+b
- パラメータ化された(学習可能な)アフィン変換x^→γx^+β.
- 非線形性を適用します:。y^l=f(γx^+β)
したがって、BNは「生の」(読み取り:非線形性を適用する前に)アクティベーション出力を平均化して分散1に標準化し、学習したアフィン変換を適用して、最後に非線形性を適用します。ある意味では、これをニューラルネットワークが非線形性に対する適切なパラメーター化された入力分布を学習できるようにするものと解釈する場合があります。
すべての操作は微分可能であるためバックプロパゲーションによってパラメータを学習する場合があります。γ,β
アフィン変換の動機
パラメータ化されたアフィン変換を実行しなかった場合、すべての非線形性は入力分布として平均ゼロと分散1分布を持つことになります。これは最適ではない場合があります。平均ゼロ、分散1の入力分布が最適な場合、アフィン変換は理論的には、をバッチ平均に、をバッチ標準偏差に等しく設定することで回復できます。このパラメーター化されたアフィン変換を使用すると、ネットワークの表現能力が向上するという追加のボーナスがあります(より学習可能なパラメーター)。βγ
最初に標準化
なぜ最初に標準化するのですか?なぜアフィン変換を適用しないのですか?理論的には、区別はありません。ただし、ここに条件付けの問題がある可能性があります。最初にアクティベーション値を標準化することで、おそらく最適なパラメータを学習するのが容易になります。これは純粋に私の側の推測ですが、他の最近の最先端のconvネットアーキテクチャにも同様の類似物があります。たとえば、最近のMicrosoft Researchの技術レポートでは、画像認識のためのDeep Residual Learningγ,β、彼らは事実上、アイデンティティ変換を参照または比較のベースラインとして使用する変換を学びました。Microsoftの共著者は、この参照またはベースラインが問題の事前条件付けに役立つと信じていました。ここでBNと最初の標準化ステップで同様のことが起こっているのかどうか疑問に思うのは遠すぎるとは思いません。
BNアプリケーション
特に興味深い結果は、バッチ正規化を使用して、Googleチームがtanh Inceptionネットワークを取得してImageNetでトレーニングし、かなり競争力のある結果を得ることができたことです。Tanhは飽和非線形性であり、これらのタイプのネットワークをそれらの飽和/消失勾配の問題のために学習させることは困難でした。ただし、バッチ正規化を使用すると、ネットワークが活性化出力値を非飽和領域のtanh非線形性にマッピングする変換を学習できたと想定できます。
最終メモ
彼らは、バッチ正規化の動機としてあなたが言及したのと同じYann LeCun factoidを参照しています。