タグ付けされた質問 「batch-normalization」

1
論文:レイヤーの正規化、繰り返しバッチ正規化(2016)、およびバッチ正規化RNN(2015)の違いは何ですか?
そのため、最近、レイヤーの正規化に関する論文があります。Kerasにも実装されています。 しかし、Recurrent Batch Normalization(Cooijmans、2016)とBatch Normalized Recurrent Neural Networks(Laurent、2015)というタイトルの論文があることを覚えています。これら3つの違いは何ですか? 私が理解できないこの関連作業セクションがあります: 以前、バッチ正規化はリカレントニューラルネットワークに拡張されていました[Laurent et al。、2015、Amodei et al。、2015、Cooijmans et al。、2016]。前の研究[Cooijmans et al。、2016]は、時間ステップごとに独立した正規化統計を保持することにより、反復バッチ正規化の最高のパフォーマンスが得られることを示唆しています。著者は、反復バッチ正規化レイヤーのゲインパラメーターを0.1に初期化すると、モデルの最終的なパフォーマンスに大きな違いが生じることを示しています。私たちの仕事は、重量の正規化にも関係しています[Salimans and Kingma、2016]。重み正規化では、分散の代わりに、着信重みのL2ノルムを使用して、加算された入力をニューロンに正規化します。。予想される統計を使用して重み正規化またはバッチ正規化を適用することは、元のフィードフォワードニューラルネットワークの異なるパラメーター化を持つことと同等です。ReLUネットワークでの再パラメーター化は、Pathnormalized SGDで研究されました[Neyshabur et al。、2015]。ただし、提案されているレイヤーの正規化方法は、元のニューラルネットワークの再パラメーター化ではありません。したがって、層の正規化モデルには、他の方法とは異なる不変性特性があります。これについては、次のセクションで説明します

2
バッチ正規化はReLUアクティベーション機能に意味がありますか?
バッチ正規化は、このホワイトペーパーでは、スケール変数とシフト変数およびβを使用したアクティブ化関数への入力の正規化として説明されています。このペーパーでは、主にシグモイドアクティベーション関数の使用について説明します。ただし、バッチ正規化によって生成された正規化分布からの入力をm a x (0 、x )の ReLU活性化関数に供給することは、βγγ\gammaββ\betamax(0,x)max(0,x)max(0,x)ββ\betaReLUが入力情報を失わないように、ほとんどの入力を0を超えてシフトすることを学習しません。つまり、ReLUへの入力が標準正規化されただけである場合、0未満の多くの情報が失われます。この情報が失われないことを保証する保証または初期化はありますか?BNとReLUの操作方法に何か不足していますか?ββ\beta

2
バッチ正規化は、シグモイドがReLUよりもうまく機能することを意味しますか?
バッチ正規化とReLUはどちらも、勾配の消失問題に対する解決策です。バッチ正規化を使用している場合、シグモイドを使用する必要がありますか?それとも、batchnormを使用する場合でも価値のあるReLUの機能はありますか? 私は、batchnormで行われた正規化がゼロのアクティベーションを負に送信すると思います。これは、batchnormが「dead ReLU」問題を解決することを意味しますか? しかし、タンとロジスティックの継続的な性質は魅力的なままです。batchnormを使用している場合、tanhはReLUよりもうまく機能しますか? 答えはきっと決まると思います。では、あなたの経験で何がうまくいきましたか、そしてあなたのアプリケーションの顕著な特徴は何ですか?

1
バッチ正規化について
ペーパーバッチ正規化:ディープネットワークトレーニングの加速b y内部共変量シフトの削減(ここ)バッチ正規化のプロセスを説明する前に、ペーパーは関連する問題を説明しようとします(ここで扱われている正確な問題はわかりません)。 セクション2、パラ2からの抜粋: ネットワークを直接変更するか、最適化アルゴリズムのパラメーターをネットワークのアクティブ化の値に依存するように変更することにより、トレーニングステップごとまたは一定の間隔でアクティブ化を白くすることを検討できます(Wiesler et al。、2014; Raiko et al。、2012 ; Povey et al。、2014; Desjardins&Kavukcuoglu)。ただし、これらの変更が最適化ステップに散在している場合、勾配降下ステップは、正規化の更新を必要とする方法でパラメーターを更新しようとする場合があり、勾配ステップの影響が減少します。たとえば、学習されたバイアスを追加し、トレーニングデータに対して計算されたアクティベーションの平均を差し引くことによって結果を正規化する入力uを含むレイヤーを考えます。、X = X - E [ X ]bbbx^=x−E[x]x^=x−E[x]\hat x= x − E[x]ここで、 はトレーニングセットのの値のセットであり、 。x=u+b,X=x1...Nx=u+b,X=x1...Nx = u + b, X = {x_{1...N}}xxxE[x]=1N(∑ni=1xi)E[x]=1N(∑i=1nxi)E[x] = \frac 1 N(\sum_{i=1}^nx_i) 勾配降下ステップがE [x]のbへの依存を無視する場合、を更新しますb←b+Δbb←b+∆bb ← b + ∆b。ここで、Δb∝−∂l/∂x^∆b∝−∂l/∂x^∆b ∝ −\partial l/\partial\hat xです。次に、 u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b](1)(1)u+(b+∆b)−E[u+(b+∆b)]=u+b−E[u+b]u + …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.