CNNは勾配の消失問題をどのように回避しますか

私は畳み込みニューラルネットワークについて多くのことを読んでおり、それらが消失勾配問題をどのように回避するのか疑問に思っていました。深い信念のネットワークが単一レベルの自動エンコーダーまたは他の事前に訓練された浅いネットワークをスタックすることを知っているため、この問題を回避できますが、CNNでどのように回避されるかわかりません。

ウィキペディアによると：

「上記の「勾配の消失問題」にも関わらず、GPUの優れた処理能力により、多くの層を備えたディープフィードフォワードニューラルネットワークで単純な逆伝播が実行可能になります。

GPU処理がこの問題を解決する理由がわかりませんか？

— アリー
ソース

Wikipediaの記事は、GPUが消失勾配問題の解決に役立つ理由を正当化していないのですか？勾配が小さいにもかかわらず、GPUが非常に高速であるため、GPUのおかげで多くのステップを実行することでパラメーターを改善することができているからでしょうか？

— チャーリーパーカー

丁度。勾配の消失の問題は、より低い層の重みが非常に低いレートで更新される理由であり、したがって、ネットワークのトレーニングには永遠に時間がかかります。しかし、GPUの場合と同様に、GPU処理が増えると、より短時間でより多くの計算（つまり、重みの更新）を実行できるため、勾配の消失の問題はある程度消失します。

— サングラム

@CharlieParker、詳しく説明してくださいGPU's are fast correlated with vanishing gradients、複数の行列乗算を処理するための大きなメモリ帯域幅を備えた高速ロジックを理解できます！しかし、それがデリバティブとどう関係するのか説明してもらえますか？勾配の消失の問題は、重みの初期化により多くの効果があるようです。

— アヌ

勾配が消失する問題では、勾配降下を伴う小さな学習率を使用する必要があり、収束するには多くの小さなステップが必要です。これは、各ステップに長い時間がかかる遅いコンピューターを使用している場合に問題になります。1日でさらに多くのステップを実行できる高速GPUを使用している場合、これはそれほど問題ではありません。

消失勾配の問題に取り組む方法はいくつかあります。CNNの最大の効果は、シグモイドの非線形ユニットから整流された線形ユニットへの切り替えによるものだと思います。あなたがそのエラーの単純な神経回路網を考えると量に依存介してのみ、 $E$ $w_{ij}$ $y_j$

y_{j} = f (\sum_{i} w_{i j} x_{i}),

$y_j = f\left( \sum_iw_{ij}x_i \right),$

その勾配は

\begin{aligned} \frac{\partial}{\partial w_{i j}} E & = \frac{\partial E}{\partial y_{j}} \cdot \frac{\partial y_{j}}{\partial w_{i j}} \\ = \frac{\partial E}{\partial y_{j}} \cdot f^{'} (\sum_{i} w_{i j} x_{i}) x_{i} . \end{aligned}

$\begin{align} \frac{\partial}{\partial w_{ij}} E &= \frac{\partial E}{\partial y_j} \cdot \frac{\partial y_j}{\partial w_{ij}} \\ &= \frac{\partial E}{\partial y_j} \cdot f'\left(\sum_i w_{ij} x_i\right) x_i. \end{align}$

$f$ $f'$ $f$

\begin{aligned} f (u) = max (0, u), \end{aligned}

$\begin{align} f(u) = \max\left(0, u\right), \end{align}$

http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf

— ルーカス
ソース

私は、修正された線形ユニットについて少し困惑しています。はい、シグモイドなどの場合、勾配は非常に小さいことがよくありますが、修正された線形ユニットの場合、多くの場合正確にゼロになります。悪くないですか？したがって、ユニットの重みが不幸な場合、それらは決して変化しません。

— ハンスピーターシュトルー

このことを考えると、そのために、漏れやすいまたはノイズの多いReLUが使用されている可能性があります。

— サンサイド

なぜあなたの最初の文は真実ですか？すなわち、「勾配が消失する問題では、勾配降下で小さな学習率を使用する必要があり、収束するには多くの小さなステップが必要です。」消失勾配の問題に対処するために小さな学習率が必要なのはなぜですか？勾配が消滅するために勾配がすでに小さくなっている場合、それらを小さくすると事態が悪化するだけであると予想していました。

— チャーリーパーカー

いい質問です、私はその声明をもっとよく説明すべきでした。勾配が消える問題は、すべての勾配が小さいということではなく（大きな学習率を使用することで簡単に修正できます）、ネットワークを逆伝播すると勾配が消えることです。つまり、グラデーションは一部のレイヤーでは小さく、他のレイヤーでは大きくなります。大きな学習率を使用すると、全体が爆発します（一部の勾配が大きいため）。したがって、小さな学習率を使用する必要があります。複数の学習率を使用することは、問題に対処するためのもう1つのアプローチですが、追加のハイパーパラメーターが導入されます。

— ルーカス

学習率の大部分は爆発的な勾配の問題に関係していると思います。極端に低い学習率で勾配を縮小しても、勾配の消失はまったく防止されず、学習が大幅に遅くなるため、効果が遅れるだけです。効果自体は、非線形性の繰り返しの適用と小さな値の乗算によって引き起こされます。もちろん、より低い学習率に向かう傾向があります（計算能力により）が、状態空間がどの程度うまく探索されるか（安定した条件が与えられた場合）を制御するだけなので、勾配の消失とは関係ありません。

— runDOSrun