私は畳み込みニューラルネットワークについて多くのことを読んでおり、それらが消失勾配問題をどのように回避するのか疑問に思っていました。深い信念のネットワークが単一レベルの自動エンコーダーまたは他の事前に訓練された浅いネットワークをスタックすることを知っているため、この問題を回避できますが、CNNでどのように回避されるかわかりません。
ウィキペディアによると:
「上記の「勾配の消失問題」にも関わらず、GPUの優れた処理能力により、多くの層を備えたディープフィードフォワードニューラルネットワークで単純な逆伝播が実行可能になります。
GPU処理がこの問題を解決する理由がわかりませんか?
2
Wikipediaの記事は、GPUが消失勾配問題の解決に役立つ理由を正当化していないのですか?勾配が小さいにもかかわらず、GPUが非常に高速であるため、GPUのおかげで多くのステップを実行することでパラメーターを改善することができているからでしょうか?
—
チャーリーパーカー
丁度。勾配の消失の問題は、より低い層の重みが非常に低いレートで更新される理由であり、したがって、ネットワークのトレーニングには永遠に時間がかかります。しかし、GPUの場合と同様に、GPU処理が増えると、より短時間でより多くの計算(つまり、重みの更新)を実行できるため、勾配の消失の問題はある程度消失します。
—
サングラム
@CharlieParker、詳しく説明してください
—
アヌ
GPU's are fast correlated with vanishing gradients
、複数の行列乗算を処理するための大きなメモリ帯域幅を備えた高速ロジックを理解できます!しかし、それがデリバティブとどう関係するのか説明してもらえますか?勾配の消失の問題は、重みの初期化により多くの効果があるようです。