回答:
グラデーションの消失またはグラデーションの爆発の問題が発生している場合は、グラデーションクリッピングを実行することをお勧めします。ただし、どちらのシナリオでも、より良い解決策があります。
グラデーションの爆発は、グラデーションが大きくなりすぎて数値のオーバーフローが発生したときに発生します。これは、ネットワークの重みをより小さい値に初期化することで簡単に修正できます。これが機能しない場合は、コードにバグがある可能性があります。
勾配の消失は、最適化が鞍点で動かなくなると発生し、勾配が小さすぎて最適化を進めることができません。これは、運動量またはRMSプロップまたはその両方を使用した勾配降下法(Adamオプティマイザーとも呼ばれます)を使用して修正できます。
グラディエントクリッピングの上限の開始値は、変数が取り得る最大数よりも小さい値になります。下限については、それは問題固有のものだと思いますが、おそらく1e-10のようなものから始めます。