逆伝播アルゴリズムを使用してニューラルネットワークをトレーニングする場合、勾配降下法を使用して重みの更新を決定します。私の質問をされています。むしろ、ゆっくりと一定の重量に対して、最小点を見つけるために勾配降下法を使用するよりも、なぜ私たちは派生しないでください、そして、誤差を最小にする重みの値を見つけますか?
また、逆伝播におけるエラー関数が最小になると確信しているのはなぜですか?代わりに、エラー関数が最大値であることがわかりませんか?任意の重みと入力ベクトルを持つ任意の数の隠れノードを持つネットワークが常に最小値を持つエラー関数を与えることを保証する、スカッシュ関数の特定のプロパティはありますか?