回答:
w1
、w2
または偏微分は降下の方向を提供するだけで、速度または収縮を学習することによって行われますか?
最適化が偏導関数で行われる場合、各ターンでw1とw2の両方が変更されますか、またはいくつかの反復でw1のみが変更されるような組み合わせであり、w1がエラーをそれ以上削減しない場合、導関数はw2から始まります-から極小に達しましたか?
各反復で、アルゴリズムは勾配ベクトルに基づいてすべての重みを同時に変更します。実際、グラデーションはベクトルです。グラデーションの長さは、モデルの重みの数と同じです。
一方、一度に1つのパラメータを変更することはありました。これは、勾配のない最適化アルゴリズムの一種である座標適切なアルゴリズムと呼ばれます。実際には、勾配ベースのアルゴリズムと同じように機能しない場合があります。
これは、勾配のないアルゴリズムに関する興味深い答えです
勾配降下法の目的は、コスト関数を最小化することです。この最小化は、あなたのケースw1とw2の重みを調整することによって達成されます。一般に、そのような重みはn個あります。
勾配降下は次の方法で行われます。
重み(W1またはW2)が変更される重みを更新する間、勾配によって完全に決定されます。すべての重みが更新されます(一部の重みは勾配に基づいて変更されない場合があります)。
sklearn
)またはRパッケージなどのパッケージに適用されるデフォルト値はありますcaret
か?手動で作成した勾配降下関数でのみユーザー指定できますか?
w1
、減少などのさまざまな組み合わせを試行しw2
、アルゴリズムが常に大域極小を常に与えるとは限らないことを確認するだけの可能性がありますか?