現在SGD
、バックプロパゲーションを使用したニューラルネットの確率的勾配降下法の実装に取り組んでおり、その目的は理解していますが、学習率の値を選択する方法についていくつか質問があります。
- 学習率は、降下率を決定するため、誤差勾配の形状に関連していますか?
- もしそうなら、この情報をどのように使用して価値についての決定を知らせるのですか?
- それがどのような種類の値を選択する必要がない場合、どのように選択する必要がありますか?
- オーバーシュートを避けるために小さな値が必要なようですが、ローカルミニマムにとらわれたり、下降に時間がかかったりしないように、どのように選択しますか?
- 一定の学習率を持つことは理にかなっていますか、または勾配の最小値に近づくにつれてその値を変更するために何らかのメトリックを使用する必要がありますか?
つまり、SGDの学習率を選択するにはどうすればよいですか?