3
バッチ勾配降下と確率的勾配降下
トレーニングセットがます。また、トレーニングセットで何らかのタイプの教師あり学習アルゴリズムを実行するとします。仮説はます。と間の「距離」を最小化するパラメーターを見つける必要があります。ましょう(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} 次に、を最小化するを見つけます。勾配降下では、各パラメーターを初期化し、次の更新を実行します。θθ\thetaJ(θ)J(θ)J(\theta)θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta) バッチ勾配降下と確率的勾配降下の主な違いは何ですか? 両方とも上記の更新ルールを使用します。しかし、一方が他方より優れていますか?