統計とビッグデータ gradient-descent

6

ヘッシアンが最適化に非常に優れている場合（たとえば、ニュートンの方法を参照）、そこで停止するのはなぜですか？三次、四次、五次、六次導関数を使用してみましょう。何故なの？

29 optimization gradient-descent hessian

4

Courseraで機械学習のスタンフォードコースを受講しています。ロジスティック回帰の章では、コスト関数は次のとおりです。次に、ここから派生します。コスト関数の導関数を取得しようとしましたが、まったく異なるものが得られました。導関数はどのように取得されますか？中間ステップはどれですか？

29 regression logistic gradient-descent derivative

2

EMとGradient Ascentの違いは何ですか？

アルゴリズムEM（期待値最大化）と勾配上昇（または下降）の違いは何ですか？それらが同等である条件はありますか？

28 gradient-descent expectation-maximization

6

凸問題の場合、確率的勾配降下（SGD）の勾配は常にグローバルな極値を指しますか？

最適化にSGDを使用する凸型コスト関数を考えると、最適化プロセス中の特定のポイントに勾配（ベクトル）があります。私の質問は、凸面上の点を考えると、勾配は関数が最も速く増加/減少する方向だけを指すのですか、それとも勾配は常にコスト関数の最適/極値を指すのですか？前者はローカルコンセプトであり、後者はグローバルコンセプトです。 SGDは、最終的にコスト関数の極値に収束できます。凸面上の任意の点に与えられた勾配の方向と、グローバルな極値を指す方向との違いについて疑問に思っています。グラデーションの方向は、関数がそのポイントで最も速く増加/減少する方向である必要がありますよね？

25 neural-networks optimization gradient-descent sgd convex

1

勾配降下の終了条件を定義する方法は？

実際、勾配降下の終了条件をどのように定義できるかを尋ねたいと思いました。繰り返しの数に基づいて、たとえば100回の繰り返しのパラメーター値を考慮して停止できますか？または、2つのパラメーター値「new」と「old」の違いがように非常に小さくなるまで待つ必要がありますか？これには間違いなく時間がかかります。10− 610−610^{-6} 最善の方法は何ですか？私の場合、1回の反復でもかなりの時間がかかります。この状況では、2番目の条件を待つと、数週間かかることもあります。したがって、どのアプローチを使用する必要があります。このシナリオに取り組む方法は？

24 algorithms optimization gradient-descent

3

座標降下と勾配降下

2つのアルゴリズムCoordinate DescentとGradient Descentの異なるユースケースは何だろうと思っていました。座標降下には、滑らかでない関数に問題があることを知っていますが、SVMやLASSOなどの一般的なアルゴリズムで使用されています。しかし、勾配降下法は、特にANNの復活や他の多くの機械学習タスクで、より広く使用されていると思います。私の質問は次のとおりです。どのタイプの問題が一方に適合し、他方には適合しないか、その点でSVMおよびLASSOの座標降下フィッティングを作成しますが、ANNの勾配降下フィッティングを作成します。最適化アルゴリズムを選択するときに、2つのうちどちらを選択する必要がありますか？

23 optimization gradient-descent

1

ResNet経由の勾配バックプロパゲーションは接続をスキップします

ResNetモジュール/スキップ接続を使用してニューラルネットワークを介して勾配がどのように逆伝播されるかについて興味があります。ResNetに関するいくつかの質問（スキップレイヤー接続のニューラルネットワークなど）を見てきましたが、これは特にトレーニング中の勾配の逆伝播について尋ねています。基本的なアーキテクチャは次のとおりです。この論文「画像認識のための残差ネットワークの研究」を読み、セクション2で、ResNetの目標の1つが、勾配がベースレイヤーに逆伝播するためのより短い/より明確なパスを可能にすることについて話します。勾配がこのタイプのネットワークをどのように流れているのか説明できますか？加算操作、および加算後のパラメーター化されたレイヤーの欠如が、より良い勾配伝播を可能にする方法をよく理解していません。加算演算子を介して流れるときに勾配が変化せず、乗算なしで何らかの形で再配布される方法と関係がありますか？さらに、グラデーションがウェイトレイヤーを通過する必要がない場合、消失するグラデーションの問題がどのように軽減されるかを理解できますが、ウェイトを通るグラデーションフローがない場合、逆方向パス後にどのように更新されますか？

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

3

ニューラルネットワークで勾配降下を使用する理由

逆伝播アルゴリズムを使用してニューラルネットワークをトレーニングする場合、勾配降下法を使用して重みの更新を決定します。私の質問をされています。むしろ、ゆっくりと一定の重量に対して、最小点を見つけるために勾配降下法を使用するよりも、なぜ私たちは派生しないでください、そして、誤差を最小にする重みの値を見つけますか？d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www また、逆伝播におけるエラー関数が最小になると確信しているのはなぜですか？代わりに、エラー関数が最大値であることがわかりませんか？任意の重みと入力ベクトルを持つ任意の数の隠れノードを持つネットワークが常に最小値を持つエラー関数を与えることを保証する、スカッシュ関数の特定のプロパティはありますか？

22 neural-networks gradient-descent backpropagation

3

カーネル化されたSVMでGradient Descentは可能ですか（可能であれば、なぜ人々は2次プログラミングを使用するのですか）

カーネル化されたSVMを扱うときに、なぜ人々は2次計画法（SMOなど）を使用するのですか？Gradient Descentの何が問題になっていますか？カーネルで使用することは不可能ですか、それとも遅すぎますか（およびその理由）。ここにもう少しコンテキストがあります：SVMをもう少しよく理解しようとして、私は次のコスト関数を使用して線形SVM分類器を訓練するために勾配降下を使用しました： J（w、b ）= C∑i = 1mM X （ 0 、1 - Y（i ）（wt⋅ X（i ）+ b ））+12wt⋅ ワットJ（w、b）=C∑私=1mmaバツ（0、1−y（私）（wt⋅バツ（私）+b））+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} 私は次の表記法を使用しています： ww\mathbf{w}はモデルの特徴の重みであり、はそのバイアスパラメーターです。bbb バツ（i ）バツ（私）\mathbf{x}^{(i)}は、トレーニングインスタンスの特徴ベクトルです。私番目私番目i^\text{th} y（i ）y（私）y^{(i)}は、インスタンスのターゲットクラス（-1または1）です。私番目私番目i^\text{th} mmmはトレーニングインスタンスの数です。 CCCは正則化ハイパーパラメーターです。この方程式から（およびに関して）（サブ）勾配ベクトルを導き出しましたが、勾配降下はうまく機能しました。ww\mathbf{w}bbb …

21 svm kernel-trick gradient-descent

3

パーセプトロン規則から勾配降下へ：シグモイド活性化関数を持つパーセプトロンはロジスティック回帰とどのように異なりますか？

本質的に、私の質問は、多層パーセプトロンにおいて、パーセプトロンがシグモイド活性化機能とともに使用されるということです。更新ルールでは、は次のように計算されます。y^y^\hat{y} y^= 11 + exp（− wTバツ私）y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} この「シグモイド」パーセプトロンは、ロジスティック回帰とどのように違いますか？単一層のシグモイドパーセプトロンは、両方とも更新ルールの。また、両方とも予測でをます。ただし、多層パーセプトロンでは、シグモイド活性化関数を使用して、ロジスティック回帰と単層パーセプトロンとは対照的に、オンオフ信号ではなく確率を返します。記号（ Y =1y^= 11 + exp（− wTバツ私）y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}符号（y^= 11 + exp（− wTバツ私））sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) 「パーセプトロン」という用語の使用法は少し曖昧かもしれないと思うので、単層パーセプトロンについての私の現在の理解に基づいて背景を説明しましょう。古典的なパーセプトロン規則まず、ステップ関数があるF. Rosenblattによる古典的なパーセプトロン： Δのワットd= η（y私− y私^）xI Dy私、y私^∈ { - 1 、1 }Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 重みを更新するには wk：= wk+ …

21 logistic classification neural-networks gradient-descent perceptron

2

ニューラルネットでは、なぜ他のメタヒューリスティックではなく勾配法を使用するのですか？

深くて浅いニューラルネットワークのトレーニングでは、他のメタヒューリスティックとは対照的に、勾配法（勾配勾配、Nesterov、Newton-Raphsonなど）が一般的に使用されるのはなぜですか？メタヒューリスティックとは、シミュレートされたアニーリング、アリのコロニーの最適化などの方法を意味します。これらの方法は、局所的な最小値にとどまることを避けるために開発されました。

20 neural-networks optimization deep-learning gradient-descent backpropagation

3

遺伝的アルゴリズムはいつ最適化に適していますか？

遺伝的アルゴリズムは、最適化手法の1つの形式です。多くの場合、関数の最適化には確率的勾配降下法とその導関数が最適な選択ですが、遺伝的アルゴリズムが依然として使用されることもあります。たとえば、NASAのST5宇宙船のアンテナは、遺伝的アルゴリズムを使用して作成されました。一般的な勾配降下法よりも遺伝的最適化法の方が適しているのはいつですか？

20 machine-learning optimization gradient-descent genetic-algorithms

3

線形回帰を解くときに、複数の局所最適解が存在しますか？

私は1つの古いtrue / false試験でこの声明を読みました。勾配降下を使用して二乗誤差の合計を最小化することにより線形回帰問題を解くと、複数の局所最適解を得ることができます。解決策：False 私の質問は、この質問のどの部分が間違っているのですか？なぜこの声明は偽ですか？

19 least-squares gradient-descent convex

3

確率的勾配降下法はどのようにして局所的最小値の問題を回避できますか

確率的勾配降下にはランダムな動作があることは知っていますが、その理由はわかりません。これについて何か説明はありますか？

18 machine-learning random-variable gradient-descent

3

バッチサイズはSGDの収束にどのように影響しますか？

ミニバッチのサイズが大きくなると、SGDの収束が実際に難しく/悪化するという、多くの議論から同様の結論を見ました。たとえば、このペーパーとこの回答です。また、早い段階で小さな学習率やバッチサイズなどのトリックを使用して、大きなバッチサイズでこの問題に対処する人もいると聞きました。ただし、ミニバッチの平均損失は、データ分布で予想される損失の近似と考えることができるため、直感に反するように見えます。バッチサイズが大きいほど、正確になります。なぜ実際にはそうではないのですか？1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] 以下に、説明しようとする私の（おそらく間違った）考えをいくつか示します。モデルのパラメーターは相互に大きく依存しています。バッチが大きくなりすぎると、一度に多くのパラメーターに影響を与え、パラメーターが安定した固有の依存関係に達するのが難しくなりますか？（バッチ正規化ペーパーで言及されている内部共変量シフト問題のように）または、ほぼすべてのパラメーターがすべての反復で責任がある場合、冗長な暗黙のパターンを学習する傾向があるため、モデルの容量が減少しますか？（つまり、数字の分類の問題については、いくつかのパターンがドット、エッジの原因となるはずですが、これが発生すると、すべてのパターンがすべての形状を担当しようとします）。それとも、バッチサイズがトレーニングセットのスケールに近づくと、相関するミニバッチの確率が高くなるため、ミニバッチはデータ分布からiidとして認識できなくなるためですか？更新 Benoit Sanchezの回答で指摘されているように、1つの重要な理由は、1つの更新を完了するために大きなミニバッチにより多くの計算が必要であり、ほとんどの分析が比較のために一定のトレーニングエポックを使用することです。しかし、この論文（Wilson and Martinez、2003）は、十分な量のトレーニングエポックが与えられたとしても、バッチサイズを大きくすると依然として不利であることを示しています。一般的にそうですか？

18 machine-learning neural-networks optimization gradient-descent sgd

タグ付けされた質問 「gradient-descent」

タグ付けされた質問「gradient-descent」