深層学習における局所最小点とvs点

Andrew Ng（残念ながらもう見つけられないビデオで）が、深層学習問題における局所的最小値の理解が、高次元の空間（ディープラーニング）クリティカルポイントは、ローカルミニマムではなくサドルポイントまたはプラトーになりやすい。

「すべてのローカルミニマムがグローバルミニマムである」という仮定を議論する論文（たとえば、これ）を見てきました。これらの仮定はすべてかなり技術的ですが、私が理解していることから、それらはニューラルネットワークに構造を課し、それをある程度線形にする傾向があります。

ディープラーニング（非線形アーキテクチャを含む）では、プラトーはローカルミニマムよりも可能性が高いという有効な主張ですか？もしそうなら、その背後に（おそらく数学的な）直感がありますか？

ディープラーニングとサドルポイントに特別なことはありますか？

— oW_
ソース

サドルポイントがローカルミニマムよりも高い理由の数学的直観については、機能の観点から考えます。極小になるためには、あらゆる方向で極小でなければなりません。対照的に、サドルポイントの場合、1つの方向のみが他と異なる必要があります。すべての方向の同じ動作と比較して、1つ以上が他とは異なる動作をする可能性がはるかに高くなります。

— ポール

おかげで、今あなたがそれを言うこと、それは一種明白なのだ... ここでは、トピックのいくつかの興味深い議論がある

— oW_

Andrew NgのCourseraコースの2週目の「ローカルミニマムの問題」に関するビデオ「ディープニューラルネットワークの改善：ハイパーパラメーターチューニング、正則化、最適化」があります。たぶんそれはあなたが探しているものです。

— mjul

見てみましょうここで

— メディア

回答:

これは単に私の直感、つまり厳密さを伝えようとするものではありません。addle点があることは、それらが最小値と最大値の組み合わせを組み合わせた最適なタイプであるということです。深層学習では次元数が非常に多いため、最適値が最小値の組み合わせのみで構成される可能性は非常に低くなります。つまり、ローカルミニマムで「行き詰まる」ことはまれです。過度に単純化するリスクはありますが、「ディメンションの1つを下にスライド」できるため、サドルポイントで「スタック」するのが難しくなります。あなたが言及するAndrew Ngのビデオは、彼によるDeep LearningのCourseraコースから来ていると思います。

— user41985
ソース

多変量計算に基づいて説明しましょう。多変量コースを受講している場合、臨界点（勾配がゼロである点）が与えられると、この臨界点が最小になる条件は、ヘッセ行列が正定値であるということです。ヘッセ行列は対称行列であるため、対角化できます。ヘッセ行列に対応する対角行列を次のように書くと：ヘッセ行列が正定であることは、と同等

D = [\begin{matrix} d_{1} \\ ⋱ \\ d_{n} \end{matrix}]

$D = \begin{bmatrix} d_{1} & & \\ & \ddots & \\ & & d_{n} \end{bmatrix}$

です。

d_{1} > 0, \dots, d_{n} > 0

$d_1 > 0, \dots, d_n>0$

$d_1,\dots,d_n$ $d_i$ $1/2$ $d_i$ $d_j$ 、ヘッセ行列の非線形性が高いため、独立したイベントとして正である確率を採用します。

P (d_{1} > 0, \dots, d_{n} > 0) = P (d_{1} > 0) \cdot \dots \cdot P (d_{n} > 0) = \frac{1}{2^{n}}

$P(d_1 > 0, \dots, d_n > 0) = P(d_1 > 0)\cdot \cdots \cdot P(d_n > 0) = \frac{1}{2^n}$

$10^8$ $1/2^n$

しかし、maximaはどうでしょうか？

$1/2 ^n$

P (s a d d l e) = 1 - P (m a x i m u m) - P (m i n i m u m) = 1 - \frac{1}{2^{n}} - \frac{1}{2^{n}} = 1 - \frac{1}{2^{n - 1}}

$P(saddle) = 1 - P(maximum) - P(minimum) = 1 - \frac{1}{2^n} - \frac{1}{2^n} = 1 - \frac{1}{2^{n-1}}$

$n$

— デビッド・マシップ
ソース