Andrew Ng(残念ながらもう見つけられないビデオで)が、深層学習問題における局所的最小値の理解が、高次元の空間(ディープラーニング)クリティカルポイントは、ローカルミニマムではなくサドルポイントまたはプラトーになりやすい。
「すべてのローカルミニマムがグローバルミニマムである」という仮定を議論する論文(たとえば、これ)を見てきました。これらの仮定はすべてかなり技術的ですが、私が理解していることから、それらはニューラルネットワークに構造を課し、それをある程度線形にする傾向があります。
ディープラーニング(非線形アーキテクチャを含む)では、プラトーはローカルミニマムよりも可能性が高いという有効な主張ですか?もしそうなら、その背後に(おそらく数学的な)直感がありますか?
ディープラーニングとサドルポイントに特別なことはありますか?