0-1損失関数が扱いにくいのはなぜですか？

イアン・グッドフェローのディープラーニングの本には、

場合によっては、実際に気になる損失関数（分類エラーなど）が効率的に最適化できるものではないことがあります。たとえば、線形分類子の場合でも、予想される0-1の損失を正確に最小化することは、通常、困難です（入力次元で指数関数的）。このような状況では、代わりに代理損失関数を最適化するのが一般的です。代理損失関数はプロキシとして機能しますが、利点があります。

0-1損失が扱いにくいのはなぜですか、それとも入力次元で指数関数的ですか？

neural-networks deep-learning loss-functions

— サムラアーシャド
ソース

回答:

$\beta$ $\mathbf{1}(y_{i}\beta\mathbf{x}_{i} \leq 0)$ $i$ $2^{n}$ $n$ 合計サンプルポイント。これはNPハードであることがわかっています。損失関数の現在の値を知っていても、凸関数または連続関数の勾配法が利用できるかどうかを導き出すことができるため、現在のソリューションをどのように変更して改善すべきかについての手がかりはありません。

— ドン・ウォルポラ
ソース

非常に良い点-実際には、ランダム検索または完全検索が、そのような損失関数の最小値を見つけるために使用できる唯一の方法ですよね？

— DeltaIV 2018

^^または、進化的/群れベースのインテリジェンス手法でしょうか？

— samra irshad

@samrairshadはい、実際、0-1の損失は進化的方法で見られることは珍しくありません。

— John Doucette、2018

ランダム検索から複雑な進化/群れアルゴリズムにジャンプする前に、クロスエントロピー法（CEM）を確認します。

— 最大

実際、分類エラーは扱いやすい場合があります。この記事に示すように、Nelder-Meadメソッドを使用して、正確ではありませんが効率的に最適化できます。

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

「次元削減は、多次元ベクトルを低次元空間に変換するプロセスです。パターン認識では、分類情報を大幅に失うことなくこのタスクを実行することがしばしば望まれます。ただし、ベイズ誤差はこの目的の理想的な基準です。ただし、数学的な処理は非常に難しいことが知られています。そのため、実際には次善の基準が使用されています。ベイズ誤差の推定に基づいて、現在使用されている基準よりも最適基準に近いと思われる代替基準を提案します。この基準に基づいた線形次元削減のアルゴリズムが考案され、実装されています。実験は、従来のアルゴリズムと比較してその優れた性能を実証しています。」

ここで説明するベイズ誤差は基本的に0-1の損失です。

この作業は、線形次元削減のコンテキストで行われました。ディープラーニングネットワークのトレーニングにどれほど効果があるかわかりません。しかし、要点は次の質問に対する答えです。0-1の損失は、普遍的に扱いにくいものではありません。少なくとも一部のタイプのモデルでは比較的適切に最適化できます。

— リュボミール
ソース