イアン・グッドフェローのディープラーニングの本には、
場合によっては、実際に気になる損失関数(分類エラーなど)が効率的に最適化できるものではないことがあります。たとえば、線形分類子の場合でも、予想される0-1の損失を正確に最小化することは、通常、困難です(入力次元で指数関数的)。このような状況では、代わりに代理損失関数を最適化するのが一般的です。代理損失関数はプロキシとして機能しますが、利点があります。
0-1損失が扱いにくいのはなぜですか、それとも入力次元で指数関数的ですか?
イアン・グッドフェローのディープラーニングの本には、
場合によっては、実際に気になる損失関数(分類エラーなど)が効率的に最適化できるものではないことがあります。たとえば、線形分類子の場合でも、予想される0-1の損失を正確に最小化することは、通常、困難です(入力次元で指数関数的)。このような状況では、代わりに代理損失関数を最適化するのが一般的です。代理損失関数はプロキシとして機能しますが、利点があります。
0-1損失が扱いにくいのはなぜですか、それとも入力次元で指数関数的ですか?
回答:
合計サンプルポイント。これはNPハードであることがわかっています。損失関数の現在の値を知っていても、凸関数または連続関数の勾配法が利用できるかどうかを導き出すことができるため、現在のソリューションをどのように変更して改善すべきかについての手がかりはありません。
実際、分類エラーは扱いやすい場合があります。この記事に示すように、Nelder-Meadメソッドを使用して、正確ではありませんが効率的に最適化できます。
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
「次元削減は、多次元ベクトルを低次元空間に変換するプロセスです。パターン認識では、分類情報を大幅に失うことなくこのタスクを実行することがしばしば望まれます。ただし、ベイズ誤差はこの目的の理想的な基準です。ただし、数学的な処理は非常に難しいことが知られています。そのため、実際には次善の基準が使用されています。ベイズ誤差の推定に基づいて、現在使用されている基準よりも最適基準に近いと思われる代替基準を提案します。この基準に基づいた線形次元削減のアルゴリズムが考案され、実装されています。実験は、従来のアルゴリズムと比較してその優れた性能を実証しています。」
ここで説明するベイズ誤差は基本的に0-1の損失です。
この作業は、線形次元削減のコンテキストで行われました。ディープラーニングネットワークのトレーニングにどれほど効果があるかわかりません。しかし、要点は次の質問に対する答えです。0-1の損失は、普遍的に扱いにくいものではありません。少なくとも一部のタイプのモデルでは比較的適切に最適化できます。