分類問題を解決するための一般的なアプローチは、候補モデルのクラスを識別し、交差検証などの手順を使用してモデル選択を実行することです。通常、最も正確なモデル、またはなどの問題固有の情報をエンコードする関連関数を選択し。
最終目標が正確な分類子を作成することであると仮定すると(正確性の定義は再び問題に依存します)、どのような状況で、正確さ、精度、再現率などの不適切なものではなく、適切なスコアリングルールを使用してモデル選択を実行する方が良いでしょう。、など?さらに、モデルの複雑さの問題を無視して、すべてのモデルを等しく可能性があると見なすアプリオリと仮定します。
以前は私は決して言わなかっただろう。正式な意味では、分類は回帰[1]、[2]よりも簡単な問題であり、前者の方が後者よりも厳しい境界を導出できる()。さらに、確率を正確に一致させようとすると、誤った決定の境界や過剰適合が発生する場合があります。しかし、ここでの会話とそのような問題に関するコミュニティの投票パターンに基づいて、私はこの見解に疑問を投げかけています。
- デブロイ、リュック。パターン認識の確率論。巻。31.スプリンガー、1996年、セクション6.7
- カーンズ、マイケルJ.、ロバートE.シャピレ。確率論的概念の効率的な配布フリー学習。コンピュータサイエンスの基礎、1990年。IEEE、1990年。
このステートメントは少しずさんになるかもしれません。私は、特にフォームの所与の標識されたデータを意味するとと、条件付き確率を正確に推定するよりも、決定境界を推定する方が簡単のようです。