適切なスコアリングルールが分類設定における一般化のより良い推定になるのはいつですか？

分類問題を解決するための一般的なアプローチは、候補モデルのクラスを識別し、交差検証などの手順を使用してモデル選択を実行することです。通常、最も正確なモデル、またはなどの問題固有の情報をエンコードする関連関数を選択し。 $\text{F}_\beta$

最終目標が正確な分類子を作成することであると仮定すると（正確性の定義は再び問題に依存します）、どのような状況で、正確さ、精度、再現率などの不適切なものではなく、適切なスコアリングルールを使用してモデル選択を実行する方が良いでしょう。、など？さらに、モデルの複雑さの問題を無視して、すべてのモデルを等しく可能性があると見なすアプリオリと仮定します。

以前は私は決して言わなかっただろう。正式な意味では、分類は回帰[1]、[2]よりも簡単な問題であり、前者の方が後者よりも厳しい境界を導出できる（）。さらに、確率を正確に一致させようとすると、誤った決定の境界や過剰適合が発生する場合があります。しかし、ここでの会話とそのような問題に関するコミュニティの投票パターンに基づいて、私はこの見解に疑問を投げかけています。 $*$

デブロイ、リュック。パターン認識の確率論。巻。31.スプリンガー、1996年、セクション6.7
カーンズ、マイケルJ.、ロバートE.シャピレ。確率論的概念の効率的な配布フリー学習。コンピュータサイエンスの基礎、1990年。IEEE、1990年。

$(*)$ このステートメントは少しずさんになるかもしれません。私は、特にフォームの所与の標識されたデータを意味するとと、条件付き確率を正確に推定するよりも、決定境界を推定する方が簡単のようです。 $S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$ $x_i \in \mathcal{X}$ $y_i \in \{1, \ldots, K\}$

— アルト
ソース

これを検定/ウィルコクソン検定と気分中央値検定の比較と考えてください。中央値検定は最適な分類（連続変数の中央値の上または下）を使用するため、サンプルの情報ののみが失われます。中央値とは異なる時点での二分法では、さらに多くの情報が失われます。「正しく」分類された比率などの不適切なスコアリングルールを使用すると、最大でまたは約効率になります。これにより、誤った機能が選択され、偽のモデルが検出されます。 $t$ $\frac{1}{\pi}$ $\frac{2}{\pi}$ $\frac{2}{3}$

— フランク・ハレル
ソース

なぜ二分法が関連しているのか理解できません。最終的な目標は、分類器選択することである、いくつかの仮説クラスからよう、いくつかの有限のサンプルが与えられた、最小であるに従って分布の例から成ります。

h

$h$

H

$H$

P_{(x, y) \sim D} (h (x) \neq y)

$P_{(x,y) \sim D}(h(x) \neq y)$

S

$S$

D

$D$

— アルト2014年

問題は、（リスク予測ではなく）分類が不必要な二分法であることです。

— フランクハレル2014年

それでは、目的がいくつかの効用関数に関してベイズの最適な意思決定であり、確率を正確に一致させないことを条件として、この質問への答えは決してないと仮定しても安全ですか？

— アルト2014年

ベイズの最適な決定には、十分に調整された予測リスクが必要であるため、2つがリンクされます。最適な決定では、パイプラインの早い段階で行われた二分法は使用されませんが、なく、完全な情報の条件が使用されます。

P r o b (Y = 1 | X = x)

$Prob(Y = 1 | X=x)$

P r o b (Y = 1 | X > c)

$Prob(Y=1 | X > c)$

— フランクハレル2014年

素敵な議論。一部のスパム検出機能などの一部のケースでは、「不確実」になる可能性があります。私は、医学的診断や予後などの問題におけるしきい値処理にもっと関心があります。

— フランクハレル14年