分類確率のしきい値


49

一般的な分類に関する質問があります。fを分類器とし、データDが与えられた場合に確率のセットを出力します。通常、P(c | D)> 0.5の場合、クラス1を割り当てます。分類)。

私の質問は、もし私が見つけたら、確率を1として分類する場合、つまり0.2よりも大きい場合、分類器のパフォーマンスは向上するということです。分類を行うときにこの新しいしきい値を使用するのは正当ですか?

私は、より小さな信号を発するデータのコンテキストで、より低い分類の必要性を解釈します。まだ分​​類問題にとって重要です。

私はこれがそれを行う1つの方法であると認識していますが、これが正しい思考ではない場合、個々の機能を同様に強調し、しきい値を0.5に保つことができるデータ変換は何ですか?


8
あなたはすでにいくつかの優れた答えを持っているので、これを言ってみましょう。あなたの「普通」は普通のはずの普通のことではありません。「0.5のしきい値」が標準になった場所は定かではありません。アイデアを助長する優れたソフトウェアがいくつかあることは知っていますが、一般的には非常に貧弱なプラクティスです。
マシュードゥルーリー

1
@MatthewDrury:もちろん、スコアが重要な間違いを犯さない適切に調整された関連事後確率でない限り(後者は誤分類のさまざまなコストを処理します)。
cbeleitesは、モニカをサポートします

回答:


68

フランク・ハレルはこれについて彼のブログに書いています:Classification vs. Prediction、私は心から同意します。

基本的に、彼の主張は、新しいサンプルの各クラスの確率を出力すると、運動の統計的要素が終了するということです。新しい観測値を1 vs 0として分類するしきい値を選択することは、統計の一部ではなくなりました。これは、決定コンポーネントの一部です。そして、ここでは、モデルの確率的出力が必要ですが、次のような考慮事項も必要です。

  • 新しい観察結果をクラス1対0として扱うことを決定した結果はどうなりますか?その後、すべての1に格安のマーケティングメールを送信しますか?または、大きな副作用を伴う侵襲性のがん治療を適用しますか?
  • 「真」の0を1として、またはその逆に扱うとどのような結果になりますか?顧客にチェックを入れますか?誰かに不必要な治療を施しますか?
  • 私の「クラス」は本当に離散的ですか?それとも、実際には臨床閾値が単なる認識上のショートカットである連続体(血圧など)がありますか?もしそうなら、私が今「分類」しているケースはどれくらい閾値を超えていますか?
  • または、クラス1になる可能性が低いが肯定的な確率は、実際には「データをさらに取得する」、「別のテストを実行する」という意味ですか?

それで、あなたの質問に答えるために:あなたの分類の最終消費者と話をして、そして上の質問への答えを得てください。または、確率的な出力を彼女または彼に説明して、彼女または彼に次のステップを実行させます。


1
この洞察に満ちた答えをありがとうございました。問題自体をさらに研究します。このプロパティを統計学習部分に何らかの形で変換できると確信しています。
sdgaw erzswer

うわー、私はこれに何かを追加できればいいのに、何も得られない、素晴らしい答えが得られたらいいのに!
the_SJC

4
非常に良い答え:質問はすぐに見つかります!しかし、私の職業はアプリケーション側にあり、決定のしきい値を見つけることは統計と呼ばれるかどうかに関係なく、それは私の専門職務の範囲内に完全に収まります。モデル-これらすべての決定を検証プロセスでカバーする必要があるという理由もあります。
cbeleitesはモニカをサポートします

11

ステファンの答えは素晴らしいです。基本的には、分類子で何をしたいかによって異なります。

いくつか例を追加するだけです。

最適なしきい値を見つける方法は、目的関数を定義することです。バイナリ分類の場合、これは精度またはF1スコアなどです。どちらを選択するかによって、最適なしきい値は異なります。F1スコアについては、興味深い答えがあります。F1最適しきい値とは何ですか?計算方法は?。ただし、「F1スコアを使用したい」というのは、実際に選択する場所です。この選択が良いかどうかは、最終目的に依存します。

それを見る別の方法は、探検と搾取の間のトレードオフに直面しています(ステファンの最後のポイント):多腕バンディットはそのような問題の例です:情報を取得し、最高のバンディットを選択する2つの相反する目的に対処する必要があります。ベイジアン戦略の1つは、各バンディットを最適な確率でランダムに選択することです。正確に分類するのではなく、同様の方法で出力確率を処理します。

分類子が意思決定アルゴリズムの1つのブロックにすぎない場合、最適なしきい値はアルゴリズムの最終目的に依存します。プロセス全体の目的関数に関して評価および調整する必要があります。


別の素晴らしい答えをありがとう。パイプラインの最終ステップを処理している場合、正しく理解していれば、しきい値を直接最適化することは完全に合法です。
sdgaw erzswer

@sdgawerzswer:はい。そして、a)適切な質問に対する答えを最適化することを確認し、b)その決定(およびしきい値の発見)をモデルの残りの部分と一緒に検証することを確認します。
cbeleitesは、モニカをサポートします

3

確率がどのように計算されるかを考慮することには、おそらく何らかの価値があります。最近では、分類器はバイアスベクトルを使用し、これに行列(線形代数)が乗算されます。ベクトルにゼロ以外の値がある限り、確率(ベクトルと行列の積)は決して0になりません。

これは、線形代数を取らなかった人々の現実の世界で混乱を引き起こすと思います。彼らは、0を持つべきだと思うアイテムの確率スコアがあるという事実に悩まされています。言い換えれば、彼らは、その入力に基づく決定から、統計的な入力を混乱させています。人間として、0.0002234の確率を持つものは、ほとんどの「実用的な」ユースケースでは0と同じであると言えます。高等認知科学の議論では、おそらく、バイアスベクトルがこれを行う理由について興味深い議論があるかもしれません。あるいは、これは認知アプリケーションに有効なのでしょうか。


2

間違ったしきい値はありません。選択するしきい値は、予測の目的によって異なります。または、精度とリコールなど、どちらを優先するかによって異なります(グラフを作成し、関連するAUCを測定して、選択したさまざまな分類モデルを比較します)。

精度とリコールのこの例を挙げています。私が現在取り組んでいる私自身の問題の場合、最小精度(またはPPVの正の予測値)に応じてしきい値を選択するので、予測するときにモデルに必要なのですが、ネガをあまり気にしません。そのため、モデルをトレーニングしたら、必要な精度に対応するしきい値を使用します。精度は私の制約であり、リコールは他の分類モデルと比較したときのモデルのパフォーマンスです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.