ロジスティック回帰のP> 0.5カットオフが「最適」ではないのはなぜですか?


13

序文:カットオフを使用するかどうかのメリット、またはカットオフを選択する方法については気にしません。私の質問は純粋に数学的で、好奇心によるものです。

ロジスティック回帰は、クラスAとクラスBの事後条件付き確率をモデル化し、事後条件付き確率が等しい超平面に適合します。したがって、理論的には、0.5の分類ポイントは、事後確率をモデル化するため(一貫して同じクラス比に遭遇すると仮定)、セットバランスに関係なく合計誤差を最小化することを理解しました。

私の実際の例では、分類カットオフとしてP> 0.5を使用すると非常に低い精度(約51%の精度)が得られます。ただし、AUCを見ると0.99を超えています。そのため、いくつかの異なるカットオフ値を調べたところ、P> 0.6で98%の精度(小さいクラスで90%、大きいクラスで99%)が得られました。

クラスは非常に不均衡であり(1:9)、高次元の問題です。ただし、クラスを各交差検定セットに均等に割り当てたため、モデルの適合と予測の間でクラスのバランスに違いが生じないようにしました。また、モデルの適合と予測で同じデータを使用してみましたが、同じ問題が発生しました。

0.5がエラーを最小化しない理由に興味があります。クロスエントロピー損失を最小化することでモデルが適合している場合、これは設計によるものだと考えました。

なぜこれが起こるのかについてのフィードバックはありますか?それは罰則の追加によるものですか、もしそうなら、誰かが何が起こっているのか説明できますか?



Scortchi、あなたが関連していると思われるカットオフについての質問についてもう少し具体的になることができますか?投稿する前に、関連する質問や回答が表示されませんでした。
felix000

申し訳ありませんが、すべてがあなたの質問に答えたわけではありませんでしたが、すべてのカットオフでパフォーマンスメトリックとして精度を使用しないこと、または少なくともユーティリティから計算されていない任意のカットオフ関数。
Scortchi -復活モニカ

回答:


16

ロジスティック回帰モデルから予測カテゴリを取得する必要はありません。予測された確率でうまく滞在できます。予測されたカテゴリを取得する場合、「この観察結果はこのカテゴリに分類するのが最適です」と言う以外の情報を使用してはなりません。たとえば、モデルの選択に「精度」/パーセント修正を使用しないでください。

.50N=1009949.50199

.5050.50


こんにちは、あなたの説明に感謝しますが、インターセプトのみのモデルの例はありません。インターセプトのみのモデルを使用すると、すべての例で0.99が得られるため、しきい値を取得することで99%の精度が得られます。
abcdaire

0

複数の理由が考えられます。

  1. データに非線形性がある可能性があるため、重みを線形に追加しても、常に正しい確率になるとは限りません
  2. 変数は良い予測子と弱い予測子の混合であるため、0.5程度のスコア付けされた母集団は弱い予測子または強い予測子の影響が少ないためです。上に行くと、予測因子の効果が強い人が得られます

そのため、精度、精度などの希望する出力を最大化するために、カットオフ値をいじる必要がある場合があります。ほとんどの場合、母集団はあまり均質ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.