ロジスティック回帰を行う場合、不均衡なサンプルは重要ですか?


81

さて、20:1の経験則を考慮して、十分なサンプルがあると思います:合計7つの予測変数のかなり大きなサンプル(N = 374)。

私の問題は次のとおりです。使用する予測変数のセットが何であれ、100%の特異性と0%の感度よりも分類が良くなることはありません。満足のいくものではありませんが、候補予測変数のセット(これから逸脱することはできません)を考えると、これは実際には最良の結果になる可能性があります。

しかし、私はもっと良くできると思わずにはいられなかったので、従属変数のカテゴリはほぼ4:1の非常に不均一なバランスであることに気付きました。よりバランスのとれたサブサンプルで分類を改善できますか?


5
これがどのようになるか想像するのは難しいです。おそらく、予測確率を0.5に削減しているのでしょうか?その場合は、カットオフを変更してみてください。
アニコ

4
ROC曲線の下の領域は.585で、やや悪い結果です。これは、特異性/感度のトレードオフに値するカットオフ値が実際にないことを意味します。カットオフをいじっても分類はあまり改善されません。感度を高めるのとほぼ同じだけ特異性を低下させるからです。
ミシエル

3
変数係数のいずれかが大幅に異なる(5つ以上の標準誤差がある)か?そうでない場合は、変数のセットについて説明力があまりないということです。0
確率論的

2
また、適切な予測を行うという点でのサンプルサイズは、実際には予測変数の一意のパターンの数であり、サンプリングされた個体の数ではないことに注意してください。たとえば、2つのレベルを持つ単一のカテゴリ予測変数を持つモデルは、サンプルに数百万人がいる場合でも、2つのパラメータ(各カテゴリに1つ)を持つロジスティック回帰モデルにのみ適合します。
確率論的

回答:


75

トレーニングセットのバランス

ロジスティック回帰モデルの場合、不均衡なトレーニングデータはモデルインターセプトの推定値のみに影響します(もちろん、これにより予測されるすべての確率がゆがみ、予測が損なわれます)。幸いなことに、インターセプトの修正は簡単です。0と1の真の割合を知っているか推測できる場合、およびトレーニングセットの割合を知っている場合は、レアイベントの修正をインターセプトに適用できます。詳細はKing and Zeng(2001) [ PDF ]にあります。

これらの「まれなイベントの修正」は、主に疫学で使用されるケースコントロール研究デザイン向けに設計されており、通常はバランスの取れた固定の0ケースと1ケースを選択してケースを選択し、結果のサンプル選択バイアスを修正する必要があります。実際、同じ方法で分類器をトレーニングすることができます。バランスのとれた適切なサンプルを選択してから、インターセプトを修正して、従属変数で選択した事実を考慮に入れて、ランダムサンプルが伝えることができるよりもまれなクラスについて詳しく学習します。

予測をする

関連するが明確なトピックについて:予測を行うためにインテリジェントにしきい値を設定する必要があることを忘れないでください。モデルの確率が0.5より大きい場合、常に1を予測するのが最善とは限りません。別のしきい値が優れている場合があります。このため、デフォルトの確率しきい値での予測成功だけでなく、分類器の受信者動作特性(ROC)曲線を調べる必要があります。


8
運用クラスの頻度がわからない場合は、テスト/運用サンプルのラベルを知らなくても、EMによってそれらを推定できます。詳細はSaerens et alにあります。「分類器の出力を新しいアプリオリ確率に調整する:簡単な手順」、ニューラル計算、vol。14、いいえ。1、pp。21-41、2002(dx.doi.org/10.1162/089976602753284446)。私はこれを数回使用しましたが、どれほどうまく機能しているかに感銘を受けました。ただし、理論的な補正は通常最適ではないことに注意してください。たとえば、相互検証を介して設定する方が良い場合が多いです。
ディクランMarsupial

ええ、ROC曲線の結果も納得できなかったことに言及しました。この場合、満足のいく結果をもたらすしきい値はないと思います。
ミシエル

予測の作成に関して:0および1の結果に対するトレーニングセットのサイズをどのように考慮することができますか?私は確かに0.5のしきい値を使用したくないが、Rでこれを行う方法がわからない
。-ペルニカ

1
@Perlnika詳細はペーパーリンクに記載されています(最も単純なケースでは、推定インターセプトを変更します)。0.5 predict以外のしきい値を設定するには、新しいしきい値を超えるかどうかを使用して予測確率を取得し、それぞれについて計算します。
共役前

1
@SassaNFインターセプトシフトは、しきい値の変更によって相殺できることは事実です。ただし、これは確率推定(推論)をエラーの相対的なコスト(損失関数)に結び付けますが、後者はアプリケーションによって異なる場合があります。たとえば、0と1を間違えるコストが1と0を間違えるコストのC倍である場合、推定確率を1 /(1 + C)でしきい値設定する必要があります。
共役

41

問題は、クラスがそれ自体不均衡であることではなく、その分布を適切に表すために少数派クラスに属する十分なパターンがない可能性があることです。これは、ロジスティック回帰だけでなく、あらゆる分類子で問題が発生する可能性があることを意味します(合成問題があり、真のモデルがあることがわかっている場合でも)。良いことは、より多くのデータが利用可能になると、「クラスの不均衡」問題が通常なくなることです。そうは言っても、4:1はそれほど不均衡ではありません。

バランスの取れたデータセットを使用する場合、重要なことは、クラスが等しく共通であると仮定すると、モデルの出力が事後確率の推定値になることを覚えておくことです。各クラスに属するパターンに異なる重みを付け、正しい動作クラスの頻度でテストセットのクロスエントロピーを最小化することで重みを選択します。


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
ジュバル

2

2つのサンプルの基礎となる分布について考えてください。小さいサンプルに大きなバイアスをかけることなく、両方のサブポピュレーションを測定するのに十分なサンプルがありますか?

詳しい説明はこちらをご覧ください。

https://statisticalhorizo​​ns.com/logistic-regression-for-rare-events


5
これは質問に答えていないようです。
マイケルチャーニック

それは明確な答えがないからです!それはあなたがそれをどのように適用するか、そして推定プロセスに許容するバイアスの量についてです。
ポールタロック

1
これは素晴らしい答えだと思います。私が理解している限り、不均衡を修正するすべての試みは、実験で得られなかった外部の知識に依存しています。特に、基礎となる分布を知ることは修正に役立ちます。
user1700890
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.