低イベント率でロジスティック回帰を適用する


15

私は、イベント発生率は非常に低くなっているデータセット(40,000のうち持つ)。これにロジスティック回帰を適用しています。ロジスティック回帰では、このような低イベントレートのデータについては適切な混同マトリックスが得られないという結果が出ました。しかし、ビジネス上の問題とその定義方法により、イベントの数を40,000からそれ以上に増やすことはできませんが、イベント以外の母集団を削除できることに同意します。12105

これに関するあなたの見解を具体的に教えてください:

  1. ロジスティック回帰の精度はイベントレートに依存しますか、または推奨される最小イベントレートはありますか?
  2. 低イベントレートデータ用の特別なテクニックはありますか?
  3. 非イベント母集団を削除すると、モデルの精度が向上しますか?

私は統計モデリングが初めてなので、私の無知を許し、考えられる関連する問題に対処してください。

おかげで、


3
40000 / 12e5 = 3.3%、これは私には非常に低い率に見えません。
-GaBorgulya

1
ga ..低イベント率と高イベント率を決定するためにより多くのコンテキストが必要な場合、このデータは保険セクターのものです。
アーユッシュビヤニ

回答:


11

順番に関係なく質問に答えます。

3非イベント母集団を削除すると、モデルの精度が向上しますか?

各観測値は、パラメーターに関する追加情報を提供します(尤度関数を使用)。したがって、情報を失うだけなので、データを削除しても意味がありません。

1ロジスティック回帰の精度はイベント率に依存しますか、または推奨される最小イベント率はありますか?

技術的には、そうです:まれな観察はより有益です(つまり、尤度関数はより急勾配になります)。イベント比率が50:50の場合、同じ量のデータに対して、はるかに厳しい信頼帯(またはベイジアンの場合は信頼できる間隔)が得られます。ただし、イベントコントロールレートを選択することはできません(ケースコントロール研究を行っている場合を除く)ので、自分の持っているもので間に合わせる必要があります。

2低イベントレートデータ用の特別な手法はありますか?

発生する可能性のある最大の問題は完全な分離です。これは、変数の組み合わせによってすべての非イベント(またはすべてのイベント)が得られる場合に発生します。この場合、最尤パラメーター推定(およびその標準誤差)は無限に近づきます(通常はアルゴリズムは事前に停止します)。2つの解決策があります。

a)モデルから予測変数を削除します:これによりアルゴリズムが収束しますが、最も説明力のある変数を削除するので、モデルが最初から過剰適合している場合にのみ意味があります(複雑な相互作用が多すぎるなど) 。

b)事前分布など、ある種の罰則を使用します。これにより、見積もりがより合理的な値に縮小されます。


+1また、人々が自分のデータを50:50に再重み付けしたコンテキストを見てきたことを付け加えます。トレードオフは、モデルの分類能力の向上(適切なしきい値が選択されている場合)と、全体的な有病率に関する情報の損失および係数の解釈におけるいくつかの追加の難しさのようです。
デビッドJ.ハリス

1
@David:私はまた、人々が再重み付けし、高頻度クラスのみを再サンプリングする複雑な擬似ブートストラップスキームを使用することを聞いたことがあります。これらのすべての手法では、最終的にデータを破棄(または構成)しています。もしこれがあなたのモデルを改善するなら、おそらくあなたは間違ったモデルに適合していると主張します。ここにも、私のコメントを参照してください:stats.stackexchange.com/questions/10356/...
サイモン・バーンズ

1)明確でない場合は申し訳ありません。Rのglm関数の「重み」引数と同様に、イベントと非イベントの相対的な影響を変更することについて話していました。最悪の場合、これは各ダウンウェイトされたデータポイントの一部を捨てるようなものですが、実際には同じことではありません。2)私が言ったように、この決定にはトレードオフがあります。おそらく、サンプリング対象の母集団が明確に定義されておらず、本来のイベント率が意味をなさない状況で最も意味があります。私は確かに全面的にそれをお勧めしません。
デビッドJ.ハリス

2

時間的または空間的データの非イベントを削除するより良い代替手段があります。時間/空間全体でデータを集約し、カウントをポアソンとしてモデル化できます。たとえば、イベントが「X日に火山噴火が発生する」である場合、火山噴火が発生する日はそれほど多くありません。ただし、「X月の火山噴火の数」などのように、日を週または月にグループ化すると、イベントの数が減り、イベントの多くがゼロ以外の値になります。


6
私はこのアドバイスが質問にまったく答えていないと言わざるを得ません。1)OPが空間データまたは時間データを処理していることを示唆する質問には、何もありません。2)データの集約は、有意義な関係を識別するのにどのように役立ちますか(元のユニットよりも少ない情報を使用します!)
Andy W

2
また、注意点として、観察された関係が集約レベルで発生するためには、元のユニットのレベルに存在する必要がありますが、集約レベルの関係は、2つの変数間の関係が分解されたものを必ずしも反映するものではありませんレベル。参照してくださいqmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
アンディ・W

アンディに同意します。
アユーシュビヤニ11年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.