限られた人口の中でまれな出来事を研究したいと思います。どの戦略が最適かわからないので、この問題に関連するヒントと参考文献をいただければ幸いです。どこから始めればいいか分からない。
私の問題は政治学の問題であり、515,843のレコードからなる有限の人口を持っています。これらは、513,334個の「0」と2,509個の「1」を持つバイナリ従属変数に関連付けられています。人口の0.49%しか占めていないため、「1」をまれなイベントとして作成できます。
「1」の存在を説明するためにモデルを構築したい約10個の独立変数のセットがあります。私たちの多くと同様に、私はKing&Zengの2001年のまれなイベントの修正に関する記事を読みました。彼らのアプローチは、ケースコントロール設計を使用して「0」の数を減らし、インターセプトに修正を適用することでした。
ただし、この投稿では、King&Zengの議論は、母集団全体で既にデータを収集している場合は必要ないと述べています。これは私の場合です。したがって、古典的なロジットモデルを使用する必要があります。私にとって残念なことに、有意な係数は得られますが、私のモデルは予測の観点からはまったく役に立ちません(私の「1」の99.48%を予測できません)。
King&Zengの記事を読んだ後、ケースコントロールデザインを試したいと思い、すべての「1」で「0」の10%だけを選択しました。ほぼ同じ係数で、モデルは全母集団に適用された場合、「1」のほぼ3分の1を予測することができました。もちろん、多くの偽陽性があります。
したがって、3つの質問があります。
1)人口に関する十分な知識があるときにKing&Zengのアプローチが不利な場合、記事で人口を知っている状況を使用して、そのポイントを証明するのはなぜですか?
2)ロジット回帰の係数が十分であり、予測力が非常に低い場合、これらの変数によって説明される変動は無意味であることを意味しますか?
3)まれなイベントに対処するための最良のアプローチは何ですか?キングのリロジットモデル、ファースのアプローチ、正確なロジットなどについて読んだ。