1
ロジスティック回帰のサンプリングは、1と0の実際の比率を反映すべきですか?
樹木の特性(feの高さ)に基づいて、樹木に生息するいくつかの動物種の発生確率を推定できるロジスティック回帰モデルを作成するとします。いつものように、私の時間とお金は限られているため、限られたサンプルサイズのみを収集することができます。 次の質問があります: サンプルの1と0の比率は、1と0の真の比率を反映すべきですか?(少なくともおよそ)バランスのとれたサンプル(1と0の等しい数)でロジスティック回帰モデルを実行するのが一般的な方法であることに気付きました-しかし、そのようなモデルはシュールに高い発生確率を与えます-そうですか? ** 1と0の真の比率を反映しないモデルが「間違っている」という概念をサポートするために使用できる記事/教科書はありますか?** 最後に、1:1サンプリングを実行し、その後、今井らによるとタウでモデルを修正することは可能ですか?2007年? 今井浩介、ゲイリー・キング、オリビア・ラウ。2007.「relogit:Rare Events Logistic Regression for Dichotomous Dependent Variables」、今井幸介、Gary King、およびOlivia Lau、「Zelig:Everyone's Statistical Software」、http://gking.harvard.edu/zelig。 ドットは木を表します(赤=占有、灰色=占有なし)。占領されたすべての樹木を100%の精度(1)で識別できますが、森林内のすべての木を測定することはできません。モデルは、サンプリング戦略(比率)ごとに異なります。