ここにはいくつかの問題があります。
通常、最小許容サイズの統計的検出力を達成するために、最小サンプルサイズを決定します。必要なサンプルサイズは、いくつかの要因、主に0(または使用しているヌル、ただし0が最も一般的)と区別できるようにする効果の大きさ、およびその効果をキャッチする最小確率の関数です。ほしい。この観点から、サンプルサイズは検出力分析によって決定されます。
もう1つの考慮事項は、モデルの安定性です(@cbeleitesのメモとして)。基本的に、データ数に対する推定パラメーターの比が1に近づくと、モデルは飽和状態になり、必然的にオーバーフィットします(実際、システムにランダム性がない場合を除く)。1対10の比率の経験則は、この観点から来ています。通常、適切な電力を使用することでこの懸念をカバーできますが、逆も同様です。
ただし、1対10のルールは線形回帰の世界に由来するものであり、ロジスティック回帰にはさらに複雑さが伴うことを認識することが重要です。1つの問題は、1と0の割合が約50%/ 50%のときにロジスティック回帰が最適に機能することです(@andreaと@psjが上記のコメントで説明しているように)。懸念される別の問題は分離です。つまり、独立変数(またはそれらの組み合わせ)の1つの極端に1をすべて収集し、もう1つの極端に0をすべて収集するのは望ましくありません。これは良い状況のように思えますが、完全な予測が容易になるため、実際にはパラメーター推定プロセスが爆発的になります。(@Scortchiは、ここでロジスティック回帰の分離に対処する方法について優れた議論をしています:です。ロジスティック回帰で完全な分離を処理する方法?)IVが増えると、効果の真の大きさが一定に保たれている場合でも、特に反応のバランスが取れていない場合でも、これが起こりやすくなります。したがって、IVごとに10を超えるデータが簡単に必要になります。
その経験則の最後の問題の1つは、IVが直交していると想定していることです。これは、設計された実験には妥当ですが、あなたのような観察研究では、IVがほぼ直交することはほとんどありません。この状況に対処するための戦略(IVの結合またはドロップ、主成分分析の実行など)がありますが、対処されていない場合(これが一般的です)、より多くのデータが必要になります。
妥当な質問は、あなたの最小Nは何であるべきか、そして/またはあなたのサンプルサイズは十分ですか?これに対処するには、@ cbeleitesで説明されている方法を使用することをお勧めします。1〜10のルールに依存するだけでは不十分です。
1
's)および90件の非ケース(0
' s)である場合、ルールには「予測子を1つだけ含める」と記載されています。しかし、0
の代わりにをモデル化し1
、推定オッズ比の逆数をとるとどうなりますか?9つの予測子を含めることはできますか?それは私には意味がありません。