3つの数値変数を使用してバイナリロジスティック回帰を実行しています。すべての入力変数がゼロの場合、確率はゼロになるはずなので、モデルの切片を抑制しています。
使用する必要がある観測の最小数はいくつですか?
3つの数値変数を使用してバイナリロジスティック回帰を実行しています。すべての入力変数がゼロの場合、確率はゼロになるはずなので、モデルの切片を抑制しています。
使用する必要がある観測の最小数はいくつですか?
回答:
しっかりとした出発点に到達する方法は1つあります。共変量がないと仮定すると、モデルのパラメーターは切片のみでした。真の切片がゼロの近くにあるときに、予測された確率が95%の信頼度で真の確率の0.1以内になるように切片の推定を十分に正確にするために必要なサンプルサイズは何ですか?答えはn = 96です。共変量が1つあり、有病率が0.5のバイナリである場合はどうなりますか?Prob [Y = 1 |を推定するための誤差範囲に上限を設けるには、x = 0の96人の被験者とx = 1の96人の被験者が必要です。X = x]は0.1を超えません。0.95の信頼水準で真の確率を推定するときにの誤差範囲を達成するために必要なサンプルサイズの一般的な式は、次のとおりです。。最悪の場合、設定します。
glmnet
この段階で最も有用な予測子を見つけるためにこれを使用する必要がありますか?
観測の最小数は実際にはありません。基本的に、観測数が多いほど、モデルのパラメーターがデータによって制約され、モデルの信頼性が高まります。必要な観測値の数は、問題の性質とモデルでの信頼度によって異なります。この種のことについて「経験則」に頼りすぎるのは良い考えではないと思いますが、取得できるすべてのデータを使用して、モデルパラメータと予測の信頼性/信頼できる間隔を調べます。
更新:@David Harrisによる上記のコメントを見たことがありません。そのために残念。あまりにも似ている場合は、私の答えを削除できます。
私は2番目のディクランマルサプライポストを投稿し、2セント追加します。
独立変数から期待される影響についての事前知識を考慮してください。小さな効果が予想される場合は、膨大なサンプルが必要になります。効果が大きいと予想される場合は、小さなサンプルで十分です。
ご存知かもしれませんが、標準誤差はサンプルサイズの関数であるため、サンプルサイズが大きいほど、標準誤差は小さくなります。したがって、影響が小さい、つまりゼロに近い場合、小さな影響のみでこの影響を検出できます。つまり、影響がゼロと大きく異なることを示します。一方、影響が大きい(ゼロから遠い)場合は、標準誤差が大きくても有意な結果が得られます。
リファレンスが必要な場合は、Andrew Gelmansのブログをご覧ください。