ロジスティック回帰の最小観測数?


9

3つの数値変数を使用してバイナリロジスティック回帰を実行しています。すべての入力変数がゼロの場合、確率はゼロになるはずなので、モデルの切片を抑制しています。

使用する必要がある観測の最小数はいくつですか?


10
そのためにはインターセプトが必要です。切片、独立変数がすべてゼロの場合、ではなく確率に対応します。11+exp0=1/20
whuber

2
ここに関連する議論があります:sample-size-for-logistic-regression
ガン-モニカを復活させる

回答:


19

しっかりとした出発点に到達する方法は1つあります。共変量がないと仮定すると、モデルのパラメーターは切片のみでした。真の切片がゼロの近くにあるときに、予測された確率が95%の信頼度で真の確率の0.1以内になるように切片の推定を十分に正確にするために必要なサンプルサイズは何ですか?答えはn = 96です。共変量が1つあり、有病率が0.5のバイナリである場合はどうなりますか?Prob [Y = 1 |を推定するための誤差範囲に上限を設けるには、x = 0の96人の被験者とx = 1の96人の被験者が必要です。X = x]は0.1を超えません。0.95の信頼水準で真の確率を推定するときにの誤差範囲を達成するために必要なサンプルサイズの一般的な式は、次のとおりです。δpn=(1.96δ)2×p(1p)。最悪の場合、設定します。p=0.5


このフォーラムであなたの助けに感謝します。最大90000のイベントと最大2000000の非イベントがあります。65の予測子を持つロジスティックモデルが必要です。では、どのように、そしていくつのサンプルを取ることができますか。実際、私の質問はstats.stackexchange.com/questions/268201/…に
SIslam

2
有効なサンプルサイズと同時に65をフィッティングしても問題ありません。
フランクハレル2017年

しかし、psudo rの二乗が低くなるので、サンプルが多すぎると問題が発生する可能性があると提案されました。
SIslam 2017年

3
冗談ですか?大きなサンプルを使用してが低い場合、それは真のの最も正確な推定であり、観測値を削除してもモデルのパフォーマンスは向上しません。悪化するだけです。を、インデックス(一致確率; ROC領域)などのわかりやすい他のメトリックで補足します。そして何よりも、結果カテゴリの頻度の「バランスをとる」ためのアドバイスは無視してください。R2R2R2c
フランクハレル2017年

glmnet この段階で最も有用な予測子を見つけるためにこれを使用する必要がありますか?
SIslam 2017年

9

観測の最小数は実際にはありません。基本的に、観測数が多いほど、モデルのパラメーターがデータによって制約され、モデルの信頼性が高まります。必要な観測値の数は、問題の性質とモデルでの信頼度によって異なります。この種のことについて「経験則」に頼りすぎるのは良い考えではないと思いますが、取得できるすべてのデータを使用して、モデルパラメータと予測の信頼性/信頼できる間隔を調べます。


最小数はありません!最大90000のイベントと最大2000000の非イベントがあります。65のリグレッサを持つロジスティックモデルが必要です。これはサンプル数が多すぎると言われています。これは、全体で〜90000イベントと〜2000000からランダムに選択された〜90000非イベントを取得しているため、サンプルを代表させながらサンプルを減らしてみてください。この段階で、どれだけのサンプルをどのように取得できますか。実際、私は言及していますstats.stackexchange.com/questions/268201/...
SIslam

3
いいえ、その必要はありません
フランクハレル2017年

1
@FrankHarrellに同意します(別の理由が考えられます)。「クラスの不均衡」の問題は、収集するデータが多いほど消える傾向があり、トレーニングデータのバランスを人為的に調整すると、運用クラスの頻度が50-50であることをモデルに伝えますが、これはおそらく正しくありません。運用上のマイノリティクラスを分類します。これを行う場合は、出力確率を後処理して、トレーニングと操作クラスの頻度の差を調整します(この時点で、おそらくすべてのデータを使用したトレーニングと基本的に同じ結果が得られます)。
Dikran Marsupial 2017

0

更新:@David Harrisによる上記のコメントを見たことがありません。そのために残念。あまりにも似ている場合は、私の答えを削除できます。

私は2番目のディクランマルサプライポストを投稿し、2セント追加します。

独立変数から期待される影響についての事前知識を考慮してください。小さな効果が予想される場合は、膨大なサンプルが必要になります。効果が大きいと予想される場合は、小さなサンプルで十分です。

ご存知かもしれませんが、標準誤差はサンプルサイズの関数であるため、サンプルサイズが大きいほど、標準誤差は小さくなります。したがって、影響が小さい、つまりゼロに近い場合、小さな影響のみでこの影響を検出できます。つまり、影響がゼロと大きく異なることを示します。一方、影響が大きい(ゼロから遠い)場合は、標準誤差が大きくても有意な結果が得られます。

リファレンスが必要な場合は、Andrew Gelmansのブログをご覧ください。


1
Gelmanのブログはかなり大きくなっています:-)。特定の投稿を念頭に置いていますか?
whuber

@Whuber、あなたは正しい、私はもっと具体的なことを指摘すべきだった。彼は小さな効果や多重比較に関するいくつかの最近の話のプレゼンテーションを持っていますが、私は次のリンクは十分にあると思う:stat.columbia.edu/~gelman/research/published/power4r.pdf
マノエルGaldino

1
コメントのそのリンクは
無効

0

許容できる見積もりを得るには、他の研究者が検討したルールを適用する必要があるようです。上記の2つの経験則に同意します(各変数に10のobsとハレルの公式)。ここでは、データが明らかにされているか、好みを述べているという別の質問があります。彼らの本のホスマーとレメショーは明かされるためのルールを提供し、彼らの本のルービエールとヘンシャー(述べられた好みの方法)は述べられた好みのデータのためのルールを提供しました


2
これは、より完全な説明と完全で正確な参照から利益を得るでしょう。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.