ロジスティック回帰のサンプルサイズは?


26

調査データからロジスティックモデルを作成します。これは、154人の回答者のみがインタビューされた4つの居住コロニーの小規模な調査です。私の従属変数は「仕事への十分な移行」です。154人の回答者のうち、73人は仕事に十分に移行したが、残りはそうではないと答えたことがわかりました。したがって、従属変数は本質的にバイナリであるため、ロジスティック回帰を使用することにしました。7つの独立変数(3つの連続変数と4つの名義変数)があります。1つのガイドラインでは、各予測変数/独立変数について10のケースが必要であることを示唆しています(Agresti、2007)。このガイドラインに基づいて、ロジスティック回帰を実行しても問題ないと思います。

私は正しいですか?そうでない場合は、独立変数の数を決定する方法を教えてください?


3
「予測子ごとに10ケース」と言う経験則を本当に理解したことはありません(残念ながら、アグレスティが書いた本にアクセスできません)。つまり、100件の件名のうち、10件がケース(1's)および90件の非ケース(0' s)である場合、ルールには「予測子を1つだけ含める」と記載されています。しかし、0の代わりにをモデル化し1、推定オッズ比の逆数をとるとどうなりますか?9つの予測子を含めることはできますか?それは私には意味がありません。
boscovich

アンドレア、あなたが言っているのと同じことを言いました。154人の回答者のうち、73のケースがあります(1と残りの0)。私の質問に光を当てていただけますか。ありがとう!
ブラジスタット

4
解説では、イベントと非イベントの最小数を調べる必要があることを読みました。そのため、10/100の例では、コーディング方法に関係なく、1つの予測変数になります。
psj

合理的に聞こえる@psj。参考文献はありますか?
ボスコビッチ

回答:


25

ここにはいくつかの問題があります。

通常、最小許容サイズの統計的検出力を達成するために、最小サンプルサイズを決定します。必要なサンプルサイズは、いくつかの要因、主に0(または使用しているヌル、ただし0が最も一般的)と区別できるようにする効果の大きさ、およびその効果をキャッチする最小確率の関数です。ほしい。この観点から、サンプルサイズは検出力分析によって決定されます。

もう1つの考慮事項は、モデルの安定性です(@cbeleitesのメモとして)。基本的に、データ数に対する推定パラメーターの比が1に近づくと、モデルは飽和状態になり、必然的オーバーフィットします(実際、システムにランダム性がない場合を除く)。1対10の比率の経験則は、この観点から来ています。通常、適切な電力を使用することでこの懸念をカバーできますが、逆も同様です。

ただし、1対10のルールは線形回帰の世界に由来するものであり、ロジスティック回帰にはさらに複雑さが伴うことを認識することが重要です。1つの問題は、1と0の割合が約50%/ 50%のときにロジスティック回帰が最適に機能することです(@andreaと@psjが上記のコメントで説明しているように)。懸念される別の問題は分離です。つまり、独立変数(またはそれらの組み合わせ)の1つの極端に1をすべて収集し、もう1つの極端に0をすべて収集するのは望ましくありません。これは良い状況のように思えますが、完全な予測が容易になるため、実際にはパラメーター推定プロセスが爆発的になります。(@Scortchiは、ここでロジスティック回帰の分離に対処する方法について優れた議論をしています:です。ロジスティック回帰で完全な分離を処理する方法?)IVが増えると、効果の真の大きさが一定に保たれている場合でも、特に反応のバランスが取れていない場合でも、これが起こりやすくなります。したがって、IVごとに10を超えるデータが簡単に必要になります。

その経験則の最後の問題の1つは、IVが直交していると想定していることです。これは、設計された実験には妥当ですが、あなたのような観察研究では、IVがほぼ直交することはほとんどありません。この状況に対処するための戦略(IVの結合またはドロップ、主成分分析の実行など)がありますが、対処されていない場合(これが一般的です)、より多くのデータが必要になります。

妥当な質問は、あなたの最小Nは何であるべきか、そして/またはあなたのサンプルサイズは十分ですか?これに対処するには、@ cbeleitesで説明されている方法を使用することをお勧めします。1〜10のルールに依存するだけでは不十分です。


6
「1つの問題は、1と0の割合が約50%/ 50%のときにロジスティック回帰が最適に機能することです」というステートメントの参照を提供できますか?50/50から非常に遠いデータセットがあり、その意味を疑問に思っているので、私は自分でこのことについて疑問に思っていました。(スレッドを復活させて申し訳ありません)
トレバー

3
適切なときに古いスレッドを復活させることで問題が発生することはありません、@ Trevor。あなたが探しているのは、共役事前によるこの素敵な答えの線に沿ったものだと思います:does-an-unbalanced-sample-matter-when-doing-logistic-regression
GUNG -復活モニカ

2
トレバーの質問に+1。ロジスティック回帰は、たとえデータが同じ場合であっても(収益が減少しているにもかかわらず)、新しいデータの恩恵を受け続けると信じています。それは実際、ランダムフォレストのような機械学習手法について私を悩ませたものです-より関連性の高いトレーニングデータを追加することで悪化する可能性があります。おそらく、不均衡が厳しすぎると、数値的考慮のためにロジスティック回帰が機能しなくなるポイントがあるでしょう。これについてもっと知りたいと思います。
ベンオゴレク16

+1、おそらくこれはあなたの答えによって暗示されていますが、確かではありませんが、異なるレベルのカテゴリ変数に対してこれがどのように機能するのか疑問に思っていますか?レベルごとに10個の観測値を取得することをお勧めしますか?
baxx

1
それは、@baxx経験則だが、はい、より多くのちょうど割合を推定よりを行うには、あなたは少なくとも45必要があるだろう
復活モニカ- GUNG

16

通常、15:1ルール(モデル内の候補パラメーターの数に対するmin(events、non-events)の比率)を使用します。 より最近の研究により、より厳密な検証には20:1が必要であることが判明しました。詳細については、http://biostat.mc.vanderbilt.edu/rmsからリンクされた私のコース配布資料、特にインターセプトを推定するための最小サンプルサイズ96の引数を参照してください。しかし、サンプルサイズの要件はより微妙であり、さらに最近の論文ではこれをより包括的に扱っています。


14

通常、ケースが少なすぎます。モデルの複雑さ(パラメーターの数)は、モデルが不安定であることを意味します。したがって、サンプルサイズ/モデルの複雑さが問題ないかどうかを知りたい場合は、合理的に安定したモデルを取得しているかどうかを確認してください。

(少なくとも)2種類の不安定性があります。

  1. モデルパラメータは、トレーニングデータのわずかな変化で多くのことを異なります。

  2. トレーニングデータにわずかな変更を加えてトレーニングされたモデルの予測(同じ場合)は大きく異なります。

1.を測定するには、トレーニングデータがわずかに摂動した場合にモデル係数がどれだけ変化するかを調べます。適切なモデルの束は、たとえばブートストラップまたは(反復)相互検証手順中に計算できます。

一部のタイプのモデルまたは問題では、パラメーターの変化は予測の変化を意味しません。ブートストラップ外または反復相互検証中に計算された(正しいかどうかに関係なく)同じケースの予測のバリエーションを調べることで、不安定性を直接確認できます。


5

厳密な規則はありませんが、名義変数のカテゴリが多すぎない限り、すべての独立変数を含めることができます。各ノミナル変数のクラスの1つを除くすべてに1つの「ベータ」が必要です。したがって、名目変数が「作業領域」であり、30の領域がある場合、29のベータ版が必要になります。

これを克服する1つの方法は、ベータを正則化するか、大きな係数に対してペナルティを課すことです。これにより、モデルがデータを過剰適合させないようにすることができます。L2およびL1の正則化は一般的な選択肢です。

考慮すべきもう1つの問題は、サンプルの代表性です。どの人口を推測したいですか?サンプルに含まれるすべての異なるタイプの人々は、人口に含まれていますか?サンプルに「穴」がある場合(たとえば、サンプルに35-50歳の女性がいない、または高収入の労働者がいないなど)、正確な推論を行うことは困難です。


4

ここにuser41466が書いたMedCalcウェブサイトからの実際の答えがあります

http://www.medcalc.org/manual/logistic_regression.php

サンプルサイズの考慮事項

ロジスティック回帰のサンプルサイズの計算は複雑な問題ですが、Peduzziらの研究に基づいています。(1996)研究に含める最小数の症例に関する以下のガイドラインを提案できます。pを母集団の負または正のケースの割合の最小とし、kを共変量の数(独立変数の数)とすると、含めるケースの最小数は次のとおりです。N = 10 k / p例:あなたモデルに含める3つの共変量があり、母集団の陽性症例の割合は0.20(20%)です。必要なケースの最小数はN = 10 x 3 / 0.20 = 150です。結果の数が100未満の場合、Long(1997)が示唆するように100に増やす必要があります。

Peduzzi P、Concato J、Kemper E、Holford TR、Feinstein AR(1996)ロジスティック回帰分析における変数ごとのイベント数のシミュレーション研究。Journal of Clinical Epidemiology 49:1373-1379。


(床)独立変数ごとに同じ10例で、それはそう
seanv507

1

独立変数あたりの観測数が少なくとも5〜9であるロジスティックモデルの結果は、特に結果が統計的に有意である場合に信頼できます(Vittinghoff&McCulloch、2007)。

Vittinghoff、E.、&McCulloch、CE2007。ロジスティックおよびコックス回帰の変数ごとに10個のイベントのルールを緩和。American Journal of Epidemiology、165(6):710–718。


問題となるのは、厳密には「独立変数ごとの観測数」ではなく、「イベント」の数であることに注意してください。ロジスティック回帰の場合、「イベント」の数は、2つの結果クラスの中で最も頻度が低いケースの数です。これは、合計観測数の1/2以下であり、一部のアプリケーションではそれよりかなり低くなります。
EdM 16
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.