完全分離の問題をどのように説明して提示するか?


8

ロジスティック回帰との仕事は完全な分離の問題に精通している人々 :あなたは2つの結果の一つだけに関連付けられているの変数の特定の値を持っている場合(バイナリが言う持つすべての観測よう、X = 1が持っている結果= 1 )、可能性が爆発し、最尤推定値が無限大になります。Rでは、完全な予測/分離以外の理由で完全な予測エラーメッセージが表示される可能性があるため、これを非常にうまく処理できる場合とそうでない場合があります。Stataでは、そのような変数と問題のある値を識別し、それらを分析から破棄します。xx=1glmlogit

私の質問は、あなたが完全に分離している場合に何をすべきかとは異なります。変数を再コード化することで処理できること(変数はすべてカテゴリなので、単純にカテゴリを組み合わせることができます)。

代わりに、これを説明する一般的な方法は何でしょうか。私は約50%の割合が「陽性」である約100人の患者のデータセットを持っています。人口統計変数のいくつかのカテゴリは、この完璧な予測を生成します。7人すべての緑色の目の人々が「肯定的な」結果を持っているとだけ言いましょう。これは、サンプルサイズが1000で緑色の目が70人の場合に消える小さなサンプルの特徴かもしれませんが、臨床的に意味があるかもしれません。オッズ比が高い「ポジティブ」な結果。

したがって、ベイジアン法またはその他の収縮法を使用したと言ってもいいのですが、その方法を説明する際に、完全な予測/分離ができたことを認める必要があり、さらに高度な手法を見つけて結果を得る必要がありました。すべて。ここで使用するのに適した言語は何ですか?



1つの視点は、ここを参照してください: stats.stackexchange.com/questions/254124/...
はKjetil B Halvorsenの

回答:


3

無回答の質問で私の発掘活動を行っているときに、私はこれが非常に賢明なものであることを発見しました。おそらくこれまでに、OPは回答を見つけました。
しかし、ロジスティック回帰の完全分離の問題に関して、私自身にさまざまな質問があり、文献の(迅速な)検索ではそれらに答えられないようだと気付きました。それで、私は自分の小さな研究プロジェクトを開始することを決めました(おそらく車輪を再発明する)、そしてこの答えでその予備的な結果のいくつかを共有したいと思います。これらの結果は、完全分離の問題が純粋に「技術的な」問題であるのか、それともより直感的な説明/説明を与えることができるのかを理解するのに役立つと思います。

私の最初の懸念は、現象の背後にある一般的な理論ではなく、アルゴリズムの用語で現象を理解することでした。その条件下で、最尤推定アプローチは、完全な現象のリグレッサを含むデータサンプルが与えられた場合に「ブレークダウン」します分離は存在しますか?

予備的な結果(理論的およびシミュレーション)は次のことを示しています
。1)ロジット仕様に定数項が含まれているかどうかが重要です。
2)問題のリグレッサが二分法(サンプル内)であるかどうかが重要です。
3)二分法の場合、値がかどうかが問題になる場合があります。 4)他のリグレッサが仕様に含まれているかどうかが重要です。 5)上記の4つの問題をどのように組み合わせるかが重要です。 0

ここで、MLEを破壊するために完全に分離するための一連の十分な条件を提示します。これは、さまざまな統計ソフトウェアが現象を警告するかどうかとは関係ありません。最尤推定を実行するにデータサンプルをスキャンすることで警告する場合があります。私は、最尤推定が始まる場合と、その過程でいつ崩壊するかについて心配しています。

「通常の」バイナリ選択ロジスティック回帰モデルを想定する

P(Yiβ0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+ziγ

は完全な分離を備えたリグレッサであり、 Zは完全な分離を特徴としない他のリグレッサのコレクションです。またXZ

Λ(g(β0,xi,zi))=11+eg(β0,xi,zi)Λi

サイズサンプルの対数尤度はn

lnL=i=1n[yiln(Λi)+(1yi)ln(1Λi)]

MLEは、導関数をゼロに設定することで見つかります。特に欲しい

(1)i=1n(yiΛi)=0

(2)i=1n(yiΛi)xi=0

X

y1=1xi=akxiakyi=0xi=akyi=1xiakyi=0X

yi=1ny

(3)nyi=1nyi=yi=1yi

次に、eq次のように書き換えます。(1)

(4)ny=i=1nΛi=yi=1Λi+yi=0Λinyyi=1Λi=yi=0Λi

(2)

i=1nyixii=1nΛixi=0yi=1yiak+yi=0yixiyi=1Λiakyi=0Λixi=0

(3)

nyak+0akyi=1Λiyi=0Λixi=0

ak(nyyi=1Λi)yi=0Λixi=0

(4)

(5)akyi=0Λixiyi=0Λixi=0yi=0(akxi)Λi=0

X(5)

yi=0xiak
X(akxi)0i(5)
Xak(akxi)0i(5)

Λi(5)Λi=0i

Λi=11+eg(β0,xi,zi)

Λi0g(β0,xi,zi)g()

Xak(5)(akxi)(5)

そのようなサンプルが推定器などのプロパティに望ましくない結果を引き起こさないと言っているのではありません。そのような場合、推定アルゴリズムは通常どおり実行されることに注意してください。

Xak(1)


g()±xi>aYi=1xiaYi=0たとえば、特定の値と正確に等しいというよりは。
StasK、2014

ak

MLは、規則性の条件に違反すると機能しません。例えばこれを見てください。
StasK、2014

1
仰るとおりです。私の投稿はそうではないことを主張していません。私がやろうとしたのは、通常の条件を満たすための試みによるMLE アルゴリズムの実際の実装が、完全な分離の下で数値的に失敗するときとそうでないときを「予測」することでした。しかし、私の投稿では、MLEアルゴリズムが結果を提供する場合に得られる実際の推定値の有用性/意味については説明していません。これは私の投稿で明確に書いています。私の例は警告として表示されます。「完全な分離が存在する場合でも、MLEアルゴリズムがそのように指示することを信頼しないでください。」
Alecos Papadopoulos 2014

108glm
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.