無回答の質問で私の発掘活動を行っているときに、私はこれが非常に賢明なものであることを発見しました。おそらくこれまでに、OPは回答を見つけました。
しかし、ロジスティック回帰の完全分離の問題に関して、私自身にさまざまな質問があり、文献の(迅速な)検索ではそれらに答えられないようだと気付きました。それで、私は自分の小さな研究プロジェクトを開始することを決めました(おそらく車輪を再発明する)、そしてこの答えでその予備的な結果のいくつかを共有したいと思います。これらの結果は、完全分離の問題が純粋に「技術的な」問題であるのか、それともより直感的な説明/説明を与えることができるのかを理解するのに役立つと思います。
私の最初の懸念は、現象の背後にある一般的な理論ではなく、アルゴリズムの用語で現象を理解することでした。その条件下で、最尤推定アプローチは、完全な現象のリグレッサを含むデータサンプルが与えられた場合に「ブレークダウン」します分離は存在しますか?
予備的な結果(理論的およびシミュレーション)は次のことを示しています
。1)ロジット仕様に定数項が含まれているかどうかが重要です。
2)問題のリグレッサが二分法(サンプル内)であるかどうかが重要です。
3)二分法の場合、値がかどうかが問題になる場合があります。
4)他のリグレッサが仕様に含まれているかどうかが重要です。
5)上記の4つの問題をどのように組み合わせるかが重要です。 0
ここで、MLEを破壊するために完全に分離するための一連の十分な条件を提示します。これは、さまざまな統計ソフトウェアが現象を警告するかどうかとは関係ありません。最尤推定を実行する前にデータサンプルをスキャンすることで警告する場合があります。私は、最尤推定が始まる場合と、その過程でいつ崩壊するかについて心配しています。
「通常の」バイナリ選択ロジスティック回帰モデルを想定する
P(Yi∣β0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+z′iγ
は完全な分離を備えたリグレッサであり、 Zは完全な分離を特徴としない他のリグレッサのコレクションです。またXZ
Λ(g(β0,xi,zi))=11+e−g(β0,xi,zi)≡Λi
サイズサンプルの対数尤度はn
lnL=∑i=1n[yiln(Λi)+(1−yi)ln(1−Λi)]
MLEは、導関数をゼロに設定することで見つかります。特に欲しい
∑i=1n(yi−Λi)=0(1)
∑i=1n(yi−Λi)xi=0(2)
X
y1=1xi=akxiakyi=0xi=akyi=1xi≠akyi=0X
yi=1ny
ny≡∑i=1nyi=∑yi=1yi(3)
次に、eq次のように書き換えます。(1)
ny=∑i=1nΛi=∑yi=1Λi+∑yi=0Λi⇒ny−∑yi=1Λi=∑yi=0Λi(4)
(2)
∑i=1nyixi−∑i=1nΛixi=0⇒∑yi=1yiak+∑yi=0yixi−∑yi=1Λiak−∑yi=0Λixi=0
(3)
nyak+0−ak∑yi=1Λi−∑yi=0Λixi=0
⇒ak(ny−∑yi=1Λi)−∑yi=0Λixi=0
(4)
ak∑yi=0Λixi−∑yi=0Λixi=0⇒∑yi=0(ak−xi)Λi=0(5)
X(5)
yi=0xi≠ak
X(ak−xi)≠0i(5)
Xak(ak−xi)≠0i(5)
Λi(5)Λi=0i
Λi=11+e−g(β0,xi,zi)
Λi0g(β0,xi,zi)→−∞g()
Xak(5)(ak−xi)(5)
そのようなサンプルが推定器などのプロパティに望ましくない結果を引き起こさないと言っているのではありません。そのような場合、推定アルゴリズムは通常どおり実行されることに注意してください。
Xak(1)