OLS回帰を連続応答に適用すると、各共変量の残差の回帰を順次実行することにより、重回帰方程式を構築できます。私の質問は、ロジスティック回帰の残差を介したロジスティック回帰でこれを行う方法はありますか?
私は推定したい場合には、あるアプローチをモデル化線形一般化標準を使用して、反対ロジスティック回帰を実行するための方法がありおよび擬似残差が得る、その後、後退上ロジスティック回帰係数の不偏推定量を取得します。教科書や文献への参照をいただければ幸いです。
OLS回帰を連続応答に適用すると、各共変量の残差の回帰を順次実行することにより、重回帰方程式を構築できます。私の質問は、ロジスティック回帰の残差を介したロジスティック回帰でこれを行う方法はありますか?
私は推定したい場合には、あるアプローチをモデル化線形一般化標準を使用して、反対ロジスティック回帰を実行するための方法がありおよび擬似残差が得る、その後、後退上ロジスティック回帰係数の不偏推定量を取得します。教科書や文献への参照をいただければ幸いです。
回答:
標準の多重線形回帰では、通常の最小二乗(OLS)の推定値を2ステップで近似する機能は、フリッシュ・ウォー・ロベルの定理に由来しています。多重線形モデルにおける特定の予測のための係数の推定値は(に対する応答変数の回帰からの残差応答残差回帰によって得られた推定値に等しいことをこの定理が示す他の予測残差に対する説明変数)(残差他の説明変数に対する予測変数の回帰から)。明らかに、ロジスティック回帰モデルで使用できるこの定理の類推を求めています。
この質問では、ロジスティック回帰の潜在変数の特性を思い出すと役に立ちます。
これにより、モデルの2ステップフィットを作成しようとすると問題が発生します。このFrisch-Waugh-Lovellの定理は、他の説明変数と比較して、対象となる応答と予測子の中間残差を取得できるかどうかにかかっています。現在のケースでは、「分類された」応答変数からのみ残差を取得できます。ロジスティック回帰の2ステップフィッティングプロセスを作成するには、潜在的な応答にアクセスすることなく、この分類された応答変数からの応答残差を使用する必要があります。これは私にとって大きなハードルのようであり、不可能を証明するものではありませんが、2つのステップでモデルを適合させることは不可能のようです。
以下では、ロジスティック回帰に適合するための2段階のプロセスを見つけるために必要なものについて説明します。この問題の解決策があるかどうか、または不可能性の証拠があるかどうかはわかりませんが、ここの資料は、何が必要かを理解するための何らかの方法を提供するはずです。
2ステップのロジスティック回帰近似はどのようになりますか?各ステップで最尤推定によりパラメーターが推定されるロジスティック回帰モデルの2ステップフィットを構築するとします。プロセスに、次の2つのモデルに適合する中間ステップを含める必要があります。
これが可能かどうかを確認するには、最初のステップから推定されたすべてのパラメーターを最初に書き込みます。
この関数の最大化値は、多重ロジスティック回帰モデルのMLEである必要があります。つまり、以下が必要です。
私は、この問題の解決策があるかどうか、または解決策がないことの証明があるかどうかを判断するために、他の人に任せます。ロジスティック回帰における潜在的応答変数の「分類」により、2ステップのプロセスを見つけることが不可能になると思います。
質問を誤解している可能性があります。OPを指定した方法で残差を回帰することにより、線形回帰方程式を構築できるとは思えません。OPの方法は、予測子が互いに独立している場合にのみ機能します。
以下に簡単な例を示します。
set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)
OLSを使用したモデルのフィット:
coef(lm(y ~ x1 + x2))
(Intercept) x1 x2
0.001653707 1.037426007 0.996259446
残差の回帰:
coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept) x2
0.001219232 0.818774874
これは間違っています、あなたは合う必要があります:
coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
(Intercept) residuals(lm(x2 ~ x1))
-6.707350e-17 9.962594e-01
これは、x2の正しい係数を返します。これは、x2の差が与えられた場合に、x1を一定に保ちながら(yとx1の両方から取り出して)、yの予想される差と一致します。
余談ですが、ロジスティック回帰では、交絡関係がない場合でもロジスティック回帰係数が省略された変数バイアスの影響を受けるため、さらに問題が発生します。こことここを参照してください。結果のすべての予測子がモデル内にない限り、真の母集団パラメーターの公平な推定。さらに、すべての値が0と1の間にある2番目のロジスティック回帰の影響を受けやすいモデルの残差については知りません。
残差の回帰に関するいくつかの参照:
私の回答によって、あなたが主題をどのように語ったかという表現が多少変わるので、私はあなたの質問を誤解しないように願っています。
あなたがしようとしていることは、一度に1つの独立変数を追加して回帰モデルを構築することだと思います。そして、YとX1の間の最初の回帰の残差との相関が最も高い見込み変数を観察することによって、それを行います。したがって、この最初の残差との相関が最も高い変数はX2になります。これで、2つの独立変数X1とX2を持つモデルができました。そして、この正確なプロセスを続けてX3、X4などを選択します。これは段階的な前進プロセスです。
ロジスティック回帰は従属変数が奇数(またはロジット)の対数であるOLS回帰であるという単純な理由により、ロジスティック回帰でもまったく同じことができます。ただし、Yがロジットであるかどうかは、上記の段階的な前進プロセスには影響しません。
OLSは、実際のデータに合わせて二乗誤差の合計を最小化します。ロジット回帰では、最尤プロセスを使用して、OLSとそれほど変わらないフィットを生成します。そして、それ(フィッティングメカニズム)も、重回帰モデルがOLS回帰であるかロジット回帰であるかに関係なく、多重回帰モデルの構築を可能にする段階的な前進プロセスに影響を与えるべきではありません。