他のリグレッサのロジスティック回帰残差の回帰


9

OLS回帰を連続応答に適用すると、各共変量の残差の回帰を順次実行することにより、重回帰方程式を構築できます。私の質問は、ロジスティック回帰の残差を介したロジスティック回帰でこれを行う方法はありますか?

私は推定したい場合には、あるPr(Y=1|x,z)アプローチをモデル化線形一般化標準を使用して、反対ロジスティック回帰を実行するための方法がありxおよび擬似残差が得るR1、その後、後退R1zロジスティック回帰係数の不偏推定量を取得します。教科書や文献への参照をいただければ幸いです。


私の推測では、これはREMLがGLMに拡張されないのと同じ理由で機能しないでしょう。最小二乗の魔法は失われます。シムの一部として潜在変数をサンプリングした完全なベイジアンコンテキストで機能するかどうか疑問に思います。これを実行したかったのは、変数の異なるクラスに対してglmnetを実行し、クラスの異なる量の正則化を取得できるようにするためです。もちろん、この効果を得る他の方法があります。
Ben Ogorek

これは、ロジスティック回帰にバックフィットアルゴリズムを使用することと非常に似ていますか?
usεr11852

これについては以下のコメントで述べましたが、多くの実装では「ベース」予測(glmnetのオフセットパラメーター)を渡すことができるため、依存変数を回帰した後に可能になる可能性があります。@BenOgorekは、メインテキストで目的を追加したいです
seanv507

@ seanv507正規化の部分を追加するとスコープが大幅に増加するのではないかと心配しています。このQ&Aが終了したら、オフセットが実際に私たちの友人である可能性がある別の質問を作成します。
ベンオゴレク2018年

これは答えではありませんが、コメントするのに十分な評判がありません。問題は、残差で残差を回帰するのではなく、他のリグレッサ(つまり、予測子)で残差を回帰することです。私は答えに戸惑います。
T Wu

回答:


3

標準の多重線形回帰では、通常の最小二乗(OLS)の推定値を2ステップで近似する機能は、フリッシュ・ウォー・ロベルの定理に由来しています。多重線形モデルにおける特定の予測のための係数の推定値は(に対する応答変数の回帰からの残差応答残差回帰によって得られた推定値に等しいことをこの定理が示す他の予測残差に対する説明変数)(残差他の説明変数に対する予測変数の回帰から)。明らかに、ロジスティック回帰モデルで使用できるこの定理の類推を求めています。

この質問では、ロジスティック回帰の潜在変数の特性を思い出すと役に立ちます。

Yi=I(Yi>0)Yi=β0+βXxi+βZzi+εiεiIID Logistic(0,1).

YiYi

これにより、モデルの2ステップフィットを作成しようとすると問題が発生します。このFrisch-Waugh-Lovellの定理は、他の説明変数と比較して、対象となる応答と予測子の中間残差を取得できるかどうかにかかっています。現在のケースでは、「分類された」応答変数からのみ残差を取得できます。ロジスティック回帰の2ステップフィッティングプロセスを作成するには、潜在的な応答にアクセスすることなく、この分類された応答変数からの応答残差を使用する必要があります。これは私にとって大きなハードルのようであり、不可能を証明するものではありませんが、2つのステップでモデルを適合させることは不可能のようです。

以下では、ロジスティック回帰に適合するための2段階のプロセスを見つけるために必要なものについて説明します。この問題の解決策があるかどうか、または不可能性の証拠があるかどうかはわかりませんが、ここの資料は、何が必要かを理解するための何らかの方法を提供するはずです。


2ステップのロジスティック回帰近似はどのようになりますか?各ステップで最尤推定によりパラメーターが推定されるロジスティック回帰モデルの2ステップフィットを構築するとします。プロセスに、次の2つのモデルに適合する中間ステップを含める必要があります。

Yi=I(Yi>0)Yi=α0+αXxi+τiτiIID Logistic(0,1),  Zi=γ0+γXxi+δiδiIID g.

α^0,α^X,γ^0,γ^X

Yi=logistic(α^0+α^1xi)+βZ(ziγ^0γ^Xxi)+ϵiϵiIID f.

gfgfβZ

これが可能かどうかを確認するには、最初のステップから推定されたすべてのパラメーターを最初に書き込みます。

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

この関数の最大化値は、多重ロジスティック回帰モデルのMLEである必要があります。つまり、以下が必要です。

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

私は、この問題の解決策があるかどうか、または解決策がないことの証明があるかどうかを判断するために、他の人に任せます。ロジスティック回帰における潜在的応答変数の「分類」により、2ステップのプロセスを見つけることが不可能になると思います。


1
こんにちは、@ベン、フリッシュ・ウォー・ロベルの定理について教えてくれてありがとう。私は賞金でそれを吹き飛ばしました-「期限切れ」とは広告されなくなったという意味です。申し訳ありません。私はあなたの尤度ベースのアイデアが好きです。それを試してみたり、似たようなことを試してみてください。
ベンオゴレク2018年

@Ben Ogorek:バウンティには心配ありません。喜んで答えが助けた。
ベン-2018年

@Ben Ogorek:(エーテルに消える失われた25ポイントの報奨金を埋め合わせるには、サイトを回って3つの回答に賛成票を投じてください。その後、カルマが回復します!)
ベン-モニカ

1
できた!(そして私は最初にそれらを読みました)。
Ben Ogorek、2018年

3

質問を誤解している可能性があります。OPを指定した方法で残差を回帰することにより、線形回帰方程式を構築できるとは思えません。OPの方法は、予測子が互いに独立している場合にのみ機能します。

yXx1yXx1Xx1

以下に簡単な例を示します。

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

OLSを使用したモデルのフィット:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

残差の回帰:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

これは間違っています、あなたは合う必要があります:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

これは、x2の正しい係数を返します。これは、x2の差が与えられた場合に、x1を一定に保ちながら(yとx1の両方から取り出して)、yの予想される差と一致します。

余談ですが、ロジスティック回帰では、交絡関係がない場合でもロジスティック回帰係数が省略された変数バイアスの影響を受けるため、さらに問題が発生します。ここここを参照してください。結果のすべての予測子がモデル内にない限り、真の母集団パラメーターの公平な推定。さらに、すべての値が0と1の間にある2番目のロジスティック回帰の影響を受けやすいモデルの残差については知りません。

残差の回帰に関するいくつかの参照:

  • Maxwell、SE、Delaney、HD、&Manheimer、JM(1985)。残差のAnovaとAncova:モデル比較とグラフを使用して錯覚を修正します。Journal of Educational Statistics、10(3)、197–209。http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197から取得
  • Freckleton、RP(2002)、生態学における残差の誤用について:残差の回帰vs重回帰。Journal of Animal Ecology、71、542-545。doi:10.1046 / j.1365-2656.2002.00618.x

最初の数段落はやや誤解を招く/不明確だと思います...実際に「残差を使った線形回帰」を行う方法から始めたほうがよいでしょう..(+ 1)、それを統計学習の要素で見つけることができます(単一回帰サブセクションからの多重回帰?)
seanv507

多くの実装では、「ベース」予測(glmnetのオフセットパラメータ)を渡すことができるため、従属変数を回帰した後に可能になる可能性があります
seanv507

@ seanv507私はすでにそれを私の回答に含めています。これは、私が行った最後のコードのデモです。OPが説明する方法では不可能であり、予測子の残差を回帰します。しかし、それがあなたの意味するところであれば、最初から正しい方法を示すように書き直すことができます。
Heteroskedasticジム

はい、私は最初から正しい方法を示すために書き直すことを意味しました
seanv507

@ seanv507基本予測を渡すことができるという意味がわかりませんか?そして、従属変数を後退させますか?
ヘテロスケダスティックジム

1

私の回答によって、あなたが主題をどのように語ったかという表現が多少変わるので、私はあなたの質問を誤解しないように願っています。

あなたがしようとしていることは、一度に1つの独立変数を追加して回帰モデルを構築することだと思います。そして、YとX1の間の最初の回帰の残差との相関が最も高い見込み変数を観察することによって、それを行います。したがって、この最初の残差との相関が最も高い変数はX2になります。これで、2つの独立変数X1とX2を持つモデルができました。そして、この正確なプロセスを続けてX3、X4などを選択します。これは段階的な前進プロセスです。

ロジスティック回帰は従属変数が奇数(またはロジット)の対数であるOLS回帰であるという単純な理由により、ロジスティック回帰でもまったく同じことができます。ただし、Yがロジットであるかどうかは、上記の段階的な前進プロセスには影響しません。

OLSは、実際のデータに合わせて二乗誤差の合計を最小化します。ロジット回帰では、最尤プロセスを使用して、OLSとそれほど変わらないフィットを生成します。そして、それ(フィッティングメカニズム)も、重回帰モデルがOLS回帰であるかロジット回帰であるかに関係なく、多重回帰モデルの構築を可能にする段階的な前進プロセスに影響を与えるべきではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.