ロジスティック回帰の省略された変数バイアスと通常の最小二乗回帰の省略された変数バイアス


17

ロジスティック回帰および線形回帰の省略された変数バイアスについて質問があります。

線形回帰モデルからいくつかの変数を省略したとします。これらの省略された変数は、モデルに含めた変数と無相関であると仮定します。これらの省略された変数は、私のモデルの係数にバイアスをかけません。

しかし、ロジスティック回帰では、これは真実ではないことがわかりました。省略された変数が含まれた変数と無相関であっても、省略された変数は含まれた変数の係数にバイアスをかけます。私はこのトピックに関する論文を見つけましたが、それについて頭や尾を作ることはできません。

これが論文パワーポイントのスライドです。

バイアスは、明らかにゼロに向かっています。誰もこれがどのように機能するか説明できますか?


基礎となる「潜在変数」線形回帰モデルからロジスティック回帰モデルがどのように現れるかについてご存じですか?
アレコスパパドプロ14

@AlecosPapadopoulos私は一人ではありません。料理は何ですか?
アレクシス14

これについて議論する記事は他にもありますが、あなたがリンクした記事は私が知っている最も簡単なものです。だから私はそれを改善できるとは思わない。
マールテンビュイ14

親愛なるパパドプロス氏:潜在変数の考えについて読んだことがあります。なぜ聞くのですか?
ConfusedEconometricsUndergrad

@ Alexisたとえば、この投稿stats.stackexchange.com/questions/80611/…、およびウィキペディアの記事en.wikipedia.org/wiki/…を参照してください。このアプローチは、確率レベルでどのモデルを取得するかを決定するのは、基礎となるモデルの誤差項に対して行う仮定であることも明確にします。別の例として、基礎となるエラーが均一に従うと仮定した場合、線形確率モデルを取得します。stats.stackexchange.com
questions /

回答:


20

「減衰バイアス」のケースは、「プロビット」モデルを調べるとより明確に提示できますが、結果はロジスティック回帰にも引き継がれます。

条件付き確率モデル(ロジスティック(ロジット)、「プロビット」、および「線形確率」モデル)の下で、潜在的な(観測不可能な)線形回帰モデルを仮定できます。

y=Xβ+u

ここで、は観測不能な連続変数です(はリグレッサー行列です)。エラー項は、リグレッサから独立しており、ゼロを中心に対称な密度を持つ分布に従うと想定されています。この場合、標準正規分布 です。yXFU(u)=Φ(u)

観測するもの、すなわちバイナリ変数は、観測不可能なインジケータ関数であると。yy

y=1ify>0,y=0ify0

次に、「回帰子が与えられたときにが値をとる確率はどれくらいですか?」(つまり、条件付き確率を見ています)。これはy1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

標準の累積分布関数の「反射」特性による最後の等式。これは、ゼロ付近の密度関数の対称性に由来します。はから独立していると仮定しましたが、量を非ランダムとして扱うために条件付けが必要であることに注意してください。uXXXβ

と仮定すると、理論モデルが得られますXβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

ここで、をから独立させ、基になる回帰の仕様から誤って除外します。だから指定するX2X1

y=b0+b1X1+ϵ
さらに、も通常のランダム変数ます。しかし、これはつまりX2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

正規分布の追加中の閉包のため(および独立性の仮定)。前と同じロジックを適用すると、ここにあります

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

持っている変数を標準化するϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

モデルとを比較できます。(1)(2)

理論式上記、を教えてくれる場所の私達の最尤推定量それがないという意味では、一貫性の推定残存するため、収束に起こっている、それは理論本当にモデルに存在する量に収束する(そしてもちろん、ありませんでどんな場合でも「真実」を見つけるという意味):b1

b^1pb11+b22σ22|b^1|<|b1|

これは「ゼロへのバイアス」結果です。

ロビット(ロジスティック回帰)ではなく、プロビットモデルを使用しました。これは、正規性の下でのみ分布を導出できるためです。ロジスティック分布は追加中は閉じられません。これは、ロジスティック回帰で関連する変数を省略した場合、エラー項(現在は省略された変数を含む)がロジスティック分布に従わなくなるため、分布の誤指定も作成することを意味します。しかし、これはバイアス結果を変更しません(OPによってリンクされた論文の脚注6を参照)。ϵ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.