ロジスティック回帰にiidの仮定はありますか?


18

ロジスティック回帰の応答変数にiidの仮定はありますか?

たとえば、データポイントがあるとします。応答は、ベルヌーイ分布から来ているようです。したがって、異なるパラメーター持つベルヌーイ分布を持つ必要があります。1000Yipi=logit(β0+β1xi)1000p

したがって、それらは「独立」していますが、「同一」ではありません。

私は正しいですか?


PS。「機械学習」の文献からロジスティック回帰を学びました。そこでは、目的関数を最適化し、仮定についてあまり語ることなく、データのテストに適しているかどうかを確認します。

私の質問は、この投稿で始まりました。一般化線形モデルのリンク関数の理解ここで、統計的仮定の詳細を調べます。


1
「仮定」は定理が持つことができるものです。Gauss-Markovの定理にこの仮定があるという意味で、線形回帰にはiidエラーの"仮定"があります(線形回帰でiidであると仮定されるのはではありません!それはエラーです)。さて、ロジスティック回帰の考えがある定理はありますか?そうでない場合、「仮定」はありません。y
アメーバは、モニカを復活させる

7
@ Amoeba、hxdは、分布が同一ではないことに注意してください。「iid」は適用されません。適合のためだけにロジスティック回帰を使用している場合は、(作成中に)おそらくいくつかの仮定が必要です。しかし、推定された係数の共分散行列を利用するか、予測間隔(または、さらに言えば、予測値の相互検証)を構築したい場合は、確率的仮定必要になります。通常、応答は独立しています。
whuber

4
@amoebaは、パラメーターの推定値を単に計算するのではなく、推論(仮説検定、信頼区間など)を実行したい場合、関連するnull分布を導出できるように、多数の仮定(他よりも重要なもの)を作成します目的のカバレッジの間隔の統計または必要な計算をテストします。比較的低い仮定の手順でもまだ仮定があり、推論を気にする場合は、それらが名目上の特性に近い可能性があるかどうかを気にします。
Glen_b -Reinstateモニカ

1
@amoeba、私はMLEの漸近的正常性を示す定理が好きです。尤度比検定も好きです。
ギャマー

2
それらの周辺分布は、すべてが同じ予測値を持たない限り同一ではありません。その場合、IIDベルヌーイトライアルだけがあります。それらの条件付き分布(予測子が与えられた)はすべて同じですが、この場合のがIIDであると通常言っているとは思いません。Yi
ギャマー

回答:


11

あなたの前の質問から、あなたはGLMは、確率分布、線形予測の観点から説明されていることを学びましたとのリンク機能グラムとして記述されていますηg

η=XβE(Y|X)=μ=g1(η)

ここで、はロジットリンク関数であり、Yはベルヌーイ分布に従うと想定されますgY

YiB(μi)

とベルヌーイ分布に従うそれ自身の平均値μ iが上の条件であるX。各Y iが同じ分布から、同じ平均(これは切片のみのモデルY i = g 1μ )になります)であると仮定していませんが、それらはすべて異なる平均を持っています。Y i独立していると仮定します。つまり、後続のY i値間の自己相関などについて心配する必要はありません。Yi μiXYiYi=g1(μ)YiYi

IID仮定は、モデルが線形回帰(すなわち、ガウスGLM)のエラーに関連しています

yi=β0+β1xi+εi=μi+εi

どこ、私たちがしているので、IIDノイズの周りμ Iを。これが、残差診断に関心があり、残差対近似プロットに注意を払う理由です。さて、GLMのようなロジスティック回帰の場合、ガウスモデルのような追加のノイズ項がないため、それほど単純ではありません(こちらこちらこちらこちらご覧ください)εiN(0,σ2)μi)。残差をゼロ付近で「ランダム」にしたいので、モデルで説明されていない効果があることを示唆するため、トレンドを確認したくありませんが、 normalおよび/またはiid統計学習スレッドにおけるiid仮定の重要性についても参照してください。

補足として、各が同じ種類の分布に由来するという仮定を破棄することもできることに注意してください。(非GLM)モデルには、異なるY iが異なるパラメーターで異なる分布を持つことができる、つまりデータが異なる分布の混合物から来ると仮定するモデルがあります。このような場合、Y i値は独立であると仮定します。異なるパラメーター(つまり、典型的な現実世界のデータ)を持つ異なる分布からの依存値は、ほとんどの場合モデル化するには複雑すぎる(多くの場合不可能)ためです。YiYiYi


6

前述のように、線形回帰でiid エラーのケースをよく検討しますが、これにはほとんどの一般化線形モデル(ロジスティック回帰を含む)で直接等価なものはありません。ロジスティック回帰では、通常、すべてが非常に厳密な関係(つまり、対数確率に対する線形効果)を持つ結果の独立性の仮定を採用します。しかし、これらは同一ではないランダム変数になり、線形回帰の場合のように定数項とiidエラーに分解することもできません。

応答に何らかのiid関係があることを本当に表示したい場合は、次のパラグラフに進んでください。このアイデアはbeat地から少し外れていることを知ってください。教授が忍耐力に欠けている場合、決勝戦でのこの回答に対して完全な信用を得られない可能性があります。

ランダム変数を生成するための逆cdf法に慣れているかもしれません。ない場合は、ここでの補習があります:場合累積分布関数持つF Xを、私はランダム生成することができますから引くXドロー最初はランダムに取ることによって、Q 制服(0,1) 、その後の計算X = F - 1 XQ XFXXquniform(0,1)X=FX1(q)。これはロジスティック回帰とどのように関係していますか?さて、応答の生成プロセスには2つの部分があると考えることができます。共変量を成功の確率に関連付ける固定部分、および固定部分を条件とするランダム変数の値を決定するランダム部分。固定部分は、すなわち、ロジスティック回帰のリンク機能によって定義され。ランダム部分について、F Yy | p を確率pのベルヌーイ分布の累積分布関数と定義しましょう。次に、応答変数Yを考えることができますp=expit(βo+β1x)FY(y|p)p次の3つのステップによって生成されています:Yi

1)pi=expit(βo+β1xi)

2.)qiuniform(0,1)

3.)Yi=F1(qi|pi)

ロジスティック回帰の標準的な仮定は、がiidであるということです。qi


1
qiYiB(pi)Yipiqi

@Tim:はい、答えの2番目の部分は、簡潔な答えというよりも興味深い副次的なメモです。しかし、それを見るのに便利な方法かもしれません。結局のところ、それは基本的にコンピューターがこれらのモデルからのデータをシミュレートする方法です!
クリフAB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.