ロジスティック回帰(およびその想定される分布)にエラー用語が存在するかどうかについて、さまざまな場所で次のことを読みました。
- エラー用語は存在しません
- エラー項には二項分布があります(応答変数の分布に従って)
- エラー項にはロジスティック分布があります
誰かが明確にできますか?
ロジスティック回帰(およびその想定される分布)にエラー用語が存在するかどうかについて、さまざまな場所で次のことを読みました。
誰かが明確にできますか?
回答:
線形回帰では、観測値は、予測値を条件とする平均パラメーターを持つガウス分布に従うと想定されます。観測値から平均値を引くと、エラーが発生します。平均値ゼロのガウス分布で、予測値とは無関係です。つまり、予測値のセットでの誤差は同じ分布に従います。
ロジスティック回帰観察でベルヌーイ分布従うと仮定される†予測値の条件付き平均パラメータ(確率)とします。だから、平均を決定する任意の予測値のためにπを:2つだけの可能なエラーが発生した1 - πは確率で発生π、&0 - π確率で発生1 - πが。他の予測値の誤差になります1 - π '確率で発生しますπ '、&確率で発生1 - π "。そのため、予測値とは独立した一般的なエラー分布はありません。そのため、人々は「エラー項は存在しません」と言います(1)。
「誤差項には二項分布があります」(2)は単なるずさんです-「ガウスモデルにはガウス誤差があり、エルゴ二項モデルには二項誤差があります」。(または、@ whuberが指摘しているように、「観測値とその期待値の差は、期待値によって変換された二項分布を持っている」という意味に解釈することができます。)
「誤差項にはロジスティック分布があります」(3)は、ロジスティック分布に続くエラーのある潜在変数がしきい値を超えるかどうかを観察するモデルからのロジスティック回帰の導出から生じます。したがって、上記で定義したエラーとは異なります。(そのコンテキストの外で、または潜在変数への明示的な参照なしでIMOを言うのは奇妙に思えます。)
† 同じ予測値を持つ観測値があり、それぞれに同じ確率πが与えられている場合、それらの合計∑ yは確率πおよびnoの二項分布に従います。トライアルのK。考慮Σ yは-同じ結論にエラーリード線などを。
これについては前に説明しました。値を予測しているように制約されるモデル、おそらく予測が外に出てしまい添加誤差項はできません[ 0 、1 ]。バイナリロジスティックモデルの最も単純な例、つまり切片のみを含むモデルを考えてください。これは、(1)すべての情報がサンプルサイズとイベント数に含まれているか、(2)ベルヌーイ分布が特殊なケースであるため、しばしば(この単純な場合)二項問題と呼ばれるベルヌーイ1サンプル問題と同等です。n = 1の二項分布の。この状況での生データは一連のバイナリ値であり、それぞれがイベントの確率を表す未知のパラメーター持つベルヌーイ分布を持ちます。ベルヌーイ分布には誤差項はありません。未知の確率があります。ロジスティックモデルは確率モデルです。
私にとって、ロジスティック、線形、ポアソン回帰などの統一は、常に一般化線形モデルフレームワークでの平均と分散の仕様の観点からでした。データの確率分布、連続データの正規分布、二項のベルヌーイ、カウントのポアソンなどの確率分布を指定することから始めます。次に、平均値と線形予測子の関係を記述するリンク関数を指定します。
線形回帰のための。
ロジスティック回帰のために、。
ポアソン回帰のために、。
エラー用語の記述に関して考慮することができる唯一のことは、以下を述べることです。
ここで E (E I)= 0と V R (E I)= σ 2(μ I)。例えば、ロジスティック回帰のために、 σ 2(μ I)= μ I(1 - μ I)=前述のようにがベルヌーイ分布を持っている。。ただし、 e iを明示的に述べることはできません。
ただし、基本的な一般化線形モデルは、分布の平均と分散の構造のみを想定していることに注意してください。推定方程式とヘッセ行列は、モデルで想定する平均と分散のみに依存することが示されます。したがって、このモデルのの分布に必ずしも関係する必要はありません。高次のモーメントがモデルパラメーターの推定に関与しないためです。