ロジスティック回帰の過剰分散


14

私はロジスティック回帰における過剰分散の概念を理解しようとしています。過剰分散とは、応答変数の観測された分散が二項分布から予想されるよりも大きい場合のことです。

しかし、二項変数が2つの値(1/0)しか持てない場合、どのようにして平均と分散を持つことができますか?

x回のベルヌーイ試行から成功の平均と分散を計算することに問題はありません。しかし、2つの値しか持てない変数の平均と分散の概念に頭を抱えることはできません。

誰でも直感的な概要を提供できますか?

  1. 2つの値しか持てない変数の平均と分散の概念
  2. 2つの値しか持てない変数での過剰分散の概念

1
に20の値を追加します。10ははです。これを20で割り切れる?sdを計算できますか?0 1 yy01y
Sycoraxによると、モニカは14年

うまく言えば、平均= 0.5、標準偏差= 0.11だと思います。
ルチアーノ2014年

私の応答変数が100回成功し、5回失敗したとします。これは過度に分散している可能性がありますか?
ルチアーノ2014年

ルチアーノ、あなたはそれが過度に分散しているかどうかを決定するために実験の複数の実現が必要です。
鉱山労働者、2014年

回答:


10

回の試行と成功の確率を持つ二項確率変数は、3つ以上の値を取ることができます。二項確率変数は、これらの回の試行の成功数を表し、実際には異なる値()を取ることができます。したがって、その分布の分散が二項仮定の下で予想されるよりも大きい場合(たとえば、過剰なゼロが存在する可能性があります)、それは過剰分散のケースです。 P N N + 1 0 1 2 3 NNpNN+10,1,2,3,...,N

ベルヌーイ確率変数()に対して過剰分散は意味をなさないN=1

ロジスティック回帰曲線のコンテキストでは、狭い範囲の予測子値による「小さなスライス」またはグループ化を二項実験の実現と見なすことができます(特定の数のスライスに10ポイントある可能性があります)成功と失敗)。各予測値に実際に複数の試行があるわけではなく、生のカウントの代わりに比率を調べていますが、これらの各「スライス」の比率は曲線に近いと予想されます。これらの「スライス」が曲線から離れる傾向がある場合、分布の変動が大きすぎます。したがって、観測値をグループ化することにより、0/1データを個別に見るのではなく、二項確率変数の実現を作成します。

以下の例は、このサイトの別の質問からのものです。青い線が予測変数の範囲全体で予想される割合を表すとしましょう。青いセルは観測されたインスタンス(この場合は学校)を示します。これにより、過剰分散どのように見えるかをグラフィカルに表示できます。以下のグラフのセルの解釈には欠陥があることに注意してください。ただし、過剰分散がどのように顕在化するかを理解するのに役立ちます。

分散の例


1
しかし、私はロジスティック回帰のコンテキストでの過剰分散に興味があります。ロジスティック回帰の予測子変数の各値について、試行はn回ではなく、試行は1つだけです。そして、その1回の試験の結果は、どちらか成功かが失敗である
ルチアーノ

線形回帰のコンテキストでの過剰分散の背後にある直観に対処するための段落を追加しました。
鉱山労働者、2014年

1
マイナーな、私はこの文の意味を想像しようとしています。「これらの「スライス」が曲線から遠く離れている傾向がある場合、分布の変動が多すぎます」。これが私が言っていることです:成功の確率が0.1〜0.3である曲線のスライスには成功がたくさんあり、成功の確率が0.7〜0.9の曲線のスライスにはたくさんありますの失敗。これはあなたが意味することですか、これは過剰分散を表しますか?
ルチアーノ2014年

1
@lucianoそれは正しい考えです。ただし、フィットが最初に発生するためには、カーブの上下にある「スライス」のバランスが必要であることに注意してください。したがって、0.7付近のスライスの成功数が多すぎる(おそらく100%)、次の0.75あたりのスライスの数が少なすぎる(50%)、0.80が多すぎる(100%)などと言う方が現実的かもしれません。予想よりも多くの分散が観察されました。
鉱山労働者、2014年

私はよく説明し、屋を持っている
ルチアーノ

7

他の人がすでに述べたように、ベルヌーイ(0/1)変数の場合、平均が分散を決定するため、過剰分散は適用されません。ロジスティック回帰のコンテキストでは、これは、結果がバイナリの場合、分散パラメーターを推定できないことを意味します。(これは、結果がバイナリであるという理由だけで、観測値間の潜在的な相関関係を無視できるという意味ではありません!)

一方、あなたの結果はプロポーションのセットがある場合は、できるピアソンのカイ二乗統計値(または逸脱を分割することで(も1未満とすることができ、1よりも大きいことが多いものの、)分散パラメータを推定します)残りの自由度による。

純粋にバイナリの結果を伴うロジスティック回帰は、より一般的なロジスティック回帰モデルの特殊なケースであり、二項インデックスが1を超える可能性があります(観測間で異なる可能性があります)。したがって、ロジスティック回帰モデルを当てはめるかどうかの問題は、データが過剰に分散しているかどうかの問題とは無関係です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.