回の試行と成功の確率を持つ二項確率変数は、3つ以上の値を取ることができます。二項確率変数は、これらの回の試行の成功数を表し、実際には異なる値()を取ることができます。したがって、その分布の分散が二項仮定の下で予想されるよりも大きい場合(たとえば、過剰なゼロが存在する可能性があります)、それは過剰分散のケースです。 P N N + 1 0 、1 、2 、3 、。。。、NNpNN+ 10 、1 、2 、3 、。。。、N
ベルヌーイ確率変数()に対して過剰分散は意味をなさないN= 1
ロジスティック回帰曲線のコンテキストでは、狭い範囲の予測子値による「小さなスライス」またはグループ化を二項実験の実現と見なすことができます(特定の数のスライスに10ポイントある可能性があります)成功と失敗)。各予測値に実際に複数の試行があるわけではなく、生のカウントの代わりに比率を調べていますが、これらの各「スライス」の比率は曲線に近いと予想されます。これらの「スライス」が曲線から離れる傾向がある場合、分布の変動が大きすぎます。したがって、観測値をグループ化することにより、0/1データを個別に見るのではなく、二項確率変数の実現を作成します。
以下の例は、このサイトの別の質問からのものです。青い線が予測変数の範囲全体で予想される割合を表すとしましょう。青いセルは観測されたインスタンス(この場合は学校)を示します。これにより、過剰分散がどのように見えるかをグラフィカルに表示できます。以下のグラフのセルの解釈には欠陥があることに注意してください。ただし、過剰分散がどのように顕在化するかを理解するのに役立ちます。