ロジスティック回帰の残差とクックの距離


10
  1. エラー項の一定分散や残差の正規性など、ロジスティック回帰のエラーに関する特定の仮定はありますか?

  2. また、通常、クックの距離が4 / nより大きいポイントがある場合、それらを削除しますか?それらを削除した場合、削除されたポイントを含むモデルの方が優れているかどうかをどのように判断できますか?

回答:


12

完全な答えを出すことができるかどうかはわかりませんが、役立つかもしれないいくつかの考えを与えることができます。まず、すべての統計モデル/テストには仮定があります。ただし、ロジスティック回帰では、残差が正規分布であると仮定したり、分散が一定であると仮定したりしませ。むしろ、データは二項式、つまり、ベルヌーイ試行の数がその共変量値の正確なセットでの観測数に等しく、その共変量値のセットに関連付けられている確率。二項式の分散はn p Bバツpバツ。したがって、 nが共変量の異なるレベルで変化する場合、分散も変化します。さらに、共変量のいずれかが応答変数に関連している場合は、確率が変化するため、分散も変化します。これらはロジスティック回帰に関する重要な事実です。 p1p

R2R2R2R2R2R2sとジャックナイフ分布。極端に見えるという事実に基づいて除外するデータを選択したため。


8

1)誤差項の一定分散や残差の正規性など、ロジスティック回帰の誤差に関する特定の仮定はありますか?

ロジスティック回帰モデルには、従来の意味での「エラー」はありません。直感に反し、方法論的に一貫性がありません。モデルの出力は適合確率またはリスクですが、観測された結果は0/1イベントインジケーターです。方法論的には、非常に高いまたは非常に低い適合確率のドメインを強調しすぎる傾向があります(残差距離に寄与する量が非常に少ない)のに対し、モデル適合アルゴリズムはそのような領域をかなり重要視しています。距離の2乗は、一般的にロジスティック回帰モデルのキャリブレーションに適さない方法です。

別の適合度検定は、適合値を使用して適合リスクの十分位数に基づいてビン分割されたパーティションを作成するHosmer-Lemeshow検定です。このテストについては、Alan Agrestiのカテゴリデータ分析またはHosmerとLemeshowによる本のLogistic Regressionで読むことができます。別のプロセスは、Studentized Residualsを使用することです。ここで、平均分散関係を使用して、近似された逆分散によって残差を再重み付けします。ロジスティック回帰の場合、これは

rstあなたd=Yμμ1μ

2)また、通常、クックの距離が4 / nより大きいポイントがある場合、それらを削除しますか?それらを削除した場合、削除されたポイントを含むモデルの方が優れているかどうかをどのように判断できますか?

感性分析に基づいてポイントを削除することはありません。私が無作為に100人のサンプルを抽出し、その収入と1人がたまたま億万長者である場合、私の最も安全な仮定は、その10億人が人口の100分の1を表すということです。


10億万長者が人口の100分の1を表すと仮定する理由 おそらく、人口における億万長者の割合の外部推定値を取得できるでしょう!
kjetil b halvorsen 2017年

6

上記のAdamOのコメントに概ね同意します。10億人が人口の100分の1を表すとすれば、まったく問題はないと仮定します。ただし、10億万長者の存在がデータを大きく歪め、他の99人の予測が影響を受ける場合は、10億万長者を削除します。私は他の誰よりも異常値を予測するのはむしろ間違っています。

そうは言っても、CookのD値(つまり、4 / df以上)を使用してデータポイントを削除する場合は、両方のモデルのROC曲線の下の面積を使用して改善を確認できます。


1
(+1)応答と収入の対数オッズ間の関係を自然なスプラインでモデル化することは、おそらく収入を事前に変換することであり、億万長者が他の人々の予測に過度に影響を与えることを回避するもう1つの方法です。彼を削除することは、他の億万長者について誤った予測をするのではなく、他の億万長者を予測するのをやめたほうがいいことを示しています(十分に公正です)。
Scortchi-モニカの回復

皮肉なことに、バイナリイベントの予測に関しては、影響力のある観測を除外することで、リスク予測をより適切に調整できる可能性があります。ただし、影響力のある観察を除外すると、リスク予測の差別減少します。後者は間違いなくより重要です。特定のイベント(継続的に評価されない 0または1のいずれか)のリスクを予測することになると、最良の種類の予測は、ケースの予測を1に近づけ、コントロールの予測を0に近づけます。高い影響ポイントがしばしば効果的ですこれを行うことで。
AdamO、2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.