回答:
完全な答えを出すことができるかどうかはわかりませんが、役立つかもしれないいくつかの考えを与えることができます。まず、すべての統計モデル/テストには仮定があります。ただし、ロジスティック回帰では、残差が正規分布であると仮定したり、分散が一定であると仮定したりしません。むしろ、データは二項式、つまり、ベルヌーイ試行の数がその共変量値の正確なセットでの観測数に等しく、その共変量値のセットに関連付けられている確率。二項式の分散はn p (。したがって、 nが共変量の異なるレベルで変化する場合、分散も変化します。さらに、共変量のいずれかが応答変数に関連している場合は、確率が変化するため、分散も変化します。これらはロジスティック回帰に関する重要な事実です。
1)誤差項の一定分散や残差の正規性など、ロジスティック回帰の誤差に関する特定の仮定はありますか?
ロジスティック回帰モデルには、従来の意味での「エラー」はありません。直感に反し、方法論的に一貫性がありません。モデルの出力は適合確率またはリスクですが、観測された結果は0/1イベントインジケーターです。方法論的には、非常に高いまたは非常に低い適合確率のドメインを強調しすぎる傾向があります(残差距離に寄与する量が非常に少ない)のに対し、モデル適合アルゴリズムはそのような領域をかなり重要視しています。距離の2乗は、一般的にロジスティック回帰モデルのキャリブレーションに適さない方法です。
別の適合度検定は、適合値を使用して適合リスクの十分位数に基づいてビン分割されたパーティションを作成するHosmer-Lemeshow検定です。このテストについては、Alan Agrestiのカテゴリデータ分析またはHosmerとLemeshowによる本のLogistic Regressionで読むことができます。別のプロセスは、Studentized Residualsを使用することです。ここで、平均分散関係を使用して、近似された逆分散によって残差を再重み付けします。ロジスティック回帰の場合、これは
2)また、通常、クックの距離が4 / nより大きいポイントがある場合、それらを削除しますか?それらを削除した場合、削除されたポイントを含むモデルの方が優れているかどうかをどのように判断できますか?
感性分析に基づいてポイントを削除することはありません。私が無作為に100人のサンプルを抽出し、その収入と1人がたまたま億万長者である場合、私の最も安全な仮定は、その10億人が人口の100分の1を表すということです。
上記のAdamOのコメントに概ね同意します。10億人が人口の100分の1を表すとすれば、まったく問題はないと仮定します。ただし、10億万長者の存在がデータを大きく歪め、他の99人の予測が影響を受ける場合は、10億万長者を削除します。私は他の誰よりも異常値を予測するのはむしろ間違っています。
そうは言っても、CookのD値(つまり、4 / df以上)を使用してデータポイントを削除する場合は、両方のモデルのROC曲線の下の面積を使用して改善を確認できます。