ロジスティック回帰でのビン化された残差プロットの解釈

私はとロジスティック回帰しております独立変数と観測を。データがモデルの前提条件を満たしているかどうかを判断するためにモデルフィットを評価しており、パッケージを使用して次のビニング残差プロットを作成しました。 $24$ $123,996$ arm R

ここに画像の説明を入力してください

このプロットには明らかにいくつかの悪い兆候があります。多くの点が信頼帯の外にあり、残差には独特のパターンがあります。私の質問は-これらの問題をロジスティック回帰モデルの特定の仮定に関連付けることはできますか？たとえば、独立変数または異分散性の非線形性の証拠があると言えますか？そうでない場合、問題がどこにあるかを特定するのに役立つ他の診断を作成できますか？

ダニエルの回答に基づくと、主な問題は、ロジットスケールでは残差を使用していましたが、応答スケールでは期待値を使用していることです。残差を含むプロットを応答スケールでも再現すると、次のようになります。

ここに画像の説明を入力してください

それははるかに信じられます。

regression logistic residuals

— M.バーク
ソース

そのような残差プロットが有用であることを意味する統計理論を説明してください。

— フランクハレル2014年

@FrankHarrell Gelman et al（2000）「事後予測シミュレーションを使用した離散データ回帰モデルの診断チェック」の図17の説明を参照-ここから入手できます：stat.columbia.edu/~gelman/research/published/dogs.pdf。また、Andrew GelmanとJennifer Hillの97ページ、回帰とマルチレベル/階層モデルを使用したデータ分析、Cambridge University Press

— M. Berk

そのようなプロットで何をしようと試みているのか正確に要約できますか？バイナリロジスティック回帰の場合、分布の仮定はありません。回帰の仮定の場合、モデルを柔軟に近似する（回帰スプラインなど）か、従来の部分残差プロットを使用するのが最適です。

— フランクハレル2014年

@FrankHarrellデータがモデルの仮定を満たしているかどうかを評価しようとしていることを明確にするために質問を編集しました。部分残差プロットの紹介をありがとう、これらはまさに私が探しているものだと思います。

— M.バーク2014年

私はあなたの陰謀を誤解しているか、何か問題があります。期待値が0に近いほど残差が負であるという事実は、モデルが負の値を予測していることを意味します。これは、モデルのlog-odds出力を使用している場合を除いて、（0、1）間隔でのみ予測するロジスティック回帰モデルでは可能ではありません。この場合、残差エラーは未定義でなければなりません。ロジスティック回帰は分類方法であるため、最初に混同行列を確認する方が便利です。グラフがトレインデータに基づいているのか、別のテストセットに基づいているのかも指定する必要があります。

— ダニエル・マーラー
ソース

問題を正しく特定したと思います。ロジットスケールの残差と応答スケール（つまり、0と1の間）の近似値を取得しました。応答スケールの残差を使用してプロットを再現しましたが、はるかに信頼できるように見えます。

— M.バーク2014年