クックの距離プロットの読み方

ポイント7、16、29が影響力のあるポイントであるかどうかを判断する方法を知っている人はいますか？クックの距離は1より小さいため、そうではないことをどこかで読みました。あ、そうですか？

ここに画像の説明を入力してください

— プラタイジド
ソース

さまざまな意見があります。それらのいくつかは、観測の数またはパラメーターの数に関連しています。これらはen.wikipedia.org/wiki/…でスケッチされています。

— whuber

@whuberありがとう。私にとってデータ探索を実行するとき、これは常に灰色の領域です。上記のデータポイント16はモデルの結果に大きな影響を与えるため、タイプIエラーが増加します。

— プラタイプジッド

「一般的におよび非公式に」基礎となる確率モデルの適用不能性に関連するエラーである「タイプIII」エラーも増加すると主張するかもしれません。

— whuber

@whuberはい、とても真実です！

— プラタイプジド

回答:

いくつかのテキストは、クックの距離が1より大きいポイントは影響力があると見なされるべきだと言っています。他のテキストでは、またはしきい値が与えられます。ここで、は観測値の数、は説明変数の数です。あなたの場合、後者の式は0.1前後のしきい値を生成するはずです。 $4/N$ $4/(N - k - 1)$ $N$ $k$

John Fox（1）は、回帰診断に関する小冊子の中で、数値のしきい値を与えることに関してはかなり慎重です。彼は、グラフィックの使用と、「他の値よりも実質的に大きいDの値」を持つポイントをより詳細に調べることを勧めています。Foxによると、しきい値はグラフィック表示を強化するためにのみ使用する必要があります。

あなたの場合、観測7と16は影響力があると考えられます。まあ、私は少なくともそれらを詳しく見るでしょう。観測29は、他のいくつかの観測と実質的に違いはありません。

（1）フォックス、ジョン。（1991）。回帰診断：入門。セージ出版。

+1明確な要約。私は、データセットからのそれらの除去は、パラメータは、本質的に変わらないと推定去るとき、影響力のあるケースは通常は問題ではないことを追加します。私たちは心配なものは、その存在が本当にものでありません変更の結果を。

— whuber

@lejohnあなたの応答に非常に感謝しています。Whuberは、あなたの答えにおいてまさに優れた明快さです。これは非常に有益です。ウィキペディアのページでフォックスとあなたの意見を強調することをお勧めします！

— プラタイプジッド

@lejohnと@whuberの両方に+1。@whuberのコメントを少し拡大したかった。クックの距離はdfbetaと対比できます。クックの距離とは、問題の観測値がデータセットから削除された場合に、予測されるy値が平均してどれだけ移動するかを指します。dfbetaは、問題の観測値がデータセットから削除された場合にパラメーター推定値がどれだけ変化するかを示します。共変量では、個のdfbetas（各共変量に対して切片、、および1）が存在することに注意してください。予測モデリングを行う場合、クックの距離はおそらくあなたにとってより重要ですが、説明モデリングではdfbetaがより重要です。 $k$ $k+1$ $\beta_0$ $\beta$

ここでもう1つ指摘する価値があります。観察研究では、予測子空間全体で均一にサンプリングすることは困難な場合が多く、特定の領域にわずかなポイントがある場合があります。このようなポイントは、他のポイントとは異なる場合があります。いくつかの明確なケースがあると不快になりますが、外れ値に追いやられる前にかなりの価値があります。予測子間で合法的に相互作用がある場合や、予測子の値が極端になった場合にシステムが異なる動作をするようにシフトする場合があります。さらに、共線形予測子の効果を解くのに役立つ場合があります。影響力のあるポイントは、変装の祝福になる可能性があります。

— gung-モニカの回復
ソース

+1「予測モデリングを行う場合、クックの距離はおそらくより重要ですが、説明モデルではdfbetaがより重要です」：これは非常に有用なアドバイスです。

— アンZ.

こんにちは-興味深い議論。しかし、ダミー変数を統合して、たとえば観測16からの影響を測定するのは合理的ではないでしょうか？

— パンテラ

@Pantera Iは16を削除し、事前と事後の省略モデルを比較しました

— プラタイプジド

こんにちは-観測値を削除する場合は、観測値が誤って測定されているなど、それを行うための「適切な」引数があることを確認する必要があります。統計的な問題を引き起こすだけであるため、観測を放棄した場合、データマイニングに近づいています。

— パンテラ