ポイント7、16、29が影響力のあるポイントであるかどうかを判断する方法を知っている人はいますか?クックの距離は1より小さいため、そうではないことをどこかで読みました。あ、そうですか?
ポイント7、16、29が影響力のあるポイントであるかどうかを判断する方法を知っている人はいますか?クックの距離は1より小さいため、そうではないことをどこかで読みました。あ、そうですか?
回答:
いくつかのテキストは、クックの距離が1より大きいポイントは影響力があると見なされるべきだと言っています。他のテキストでは、またはしきい値が与えられます。ここで、は観測値の数、は説明変数の数です。あなたの場合、後者の式は0.1前後のしきい値を生成するはずです。
John Fox(1)は、回帰診断に関する小冊子の中で、数値のしきい値を与えることに関してはかなり慎重です。彼は、グラフィックの使用と、「他の値よりも実質的に大きいDの値」を持つポイントをより詳細に調べることを勧めています。Foxによると、しきい値はグラフィック表示を強化するためにのみ使用する必要があります。
あなたの場合、観測7と16は影響力があると考えられます。まあ、私は少なくともそれらを詳しく見るでしょう。観測29は、他のいくつかの観測と実質的に違いはありません。
(1)フォックス、ジョン。(1991)。回帰診断:入門。セージ出版。
@lejohnと@whuberの両方に+1。@whuberのコメントを少し拡大したかった。クックの距離はdfbetaと対比できます。クックの距離とは、問題の観測値がデータセットから削除された場合に、予測されるy値が平均してどれだけ移動するかを指します。dfbetaは、問題の観測値がデータセットから削除された場合にパラメーター推定値がどれだけ変化するかを示します。共変量では、個のdfbetas(各共変量に対して切片、、および1)が存在することに注意してください。予測モデリングを行う場合、クックの距離はおそらくあなたにとってより重要ですが、説明モデリングではdfbetaがより重要です。
ここでもう1つ指摘する価値があります。観察研究では、予測子空間全体で均一にサンプリングすることは困難な場合が多く、特定の領域にわずかなポイントがある場合があります。このようなポイントは、他のポイントとは異なる場合があります。いくつかの明確なケースがあると不快になりますが、外れ値に追いやられる前にかなりの価値があります。予測子間で合法的に相互作用がある場合や、予測子の値が極端になった場合にシステムが異なる動作をするようにシフトする場合があります。さらに、共線形予測子の効果を解くのに役立つ場合があります。影響力のあるポイントは、変装の祝福になる可能性があります。