クックの距離カットオフ値


9

私は料理の距離を読んで、私の回帰に大きな影響を与える異常値を特定しています。クックの最初の研究では、影響因子を特定するためにカットオフ率1は同等である必要があると彼は述べています。ただし、他のさまざまな研究では、またはをカットオフとして使用しています。4n4nk1

私の研究では、1を超える残差のDはありません。ただし、をカットオフ、さまざまなデータがありますインフルエンサーと見なされるポイント。これらのデータポイントを削除すると、一般的な線形回帰に違いが生じるかどうかをテストすることにしました。私のIVはすべてその重要性を保持しており、明らかな変化は見られませんでした。4n(4149=.026)

すべてのデータポイントを保持し、カットオフレート1を使用する必要がありますか?またはそれらを削除しますか?


Baltagi(2011)Econometrics、5eを確認してください。第8章のセクション8.1。彼はクックの距離から派生する別の測定を提案し、それはまた、推定量があまり変わらないので必要となるVar-Covar行列の影響力のあるobsからの歪み/影響をチェックします...
SirAlex

10
この診断に基づいてデータを削除するべきではありません。その目的は、それらとそれらが分析に与える影響について考える手助けをすることです。
whuber

回答:


5

おそらく、完全なデータセットを備えた元のモデルを使用します。私は通常、これらのことを感度分析を容易にするものと考えています。つまり、彼らはあなたが愚かな何かのためだけに与えられた結果が得られないことを確実にするために何をチェックすべきかをあなたに示します。あなたのケースでは、潜在的に影響力のあるポイントがいくつかありますが、それらを使用せずにモデルを再実行すると、実質的に同じ答えが得られます(少なくとも、おそらく気になる側面に関して)。つまり、好きなしきい値を使用します。モデルを「真の」バージョンとしてではなく、チェックとして再フィットするだけです。他の人々が潜在的な外れ値について十分に懸念していると思われる場合は、両方のモデルの適合を報告できます。あなたが言うことは、

これが私の結果です。この状況は、いくつかの珍しいが非常に影響力の大きい観察のために浮かび上がってくるのではないかと心配する人もいるかもしれません。これらは同じモデルの結果ですが、これらの観測はありません。実質的な違いはありません。

それらを削除して、2番目のモデルを主な結果として使用することもできます。結局のところ、元のデータセットを維持することは、サブセットと同様に、どのデータがモデルに属するかについての仮定に相当します。しかし、心理的には、実際の不正な意図なしに誰かが、それらを与える一連の事後調整(たとえば、いくつかの観察を落とすなど)を行うのは簡単ではないため、報告された結果に非常に懐疑的になる可能性があります彼らが最も期待する結果。常に完全なデータセットを使用することで、その可能性を先取りし、プロジェクトで起こっていることではないことを人々(たとえば、レビュー担当者)に保証します。

ここでのもう1つの問題は、人々が「バブルを追いかけて」しまうことです。いくつかの潜在的な外れ値を削除してモデルを再実行すると、結果として、潜在的な外れ値として新しい異なる観測値を示す結果が得られます。何回イテレーションを行うことになっていますか?これに対する標準的な応答は、元の完全なデータセットを使い続け、代わりに堅牢な回帰を実行することです。これも、感度分析として理解できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.