おそらく、完全なデータセットを備えた元のモデルを使用します。私は通常、これらのことを感度分析を容易にするものと考えています。つまり、彼らはあなたが愚かな何かのためだけに与えられた結果が得られないことを確実にするために何をチェックすべきかをあなたに示します。あなたのケースでは、潜在的に影響力のあるポイントがいくつかありますが、それらを使用せずにモデルを再実行すると、実質的に同じ答えが得られます(少なくとも、おそらく気になる側面に関して)。つまり、好きなしきい値を使用します。モデルを「真の」バージョンとしてではなく、チェックとして再フィットするだけです。他の人々が潜在的な外れ値について十分に懸念していると思われる場合は、両方のモデルの適合を報告できます。あなたが言うことは、
これが私の結果です。この状況は、いくつかの珍しいが非常に影響力の大きい観察のために浮かび上がってくるのではないかと心配する人もいるかもしれません。これらは同じモデルの結果ですが、これらの観測はありません。実質的な違いはありません。
それらを削除して、2番目のモデルを主な結果として使用することもできます。結局のところ、元のデータセットを維持することは、サブセットと同様に、どのデータがモデルに属するかについての仮定に相当します。しかし、心理的には、実際の不正な意図なしに誰かが、それらを与える一連の事後調整(たとえば、いくつかの観察を落とすなど)を行うのは簡単ではないため、報告された結果に非常に懐疑的になる可能性があります彼らが最も期待する結果。常に完全なデータセットを使用することで、その可能性を先取りし、プロジェクトで起こっていることではないことを人々(たとえば、レビュー担当者)に保証します。
ここでのもう1つの問題は、人々が「バブルを追いかけて」しまうことです。いくつかの潜在的な外れ値を削除してモデルを再実行すると、結果として、潜在的な外れ値として新しい異なる観測値を示す結果が得られます。何回イテレーションを行うことになっていますか?これに対する標準的な応答は、元の完全なデータセットを使い続け、代わりに堅牢な回帰を実行することです。これも、感度分析として理解できます。