これに対処する前に、「外れ値の削除」の統計的不正行為が、適用された統計教育学の多くで誤って公布されていることを認識することが重要です。従来、外れ値は、高レバレッジ、高影響の観測として定義されています。データの分析でそのような観察結果を特定できますが、それらの条件だけでは、それらの観察結果を削除する必要はありません。「真の外れ値」とは、実験計画の複製と矛盾する高レバレッジ/高影響の観測です。観測をそのようにみなすには、その母集団の専門知識と「データ生成メカニズム」の背後にある科学が必要です。最も重要な側面は、アプリオリの潜在的な外れ値を特定できることです。
ブートストラップの側面に関しては、ブートストラップは、サンプリング母集団からの独立した繰り返し描画をシミュレートすることを目的としています。分析計画で除外基準を事前に指定する場合、参照されるブートストラップサンプリング分布に除外された値を残す必要があります。これは、データのサンプリング後に除外を適用することによる電力の損失を考慮するためです。ただし、事前に指定された除外条件がなく、ポストホック裁決を使用して外れ値が削除される場合、明らかに反対しますが、これらの値を削除すると、外れ値の削除によって引き起こされる推論で同じエラーが伝播します。
100人の層別化されていない単純なランダムサンプルでの富と幸福に関する研究を検討してください。「人口の1%が世界の富の90%を保持している」という文言を文字通りにとると、平均して1つの非常に影響力のある値を観察することになります。さらに、基本的な生活の質を提供する以外に、より大きな収入に起因する過剰な幸福はなかったと仮定します(一定でない線形の傾向)。したがって、この個人も高いレバレッジです。
純化されていないデータに適合する最小二乗回帰係数は、これらのデータの母平均平均一次傾向を推定します。それは幸福が中央値の収入レベルに近いものと一致するサンプルの私たちの1人の個人によって大幅に減衰されます。この個体を削除すると、最小二乗回帰の傾きははるかに大きくなりますが、リグレッサーの分散は減少するため、関連性に関する推論はほぼ同じです。これを行うことの難しさは、個人が除外される条件を事前に指定しなかったことです。別の研究者がこの研究デザインを複製した場合、彼らは平均して1人の高収入で中程度に幸せな個人をサンプリングし、私の「トリミングされた」結果と矛盾する結果を得ます。
我々があった場合はアプリオリ適度な所得の幸福協会に興味を持って、我々は我々がすることを事前に指定している必要があり、例えば、「未満$ 100,000個の世帯年収を稼ぐ個人を比較します」。そのため、外れ値を削除すると、説明できない関連性が推定されるため、p値は無意味になります。
一方、キャリブレーションされていない医療機器や、自己申告による面倒な調査嘘は削除できます。実際の分析が行われる前に除外基準をより正確に記述することができるほど、そのような分析が生成する結果の有効性と一貫性が高まります。