ブートストラップ-最初に外れ値を削除する必要がありますか?


19

新しい製品機能の分割テストを実行し、収益の増加が著しいかどうかを測定したいと考えています。私たちの観察結果は間違いなく正規分布ではありません(ほとんどのユーザーは使いません、そしてそうする人の中では、多くの小さな消費者といくつかの非常に大きな消費者に大きく偏っています)。

ブートストラップを使用して手段を比較し、データが正常に配信されないという問題を回避することにしました(サイド質問:これはブートストラップの合法的な使用ですか?)

私の質問は、ブートストラップを実行する前に、データセット(例:非常に大きな支出者)から外れ値を削除する必要がありますか、それとも問題ではありませんか?


1
良い質問です。おそらく、賛成論や、外れ値の除去に反対することができます。外れ値を心配していて、探しているのが「中心的な傾向」に過ぎない場合、中央値を使用しないのはなぜですか。お金に関連する変数は、そもそも不合理ではない可能性のある非常に歪んだ分布(パレートなど)を持っていることが多いためです。
usεr11852は回復モニック言う

1
@ user11852 Mediansは、平均値についてはほとんど説明していません。平均値は収益に関連しています。「外れ値」を削除することを支持するあなたの議論を見るのは興味深いでしょう、特にこれらが総収入の主要な貢献者であるとき。
whuber

1
残念ながら、ユーザーの10%未満がすべてを費やすため、中央値は常にゼロになります
-user31228

2
@ user11852外れ値は正当であるという一般的な議論は役に立ちます。しかし、増幅の可能性に関しては、逆のことが当てはまるようです。ブートストラップは、完全なサンプルが使用されている場合にのみ機能する可能性があります。そうでなければ、それはおとぎ話を提示し、外れ値が存在しなかった場合に物事がどのようになるかを教えてくれますが、明らかに存在します。大きな問題は、小さなサンプルに適用した場合、ブートストラップに理論上の正当性がほとんどないということです。理論は漸近的なものです。
whuber

2
これは重要な質問です(+1)。データセットの小さなサンプルや、質問に似たシミュレートされたサンプルを追加できますか?この場合、イラストを提供する方が実り多いと思います。
user603

回答:


6

これに対処する前に、「外れ値の削除」の統計的不正行為が、適用された統計教育学の多くで誤って公布されていることを認識することが重要です。従来、外れ値は、高レバレッジ、高影響の観測として定義されています。データの分析でそのような観察結果を特定できますが、それらの条件だけでは、それらの観察結果を削除する必要はありません。「真の外れ値」とは、実験計画の複製と矛盾する高レバレッジ/高影響の観測です。観測をそのようにみなすには、その母集団の専門知識と「データ生成メカニズム」の背後にある科学が必要です。最も重要な側面は、アプリオリの潜在的な外れ値を特定できることです。

ブートストラップの側面に関しては、ブートストラップは、サンプリング母集団からの独立した繰り返し描画をシミュレートすることを目的としています。分析計画で除外基準を事前に指定する場合、参照されるブートストラップサンプリング分布に除外された値を残す必要があります。これは、データのサンプリング後に除外を適用することによる電力の損失を考慮するためです。ただし、事前に指定された除外条件がなく、ポストホック裁決を使用して外れ値が削除される場合、明らかに反対しますが、これらの値を削除すると、外れ値の削除によって引き起こされる推論で同じエラーが伝播します。

100人の層別化されていない単純なランダムサンプルでの富と幸福に関する研究を検討してください。「人口の1%が世界の富の90%を保持している」という文言を文字通りにとると、平均して1つの非常に影響力のある値を観察することになります。さらに、基本的な生活の質を提供する以外に、より大きな収入に起因する過剰な幸福はなかったと仮定します(一定でない線形の傾向)。したがって、この個人も高いレバレッジです。

純化されていないデータに適合する最小二乗回帰係数は、これらのデータの母平均平均一次傾向を推定します。それは幸福が中央値の収入レベルに近いものと一致するサンプルの私たちの1人の個人によって大幅に減衰されます。この個体を削除すると、最小二乗回帰の傾きははるかに大きくなりますが、リグレッサーの分散は減少するため、関連性に関する推論はほぼ同じです。これを行うことの難しさは、個人が除外される条件を事前に指定しなかったことです。別の研究者がこの研究デザインを複製した場合、彼らは平均して1人の高収入で中程度に幸せな個人をサンプリングし、私の「トリミングされた」結果と矛盾する結果を得ます。

我々があった場合はアプリオリ適度な所得の幸福協会に興味を持って、我々は我々がすることを事前に指定している必要があり、例えば、「未満$ 100,000個の世帯年収を稼ぐ個人を比較します」。そのため、外れ値を削除すると、説明できない関連性が推定されるため、p値は無意味になります。

一方、キャリブレーションされていない医療機器や、自己申告による面倒な調査嘘は削除できます。実際の分析が行われる前に除外基準をより正確に記述することができるほど、そのような分析が生成する結果の有効性と一貫性が高まります。


私は確かに私は理解していないよ、なぜ「あなたはまだ参照先ブートストラップ標本分布に除外された値のままにする必要があります。あなたの解析計画であなたあらかじめ指定除外基準があれば、」あなたは、この"であることを言及するあなたは、電源の喪失に起因するを占めることになるので、データをサンプリングした後に除外を適用します。 "サンプリング後に除外基準を適用すると、電力が失われると仮定される理由がわかりませんまた、なぜこれが明らかに「説明」されなければならないのか。たぶん私はここで密集しています。
ジェイクウェストフォール

p

うーん、私の考えでは、除外基準を事前に指定しておけば、特定の種類のケースに明確に興味がなく、おそらく将来の研究の複製ではこれらの同じ除外基準が使用されるので、そのままにしておくのが理にかなっていると思いますこれらのケースはブートストラップサンプルから除外されます。これらは推論を行いたくない集団のセグメントであるためです。私は将来のレプリケーションが例異なる割合を除く終わるかもしれないどのように見ていますが、私は非常に接続することはできませんなぜ我々は明示的にすることを例にこの問題されている。..に興味がある
ジェイクウェストフォール

1
pH0

0

これを外れ値の問題と見なすのは間違っているようです。「ユーザーの10%未満しか消費しない」場合、その側面をモデル化する必要があります。トビット回帰またはヘックマン回帰は2つの可能性があります。


2
現時点では、これは回答というよりもコメントです。それを少し拡張して、もっと答えっぽくしてくれませんか?
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.