なぜブートストラップCIを常に使用しないのですか?


12

ブートストラップCI(およびバーティキュラーのBCa)が通常の分散データに対してどのように機能するのか疑問に思っていました。さまざまなタイプのディストリビューションでのパフォーマンスを調査する多くの作業があるようですが、通常の分布データでは何も見つかりませんでした。最初に勉強するのは明らかなことのように思えるので、私は論文が古すぎると思います。

Rブートパッケージを使用していくつかのモンテカルロシミュレーションを行ったところ、ブートストラップCIは正確なCIと一致していることがわかりましたが、小さなサンプル(N <20)の場合、少し寛大な(小さなCI)傾向があります。サンプルが十分に大きい場合、それらは本質的に同じです。

これは、ブートストラップを常に使用しない理由があるのではないかと思います。分布が正常であるかどうかの評価の難しさ、およびこの背後にある多くの落とし穴を考えると、分布に関係なくブートストラップCIを決定および報告しないことは理にかなっています。ノンパラメトリックテストは電力が少ないため、体系的に使用しないことの動機を理解していますが、シミュレーションではブートストラップCIの場合はそうではないことがわかります。彼らはさらに小さいです。

私を悩ませる同様の質問は、なぜ中心傾向の尺度として中央値を常に使用しないのかということです。多くの場合、非正規分布データの特性評価に使用することをお勧めしますが、中央値は正規分布データの平均と同じなので、なぜ区別するのですか?分布が正規であるかどうかを決定する手順を取り除くことができれば、非常に有益と思われます。

これらの問題についてのあなたの考えと、それらが以前に議論されたかどうかについて、私は非常に興味があります。参考文献をいただければ幸いです。

ありがとう!

ピエール


平均値と中央値についてここで私の質問を参照してください:stats.stackexchange.com/questions/96371/...
アレクシス

多くの問題では、リサンプリングは計算上実行不可能です。たとえば、単純に大規模な3Dマトリックスまたは長い時系列のCIを計算する場合。
ジョナ14年

回答:


4

BCa間隔とそのメカニズム(つまり、いわゆる「補正係数」)の動機を調べることは有益です。BCa間隔は、ブートストラップパーセンタイル間隔(ブートストラップ分布のみに基づく信頼区間)のより一般的なケースであるため、ブートストラップの最も重要な側面の1つです。

特に、BCa間隔とブートストラップパーセンタイル間隔の関係を見てください。加速度(最初の「修正係数」)と歪度(2番目の「修正係数」)の調整が両方ともゼロの場合、BCa間隔は元に戻ります。典型的なブートストラップパーセンタイル間隔。

常にブートストラップを使用するのは良い考えだとは思いません。ブートストラップは、さまざまな問題(例:非正規性)を調整するためのさまざまなメカニズム(例:信頼区間、および不均一分散がある場合のワイルドブートストラップなど、さまざまなタイプの問題に対するブートストラップのさまざまなバリエーションがある)を持つ堅牢な手法です。 )、ただし、それは1つの重要な仮定に依存しています。データは、真の母集団を正確に表します。

この仮定は、本質的に単純ではありますが、特に小さなサンプルサイズのコンテキストでは検証が困難な場合があります(小さなサンプルが実際の母集団の正確な反映である可能性があります!)。ブートストラップ分布(およびそれに続くすべての結果)の元のサンプルが十分に正確でない場合、結果(したがって、それらの結果に基づく決定)に欠陥があります。

結論:ブートストラップには多くのあいまいさがあり、適用する前に注意する必要があります。


2
「ブートストラップ分布(およびそれに続くすべての結果)の元のサンプルが十分に正確でない場合、結果(したがって、それらの結果に基づく決定)に欠陥が生じます。」->しかし、これらの場合、ブートストラップCIは分析的選択肢よりもパフォーマンスが悪いですか?
ジョナ14年

3
データが母集団を適切に表すという仮定は、ブートストラップだけに限定されません:一般的に統計に関係するため、データが不十分な場合、行われた推論、ブートストラップ推論などが誤解を招く可能性があります(誤った仮定は、結論!)。
mmmmmmmmmm 14年

4
したがって、この警告はブートストラップではなく推論に関するものであり、ブートストラップを別の方法で使用することに対する議論ではなく、誤りやすい方法に絶対的な信頼を置くことに関する議論です。それでは、この文脈でどのように関連するのかわかりません。
ジョナ14年

申し訳ありませんが、このスレッドに少し遅れて.... @ jona:ブートストラップによりサンプルがさらに増幅されるため、これは関係ないでしょうか?サンプルが人口の不幸な不正確な表示である場合、ブートストラップを使用すると人口センターからさらに遠く離れてしまいますか?それは体系的にブートストラップに依存することに対する潜在的な議論ではありませんか?
sisdog
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.