ブートストラップが便利なのはなぜですか?


13

あなたがしているのが経験的分布から再サンプリングするだけなら、なぜ経験的分布を研究するだけではありませんか?たとえば、繰り返しサンプリングによって変動性を調べる代わりに、経験的分布から変動性を定量化するだけではどうですか?


6
(この意味で)ブートストラップ分布は、パラメータの(近似)ノンパラメトリックで非情報的な事後分布を表します。しかし、このブートストラップ分布は、事前に正式に指定することなく、事後分布からサンプリングすることなく、簡単に取得できます。したがって、ブートストラップ分布は「貧しい人の」ベイズ後部と考えるかもしれません。」Hastie et al。統計的学習の要素」セクト8.4。。。
usεr11852が復活モニック言う

8
経験的分布からの推定値の不確実性をどのように定量化しますか?
usεr11852は回復モニック言う

2
「穏やかな規則性条件下で、ブートストラップは、少なくとも1次漸近理論から得られた近似と同じくらい正確な推定量または検定統計量の分布の近似を生成します。」 unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf
-jbowman

10
あなたは、理解しようとしていないと主張しています。私を信じて、あなたは、ブートストラップが40年以上にわたる何千人もの統計学者のそれとは対照的に価値がないことに気付いていない。引用を注意深く読みませんでした。統計におけるランダム性の重要な役割を把握できなかったと思います。「わざわざ!!」などの文 「分布を取得することに関して...控えめに言っても珍しいです。推定の分布を理解することが重要だと思わない場合は、統計分野が存在する理由を検討することをお勧めします。まったく、そしてそれを再考してくださいT(X)
。– jbowman

4
@ztyh「各サンプルをマッピングすると、分布が得られます」と言います。おそらくあなたはこれについて考える必要があります、単一の点をにどのようにマッピングしますか?または、任意の関数。XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

回答:


18

ブートストラップ(またはその他のリサンプリング)は、統計の分布を推定する実験的な方法です。

これは非常に簡単で簡単な方法です(統計の望ましい分布を取得、推定するために、サンプルデータの多くのランダムなバリアントを使用して計算することを意味します)。

「理論的/分析的」な表現を取得/計算するのが難しすぎる場合(または、aksakalが時々それらが未知であると言うように)に使用する可能性があります。

  • 例1:pca分析を行い、変数に相関がないという仮説を前提として、結果を「固有値の偏差の推定値」と比較たい場合。

    データを何度もスクランブルし、pca固有値を再計算して、固有値の分布(サンプルデータを使用したランダムテストに基づく)を取得できます。

    現在の手法では、特定の固有値が重要/重要であるかどうかを「決定」するために、スクリープロットを注視し、経験則を適用しています。

  • 例2:関数fのパラメーターの束の推定値を提供する非線形回帰y〜f(x)を実行しました。 ここで、これらのパラメーターの標準エラーを知りたいと思います。

    ここでは、OLSのように、残差と線形代数を簡単に調べることはできません。ただし、簡単な方法は、パラメーターがどのように変化するかを把握するために、残差/エラーを再スクランブルして同じ回帰を何度も計算することです(エラー項の分布は、観測された残差によってモデル化できます)。


StackExchangeStrikeによって書かれました。


2
あなたの例はブートストラップではないと思います。既知のヌル分布からのちょうどサンプリング。ブートストラップは、1つのサンプルがあり、そのサンプルから繰り返しサンプリングを行う場所です。
ztyh

3
あなたの質問では、サンプルの分散を計算することを想像します。これは確かに単純で、ブートストラップを必要としません。私の例では、サンプルから派生した値がある状況について話しています。そうすれば、単に分散を計算することはできなくなりますが、それでもどのように変化するかを知りたいと思います。データを何度もスクランブルし、pca固有値を再計算することにより、サンプルの分布に従う分布(ランダム)データを取得できます。誤解しない限り、これ ブートストラップ呼ばれます。
セクストゥスエンピリカス

わかりました、どこで物事を誤解していたかわかります。あなたの例は理にかなっています。ありがとう。
-ztyh

8

重要なことは、ブートストラップは実際にはデータの分布の特徴を把握することではなく、データに適用された推定量の特徴を把握することです。

経験的分布関数のようなものは、データが由来するCDFのかなり良い推定値を教えてくれます...しかし、分離することによって、そのデータから構築する推定器がどれほど信頼できるかについて本質的に何も教えません。これは、ブートストラップを使用して答えられる質問です。


1
(ノンパラメトリック)ブートストラップを使用して「データの分布」を見つけるのは笑いです:単に経験的分布関数を考え出すだけです。これはまさに分析者が始めたデータのセットです。「Xを解く」と「X = X」を見つけると、大学の代数を思い出します。
AdamO

3

基礎となる分布が正確にわかっている場合は、学習する必要はありません。時々、自然科学では、分布を正確に知っています。

分布のタイプがわかっている場合は、そのパラメーターを推定し、意図した意味でそれを調べるだけで済みます。たとえば、基礎となる分布が正常であることを事前に知っている場合があります。場合によっては、その意味がわかることさえあります。したがって、通常の場合、調べる必要があるのは標準偏差だけです。サンプルからサンプル標準偏差を取得します。そして、学習する分布を取得します。

分布がわからないが、リスト内のいくつかの分布の1つであると思う場合は、それらの分布をデータに適合させて、最適な分布を選択することができます。次に、その分布を調べます。

最後に、多くの場合、扱っている配布の種類がわかりません。また、Rがデータに適合する20の分布の1つに属していると信じる理由はありません。何をする?わかりました、平均と標準偏差を見てください。しかし、それが非常に歪んでいる場合はどうでしょうか?尖度が非常に大きい場合はどうなりますか?等々。あなたはそれを知り、研究するために、配布のすべての瞬間を本当に知る必要があります。したがって、この場合、ノンパラメトリックブートストラップが便利です。あまり仮定せず、単純なサンプルを使用して、その瞬間やその他の特性を調べます。

ノンパラメトリックブートストラップは魔法のツールではありませんが、問題があります。たとえば、バイアスをかけることができます。パラメトリックブートストラップは偏りがないと思います


1
本当の分布を知らなくても、多くのモーメントは簡単に計算できます。ですから、問題はあなたが扱っているディストリビューションのタイプを知らないことではないと思います。むしろ、あなたがどんな種類の統計を勉強しようとしているかについてです。一部の統計は計算が困難な場合があり、その場合のみブートストラップが役立ちます。
-ztyh

us11r11852への質問へのコメントのように、実際には統計の計算可能性に関する利点についても疑問があります。
ztyh

ln(x3+x)

1
xzf(x,z)x,z

1
fxzf(x,z)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.