あなたがしているのが経験的分布から再サンプリングするだけなら、なぜ経験的分布を研究するだけではありませんか?たとえば、繰り返しサンプリングによって変動性を調べる代わりに、経験的分布から変動性を定量化するだけではどうですか?
あなたがしているのが経験的分布から再サンプリングするだけなら、なぜ経験的分布を研究するだけではありませんか?たとえば、繰り返しサンプリングによって変動性を調べる代わりに、経験的分布から変動性を定量化するだけではどうですか?
回答:
ブートストラップ(またはその他のリサンプリング)は、統計の分布を推定する実験的な方法です。
これは非常に簡単で簡単な方法です(統計の望ましい分布を取得、推定するために、サンプルデータの多くのランダムなバリアントを使用して計算することを意味します)。
「理論的/分析的」な表現を取得/計算するのが難しすぎる場合(または、aksakalが時々それらが未知であると言うように)に使用する可能性があります。
例1:pca分析を行い、変数に相関がないという仮説を前提として、結果を「固有値の偏差の推定値」と比較したい場合。
データを何度もスクランブルし、pca固有値を再計算して、固有値の分布(サンプルデータを使用したランダムテストに基づく)を取得できます。
現在の手法では、特定の固有値が重要/重要であるかどうかを「決定」するために、スクリープロットを注視し、経験則を適用しています。
例2:関数fのパラメーターの束の推定値を提供する非線形回帰y〜f(x)を実行しました。 ここで、これらのパラメーターの標準エラーを知りたいと思います。
ここでは、OLSのように、残差と線形代数を簡単に調べることはできません。ただし、簡単な方法は、パラメーターがどのように変化するかを把握するために、残差/エラーを再スクランブルして同じ回帰を何度も計算することです(エラー項の分布は、観測された残差によってモデル化できます)。
StackExchangeStrikeによって書かれました。
重要なことは、ブートストラップは実際にはデータの分布の特徴を把握することではなく、データに適用された推定量の特徴を把握することです。
経験的分布関数のようなものは、データが由来するCDFのかなり良い推定値を教えてくれます...しかし、分離することによって、そのデータから構築する推定器がどれほど信頼できるかについて本質的に何も教えません。これは、ブートストラップを使用して答えられる質問です。
基礎となる分布が正確にわかっている場合は、学習する必要はありません。時々、自然科学では、分布を正確に知っています。
分布のタイプがわかっている場合は、そのパラメーターを推定し、意図した意味でそれを調べるだけで済みます。たとえば、基礎となる分布が正常であることを事前に知っている場合があります。場合によっては、その意味がわかることさえあります。したがって、通常の場合、調べる必要があるのは標準偏差だけです。サンプルからサンプル標準偏差を取得します。そして、学習する分布を取得します。
分布がわからないが、リスト内のいくつかの分布の1つであると思う場合は、それらの分布をデータに適合させて、最適な分布を選択することができます。次に、その分布を調べます。
最後に、多くの場合、扱っている配布の種類がわかりません。また、Rがデータに適合する20の分布の1つに属していると信じる理由はありません。何をする?わかりました、平均と標準偏差を見てください。しかし、それが非常に歪んでいる場合はどうでしょうか?尖度が非常に大きい場合はどうなりますか?等々。あなたはそれを知り、研究するために、配布のすべての瞬間を本当に知る必要があります。したがって、この場合、ノンパラメトリックブートストラップが便利です。あまり仮定せず、単純なサンプルを使用して、その瞬間やその他の特性を調べます。
ノンパラメトリックブートストラップは魔法のツールではありませんが、問題があります。たとえば、バイアスをかけることができます。パラメトリックブートストラップは偏りがないと思います