なぜブートストラップが必要なのですか?


16

私は現在、Larry Wassermanの「統計のすべて」を読んでいて、ノンパラメトリックモデルの統計関数の推定に関する章で彼が書いたものに困惑しています。

彼が書きました

「いくつかの計算を行うことで、統計関数の推定標準誤差を見つけることができます。しかし、他の場合では、標準誤差を推定する方法が明らかではありません。」

次の章で彼はこの問題に対処するためのブートストラップについて語っていますが、この声明を本当に理解していないので、ブートストラップの背後にあるインセンティブを十分に得られませんか?

標準誤差を推定する方法が明らかでない場合、どのような例がありますか?

thenように、これまで見てきたすべての例は「明白」^ S 、EP N= X1,...Xn Ber(p)se^(p^n)=p^(1p^)/n


回答:


16

2つの答え。

  1. 2つの平均の比の標準誤差は何ですか?中央値の標準誤差は何ですか?複雑な統計の標準誤差とは何ですか?閉じた形の方程式があるかもしれませんが、まだ誰もそれを解決していない可能性があります。
  2. (たとえば)平均の標準誤差に式を使用するには、いくつかの仮定を行う必要があります。これらの仮定に違反した場合、必ずしもこの方法を使用できるとは限りません。@Whuberがコメントで指摘しているように、ブートストラップはこれらの仮定の一部を緩和することを可能にし、したがって、より適切な標準エラーを提供する可能性があります(追加の仮定も行う場合があります)。

2
回答1は問題ありませんが、ブートストラップも仮定を行うため、回答2は質問を請うようです。ポイントは、一般的に他の一般的な手順とは異なる仮定をするということかもしれませんが、それはあなたが言おうとしていることについての単なる推測であり、私は間違っている可能性があります。
whuber

@Whuber-ありがとう、少し説明を追加しました。
ジェレミーマイルズ

5
編集していただきありがとうございます。しかし、ブートストラップは通常、実際にいくつかを緩和するのではなく、異なる仮定を行うということではありませんか?たとえば、標本平均のSEを推定するために必要な仮定は、データがiidであり、基礎となる分布には有限の分散があるということです。この場合、ブートストラップは実際仮定を追加する必要があります。サンプルサイズが「十分に大きい」場合を除き、ブートストラップは機能しません。これは技術をめぐって口論するように思えるかもしれませんが、私が対処しようとしているのは全体像です:ブートストラップは万能薬でも、常に適用できるものでもありません。
whuber

3
@JeremyMilesブートストラップには前提がありません。ほとんどのブートストラップエラーの計算では、分布が極めて重要であることを確認する必要があります。これは、標準エラーの一貫した推定量を取得するよりも複雑になることがよくあります。さらに、平均の比には、δ法から得られる非常に簡単な誤差近似があります。だから、その例がOPのポイントに反するとは思わない。
AdamO

9

例が説明に役立つかもしれません。因果モデリングフレームワークで、(関心のある露出)と(関心のある結果)の関係が変数によって媒介されているかどうかを判断するとします。これは、2つの回帰モデルで次のことを意味します。Y WXYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

効果効果は異なります。γ 1β1γ1

例として、喫煙と心血管(CV)リスクの関係を考慮してください。喫煙は、静脈をもろく石灰化させることにより、CVリスク(心臓発作や脳卒中など)を明らかに増加させます。しかし、喫煙も食欲抑制剤です。したがって、喫煙とCVリスクの推定関係がCMIリスクのリスク要因であるBMIによって媒介されているかどうかは興味があります。ここで、は、ロジスティック回帰モデルのバイナリイベント(心筋梗塞または神経梗塞)、または冠動脈石灰化(CAC)、左室駆出率(LVEF)、または左室質量(LVM)などの連続変数です。Y

年齢と性別、収入、心臓病の家族歴などの他の交絡因子とともに喫煙と転帰を調整し、その後2:以前のすべての共変量とボディマス指数の2つのモデルに適合します。モデル1とモデル2の喫煙効果の違いは、推論の根拠です。

仮説をテストすることに興味があります

H:β1=γ1K:β1γ1

1つの可能な効果測定は次のとおりですまたはまたは任意の数の測定。および通常の推定器を使用できます。これらの推定量の標準誤差の導出は非常に複雑です。ただし、それらの分布のブートストラップは一般的に適用される手法であり、その値から直接値を計算するのは簡単です。 S = β 1 / γ 1 T ST=β1γ1S=β1/γ1TSp


私はあなたがこの答えをどこに向かっているのか理解していると思いますが、詳細には困惑しています。と説明のパラメーターに帽子をかぶるつもりでしたか?これらのテキストは、推定器ではなくモデルのプロパティであるように聞こえます。このような2つの異なるモデルのプロパティを混合することは、どのような意味がありますか?あなたが本当に帽子を意味していたら、とは統計量であり、推定量として使用されるようですが、何を推定するのですか?S T STSTS
whuber

@whuber従来の表記法では帽子を使わないのは正しいと思います。編集します。おそらく私は十分に明確ではありませんでした...同じデータセット上の2つの異なるモデルに適合する同じ変数の2つのパラメータがあります。統計および標準誤差を直接計算することは非常に困難です。STS
AdamO

これを理解できる唯一の方法は、最初のモデルにネストされる2番目のモデルを理解することです。テストしている仮説はです。2つの別個のモデルが関係する「仮説」の有効な定義すら知りません。γ2=0
whuber

@whuberああ、混乱が見えます。MacKinnonの推奨記事はこちらをご覧ください。
AdamO

ありがとう:その参照は私があなたの例をよりよく理解するのを助けます。私はそのアプローチに含まれる多くの理論的ソールシスについては留保していますが、それらはあなたの例の適性とは無関係です:人々が実際にこの方法でデータを理解しようとし、または。ただし、最後の段落ではとその推定量を区別していないことに注意してくださいはモデルプロパティであるため、分布もSEもありません。の推定量には分布があります。S T T TTSTTT
whuber

2

各統計的尺度に対してパラメトリックな解決策をとることは望ましいでしょうが、同時に非常に非現実的です。これらのインスタンスでは、ブートストラップが便利です。私の頭に浮かぶ例は、大きく歪んだコスト配分の2つの手段の違いに関するものです。その場合、古典的な2サンプルt検定はその理論的要件を満たせず(調査対象のサンプルが引き出された分布は、長い右尾のために正規性から確実に逸脱します)、ノンパラメトリック検定は伝達しません意思決定者(通常はランクに関心がない)への有益な情報。その問題で失速するのを避けるための可能な解決策は、2サンプルのブートストラップt検定です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.