ブートストラップ:オーバーフィットの問題


14

元の観測値からそれぞれサイズサンプルを置き換えて描画することにより、いわゆるノンパラメトリックブートストラップを実行するとします。この手順は、経験累積分布関数による累積分布関数の推定と同等であると思います。Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

そして、連続した推定累積分布関数回から回の観測値をシミュレートして、ブートストラップサンプルを取得します。nB

私がこれに正しければ、経験的累積分布関数には約N個のパラメーターがあるため、過剰適合の問題に対処する必要があります。もちろん、漸近的に母集団cdfに収束しますが、有限サンプルについてはどうでしょうか?たとえば、100個の観測値があり、2つのパラメーターを使用してcdfをとして推定する場合、心配する必要はありません。ただし、パラメーターの数が100に達する場合、まったく妥当とは思えません。N(μ,σ2)

同様に、標準の多重線形回帰を使用する場合、誤差項の分布はとして推定されます。残差のブートストラップに切り替えることにした場合、エラー項の分布を処理するためだけに約 n個のパラメーターが使用されることに気づかなければなりません。N(0,σ2)n

この問題に明示的に対処しているいくつかの情報源を教えてもらえますか、間違っていると思われる場合はなぜ問題ではないのか教えてください。


この「ノンパラメトリック」ブートストラップを表示する1つの方法は、正規性のパラメトリックな仮定を、いくつかの大きな有限母集団(たとえば、レコードの国勢調査の平均)の「関心のある量」に変換することです。実際、このバージョンのブートストラップは、多項モデルの「最尤」推定に基づいており、母集団内の異なる「タイプ」ごとに1つのカテゴリーがあることを示すことができます。
確率論的

回答:


2

私はあなたの質問を正しく理解しているとは完全に確信していません...あなたが収束の順序に興味があると仮定していますか?

経験的累積分布関数には約N個のパラメーターがあるためです。もちろん、漸近的に母集団cdfに収束しますが、有限サンプルについてはどうでしょうか?

ブートストラップ理論の基本を読みましたか?問題は、かなり急速に(数学的に)ワイルドになることです。

とにかく、私は見てみることをお勧めします

van der Vaart「漸近統計」第23章。

ホール「Bootstrap and Edgeworth expansions」(長くても簡潔で、van der Vaartよりも手間が少ない)

基本のために。

Chernickの「ブートストラップメソッド」は数学者よりもユーザーを対象としていますが、「ブートストラップが失敗する場所」に関するセクションがあります。

古典的なEfron / Tibshiraniには、ブートストラップが実際に機能する理由がほとんどありません...


4

Nμσ2

直感的に、有限サンプルからのブートストラップは、基礎となる分布の重いテールを過小評価します。真の分布の範囲が無限であるか、さらに悪いことにテールが重い場合でも、有限のサンプルには有限の範囲があるため、それは明らかです。したがって、ブートストラップ統計の動作は、元の統計ほど「ワイルド」ではありません。(パラメーター)回帰のパラメーターが多すぎるために過剰適合を回避するのと同様に、少数のパラメーター正規分布を使用することで過剰適合を回避できます。

コメントへの返信の編集: cdfを推定するためにブートストラップが必要ないことを忘れないでください。通常、ブートストラップを使用して、統計の分布(分位、モーメント、必要なものを含む最も広い意味で)を取得します。したがって、あなたは必ずしも過剰適合の問題を抱えているわけではありません(「私の有限データによる推定は、真の野生分布で見るべきものと比較してあまりにも見栄えが良い」という点で)。しかし、判明したように(引用された論文と以下のFrank Harrelのコメントによる)、そのような過剰適合の問題を取得することは、同じ統計のパラメトリック推定の問題に関連しています。

あなたの質問が暗示しているように、ブートストラップはパラメトリック推定の問題に対する万能薬ではありません。ブートストラップがディストリビューション全体を制御することでパラメーターの問題を解決するという希望は、偽りです。


1
ブートストラップに含まれる有効なパラメータの数がサンプルサイズとほぼ同じであるため、ブートストラップがどのように機能するかはまだ不明です。1つの推測があります。ブートストラップの最終的な目標は、分布全体を推定することではなく、分布の1〜2統計を推定することです。したがって、ブートストラップに埋め込まれた経験的累積分布関数が著しく過剰に適合しているにもかかわらず、1-2の推定統計値は何らかの形でうまくいきます。私はそれを正しくしましたか?
ジェームズ14

4
有効なパラメーターの数は、サンプルサイズと同じではありません。経験的累積分布関数の分散は、分布に推定する4つの未知のパラメーターがある場合、分布へのパラメトリック近似の分散とほぼ同じです。理由の1つは、経験的CDF推定値が昇順であることが強制されることです。
フランクハレル14

いい視点ね。参考にしていただけますか?
ジェームズ14

持っていたらよかったのに。過去にモンテカルロシミュレーションでこれを示しました。
フランクハレル14

L2F^FF^バツFバツ

0

直感の1つのソースは、iidデータについて、パラメトリックCDFとECDFの収束速度を比較することです。

n1/2

n1/2σμ

したがって、ある意味では、経験的CDFを使用してCDFを推定する場合でも、サンプル平均型推定器を使用してパラメーターを直接推定する場合でも、サンプルを追加する必要があるレートは同じです。これは、「有効なパラメーターの数がサンプルサイズと同じではない」というフランクハレルのコメントを正当化するのに役立つ場合があります。

もちろん、それだけではありません。レートに違いはありませんが、定数には違いがあります。また、ノンパラメトリックブートストラップにはECDFよりもはるかに多くの機能があります。ECDFを見積もった後は、引き続き行う必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.