ブートストラップの基本がどのように機能するかは理解できていると思いますが、ブートストラップを使用してモデルを選択したり、過剰適合を回避したりする方法を理解できません。
たとえば、モデルの選択では、ブートストラップサンプル全体で最小のエラー(おそらく分散?)が得られるモデルを選択しますか?
モデルの選択または検証にブートストラップを使用する方法を説明するテキストはありますか?
編集:このスレッドの詳細と、この質問の背景にある詳細については@ mark999による回答をご覧ください。
ブートストラップの基本がどのように機能するかは理解できていると思いますが、ブートストラップを使用してモデルを選択したり、過剰適合を回避したりする方法を理解できません。
たとえば、モデルの選択では、ブートストラップサンプル全体で最小のエラー(おそらく分散?)が得られるモデルを選択しますか?
モデルの選択または検証にブートストラップを使用する方法を説明するテキストはありますか?
編集:このスレッドの詳細と、この質問の背景にある詳細については@ mark999による回答をご覧ください。
回答:
最初に、本当にモデル選択が必要か、または単にモデル化する必要があるかを決定する必要があります。大部分の状況では、次元に応じて、柔軟で包括的なモデルの適合が好まれます。
ブートストラップは、モデルのパフォーマンスを推定する優れた方法です。推定する最も簡単なことは分散です。ブートストラップは、元のポイントに加えて、まだ実現されていない新しいデータについて、特定のモデリング手順の将来のパフォーマンスを推定できます。
モデルチューニングパラメーターの選択とモデルの推定の両方にリサンプリング(ブートストラップまたはクロス検証)を使用する場合、ダブルブートストラップまたはネストされたクロス検証が必要になります。
一般に、ブートストラップは交差検定よりも少ないモデル近似(多くの場合300程度)を必要とします(安定性のために10倍の交差検定を50〜100回繰り返す必要があります)。
いくつかのシミュレーション研究はhttp://biostat.mc.vanderbilt.edu/rmsで見つけることができます
モデルの平均化にブートストラップを使用することを検討してください。
ブートストラップモデル平均化アプローチと(より一般的に使用されている)ベイジアンモデリング平均化を比較し、モデル平均化を実行するためのレシピを示しています。