以下に説明するプロセスが有効/許容可能であり、正当な理由があるかどうかを知りたい。
考え方:教師あり学習アルゴリズムは、データの基礎となる構造/分布を想定していません。一日の終わりに、彼らはポイント推定値を出力します。推定の不確実性を何らかの形で定量化したいと考えています。現在、MLモデルの構築プロセスは本質的にランダムです(たとえば、ハイパーパラメーターチューニングの相互検証のサンプリングや、確率論的GBMのサブサンプリングなど)。したがって、モデリングパイプラインは、異なる予測子ごとに異なるシードの異なる出力を生成します。私の(素朴な)アイデアは、このプロセスを何度も繰り返して予測の分布を考え出すことであり、予測の不確実性について声明を出すことができれば幸いです。
問題があれば、私が扱うデータセットは通常非常に小さい(〜200行)。
これは理にかなっていますか?
明確にするために、私は実際には伝統的な意味でデータをブートストラップしていません(つまり、データを再サンプリングしていません)。すべての反復で同じデータセットが使用されます。xvalと確率的GBMのランダム性を利用しています。