回答:
影響要因は、モデルの安定性です。より正確には、代理変数の予測が安定していることです。
モデルが完全に安定している場合、すべての代理モデルは同じテストケースに対して同じ予測を生成します。その場合、反復/反復は不要であり、改善されません。
予測の安定性を測定できるので、次のことを行います。
次に、さらに多くの反復を実行して結果を調整します。
もちろん、たとえば5回の反復を実行してから、最終的な反復回数を決定することもできます。
(補足:私は通常、約1000を超えるサロゲートモデルを使用しているため、通常の反復/反復は約100-125になります)。
統計学者に質問をすれば、彼らの答えは「依存する」という形になります。
それは依存します。モデルの種類(良い点cbeleites!)、トレーニングセットポイントの数、および予測子の数は別ですか?モデルが分類用である場合、クラスの不均衡が大きいと、繰り返しの回数が増えます。また、機能選択手順をリサンプリングする場合、リサンプルを増やすようにバイアスをかけます。
このコンテキストで使用されるリサンプリング方法については、(従来のブートストラップとは異なり)、分布の平均の「十分に正確な」推定値を取得するのに十分な反復しか必要ないことに注意してください。それは主観的ですが、どんな答えもそうです。
2つのクラスを1秒間使用した分類に固執し、モデルの精度が約0.80であると予想/期待するとします。リサンプリングプロセスは、精度の推定値(例えばサンプリングされているのでp
)、標準誤差は次のようになりsqrt[p*(1-p)]/sqrt(B)
ここで、B
リサンプリングの数です。の場合B = 10
、精度の標準誤差は約0.13で、B = 100
約0.04です。この式は、この特定のケースの大まかなガイドとして使用できます。
また、この例では、0.50に近づくにつれて精度の分散が最大化されるため、標準誤差は弱学習器であるモデルよりも低くなければならないため、正確なモデルで必要な複製は少なくなります。
HTH、
マックス