ランダムフォレストはかなり新しいです。過去に、私は常にオーバーフィットを検出するために、フィット対テストの精度とフィット対トレーニングを比較してきました。しかし、私はここでそれを読んだ:
「ランダムフォレストでは、テストセットエラーの公平な推定値を取得するために、相互検証または個別のテストセットは必要ありません。実行中に内部的に推定されます...」
上記の小さな段落は、out-of-bag(oob)エラー推定セクションにあります。このOut of Bag Errorの概念は私にとって全く新しいものであり、少し紛らわしいのは、モデルのOOBエラーが35%(または65%の精度)であることですが、データにクロス検証を適用すると方法)、フィットとテストの両方に対してフィットとテストを比較すると、それぞれ65%の精度と96%の精度が得られます。私の経験では、これは過剰適合と考えられているが、OOBはちょうど私のように35%の誤差を保持しているテスト対フィットエラー。オーバーフィッティングですか?ランダムフォレストで過剰適合をチェックするために相互検証を使用する必要さえありますか?
手短に言えば、フィット感とトレインがオーバーフィッティングであることを示しているときに、テストセットエラーの公平なエラーを得るためにOOBを信頼すべきかどうかはわかりません!