私が見た限りでは、これについては意見が異なる傾向があります。ベストプラクティスは、クロス検証の使用を確実に指示します(特に、同じデータセットでRFを他のアルゴリズムと比較する場合)。一方、元のソースでは、OOBエラーがモデルトレーニング中に計算されるという事実は、テストセットのパフォーマンスの指標として十分であると述べています。Trevor Hastieでさえ、比較的最近の講演で、「ランダムフォレストは無料の相互検証を提供する」と述べています。直感的に、これは、1つのデータセットでRFベースのモデルをトレーニングおよび改善しようとする場合、私には理にかなっています。
これについてどう思いますか?
3
これは質問の主要なポイントを扱っていませんが、おそらく二次パラメータ(木の深さなど)を相互検証する必要があります
—
Wouter
RFを使用したり、トレーニングセットのパフォーマンスに関して他のアプローチと比較したり、データの独立/サブセットを使用してパフォーマンスをテストしたりできます。それはあなたの仮説の問題です。RFの特性ではなく、より大きな母集団に結果を一般化しようとしているのか、それとも手元のデータを分類しようとしているのか、です。
—
カチャ2015