ランダムフォレストでのモデリングには交差検証が必要ですか?


10

私が見た限りでは、これについては意見が異なる傾向があります。ベストプラクティスは、クロス検証の使用を確実に指示します(特に、同じデータセットでRFを他のアルゴリズムと比較する場合)。一方、元のソースでは、OOBエラーがモデルトレーニング中に計算されるという事実は、テストセットのパフォーマンスの指標として十分であると述べています。Trevor Hastieでさえ、比較的最近の講演で、「ランダムフォレストは無料の相互検証を提供する」と述べています。直感的に、これは、1つのデータセットでRFベースのモデルをトレーニングおよび改善しようとする場合、私には理にかなっています。

これについてどう思いますか?


3
これは質問の主要なポイントを扱っていませんが、おそらく二次パラメータ(木の深さなど)を相互検証する必要があります
Wouter

RFを使用したり、トレーニングセットのパフォーマンスに関して他のアプローチと比較したり、データの独立/サブセットを使用してパフォーマンスをテストしたりできます。それはあなたの仮説の問題です。RFの特性ではなく、より大きな母集団に結果を一般化しようとしているのか、それとも手元のデータを分類しようとしているのか、です。
カチャ2015

回答:


3

OOBエラーは、ブートストラップサンプルにこの特定の観測がなかったツリーのみを使用して、観測ごとに計算されます。この関連質問を参照してください。これは、特定の観測が特定のブートストラップサンプルにある確率がため、2重交差検証とほぼ同じです。1(11N)N1e10.6

@Wouterが指摘するように、おそらくパラメーターチューニングの相互検証を実行する必要がありますが、テストセットエラーの推定値として、OOBエラーは問題ありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.