アウトオブバッグエラーにより、ランダムフォレストでCVが不要になりますか?


15

ランダムフォレストはかなり新しいです。過去に、私は常にオーバーフィットを検出するために、フィット対テストの精度とフィット対トレーニングを比較してきました。しかし、私はここでそれを読んだ:

「ランダムフォレストでは、テストセットエラーの公平な推定値を取得するために、相互検証または個別のテストセットは必要ありません。実行中に内部的に推定されます...」

上記の小さな段落は、out-of-bag(oob)エラー推定セクションにあります。このOut of Bag Errorの概念は私にとって全く新しいものであり、少し紛らわしいのは、モデルのOOBエラーが35%(または65%の精度)であることですが、データにクロス検証を適用すると方法)、フィットとテストの両方に対してフィットとテストを比較すると、それぞれ65%の精度と96%の精度が得られます。私の経験では、これは過剰適合と考えられているが、OOBはちょうど私のように35%の誤差を保持しているテスト対フィットエラー。オーバーフィッティングですか?ランダムフォレストで過剰適合をチェックするために相互検証を使用する必要さえありますか?

手短に言えば、フィット感とトレインがオーバーフィッティングであることを示しているときに、テストセットエラーの公平なエラーを得るためにOOBを信頼すべきかどうかはわかりません!


OOBは、ハイパーパラメーターの決定に使用できます。それ以外は、私にとっては、モデルのパフォーマンスを推定するために、相互検証を使用する必要があります。
-Metariat

@Matematticaハイパーパラメーターについて話すとき、正確に何について話しているのですか?申し訳ありませんトピックの知識の私の不足のために
jgozal

各反復でランダムに選択されたツリーとフィーチャの数
Metariat

これは完全に異なる質問であることは知っていますが、エラーから各反復でツリーの数と特徴のサンプルをどのように決定しますか?
jgozal

1
これが役立つかもしれません:stats.stackexchange.com/a/112052/78313一般に、RFでこのような違いを見たことはありません!
-Metariat

回答:


21
  • トレーニングエラー(などpredict(model, data=train))は、通常は役に立ちません。(非標準の)木の枝刈りをしない限り、アルゴリズムの設計により0を大きく超えることはできません。ランダムフォレストは、決定木のツリーのブートストラップ集約を使用します。これは、1最近傍分類器のトレーニングエラーのようなものです。

  • ただし、このアルゴリズムは、本質的に集計モデルのエラーのブートストラップ外推定であるアウトオブバッグ誤差推定を計算する非常にエレガントな方法を提供します。out-of-bagエラーは、特定のケースなしでトレーニングされたツリーの部分の予測を集約するための推定エラーです。 入力データ行間に依存性がない場合、out-of-bagエラーに対して集約されたモデルは独立しているだけです。つまり、各行= 1つの独立したケース、階層データ構造なし/クラスタリングなし/反復測定なし。1e

    そのため、out-of-bagエラーは相互検証エラーとまったく同じではありません(集約するためのツリーが少なく、トレーニングケースのコピーが多くなります)が、実際的な目的では十分に近いです。

  • 過剰適合を検出するために見るのが理にかなっているのは、out-of-bagエラーを外部検証と比較することです。ただし、データのクラスタリングについて知らない限り、「単純な」相互検証エラーはout-of-bagエラーと同じ楽観的バイアスになりやすく、分割は非常に類似した原則に従って行われます。
    適切に設計されたテスト実験でこれを検出するには、アウトオブバッグまたはクロス検証をエ​​ラーと比較する必要があります。


11

out-of-bagエラーは有用であり、他のパフォーマンス推定プロトコル(クロス検証など)を置き換える場合がありますが、注意して使用する必要があります。

交差検証と同様に、out-of-bagサンプルを使用したパフォーマンス推定は、学習に使用されなかったデータを使用して計算されます。データがサンプル間で情報を転送する方法で処理されている場合、推定値は(おそらく)バイアスされます。頭に浮かぶ簡単な例は、機能の選択や欠損値の代入の実行です。どちらの場合も(特に機能選択の場合)、データセット全体からの情報を使用してデータが変換され、推定にバイアスがかかります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.