ランダムフォレストの評価:OOB vs CV


13

たとえば、AUCを使用してランダムフォレストの品質を評価する場合、Out of Bag Samplesまたはホールドアウトクロス検証セットでこれらの数量を計算する方が適切ですか?

OOBサンプルで計算すると、より悲観的な評価が得られると聞いていますが、その理由はわかりません。

回答:


12

注: 私の答えはおそらく正しいと思いますが、この質問を約30〜60分間読んだ後にだけこの問題について考えて、すべてを補ったという事実のために、私も疑問を感じます。したがって、あなたは懐疑的であり、これを精査し、おそらく自信過剰な書き方にだまされないでください(大きな言葉と派手なギリシャのシンボルを使用しても、私が正しいとは限りません)。

概要

これは単なる要約です。すべての詳細は、セクションに記載されている§1及び§2以下。

分類のケースを想定してみましょう(回帰にも拡張できますが、簡潔にするために省略します)。基本的に、私たちの目標は、樹木の森の誤差を推定することです。out-of-bagエラーとk-fold交差検証の両方は、以下の確率を教えようとします。

  • フォレストは正しい分類を提供します(k-fold相互検証はこの方法でそれを調べます)。

次の確率と同じです:

  • 森の木の多数決は正しい投票です(OOBEはこのように見ます)。

そして、両方とも同一です。唯一の違いは、k分割交差検証とOOBEが異なるサイズの学習サンプルを想定していることです。例えば:

  • 10倍の交差検定では、学習セットは90%ですが、テストセットは10%です。
  • ただし、OOBEでは、各バッグにサンプルがあり、n =サンプルセット全体のサンプルの総数である場合、これは学習セットが実際に約66%(2/3)であり、テストセットが約33%( 3分の1)。nn=

したがって、私の見解では、OOBEが森林の誤差の悲観的な推定である唯一の理由は、k倍交差検証(通常10倍が一般的)で通常行われるよりも少ないサンプル数で通常訓練されるためです。

そのため、2倍の交差検証はOOBEよりも森林の誤差の悲観的な推定になり、3倍の交差検証はOOBEにほぼ等しく悲観的になると考えています。

1. out-of-bagエラーを理解する

1.1バギングに関する一般的な見解

RFの各ツリーは、学習セットXからランダムに抽出されたサンプルのリストによって成長します。この方法では、n個の多数のサンプルが重複する可能性があり、n = | X | Xのサンプルの約3分の1 が、特定のツリーの成長に使用されるnサンプルのリストに含まれない可能性が高いことがわかります(これらは、この特定のツリーのout-of-bagサンプルです。このプロセスはツリーごとに独立して繰り返されるため、各ツリーにはout-of-bagサンプルの異なるセットがあります。nバツnn=|バツ|バツn

1.2。バギングに関する別の見解

それでは、対処がより簡単になるような平等な記述を見つけることを期待して、バギングを少し違った方法で説明しましょう。

私は木のことを示すことによって、これを行うセットで袋詰めしたサンプルによって訓練されたX TX。ただし、セットX tには重複したサンプルがないため(これがセットの動作)、サンプルのnリストには重複がある可能性があるため、これは厳密には正しくありません。tバツtバツバツtn

したがって、我々は、ツリーと言うことができ分析試料によって成長さX Tプラスから引き出されたランダムに選択された複製の数Xと T、すなわちX T 1X T 2... X 、T RX T、ようにそれ: | X t | + r i = 1 | X t i | = ntバツt バツtバツt1バツt2バツtrバツt

|バツt|+=1r|バツt|=n

この集合コレクションから、各要素を単に追加するだけで、重複を含むn個のサンプルのリストを定義できることは簡単ですセットC IC配列にA。このように、いずれかの1つのP N、の少なくとも一つの値が存在するIように[ P ] C IをC={バツtバツt1バツtr}nCCa1pna[p]C

我々はまた、リストことを確認することができアレイ内のサンプル私はいくつかの特定の定義のためにそれを見るために自明である項1に定義されて袋詰めの一般化であるXの T Iは、このセクションで定義されていること(§ 2) 、配列aのサンプルのリストは、セクション1で定義されているサンプルのリストとまったく同じですnaバツt§2a

1.3。バギングの簡素化

配列aのサンプルでツリーを成長させる代わりに、X tのみで見つかる重複のないインスタンスのリストでそれらを成長させます。taバツt

ntバツtta

バツt

そして、特定の分割に対してエントロピーが体系的に変化しないと考える理由は、(決定分割を適用した後)サブセットに特定のラベルを持つサンプルの経験的に測定された確率も変化しないためです。

バツtd

1.4アウトオブバッグエラーの測定

OttOt=バツバツtt

合計 バツ に Ot 正しく分類 t|Ot|
nt
t=1nt合計 バツ に Ot 正しく分類 tt=1nt|Ot|

2. k分割交差検定について

バツnkK={K1K2Knk}K1K2Knk=バツKKjKKKj=

KtK{Kt}

fK{Kt}

f

t=1nk合計 バツ に Kt 正しく分類 ft=1nk|Kt|

f

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.