たとえば、AUCを使用してランダムフォレストの品質を評価する場合、Out of Bag Samplesまたはホールドアウトクロス検証セットでこれらの数量を計算する方が適切ですか?
OOBサンプルで計算すると、より悲観的な評価が得られると聞いていますが、その理由はわかりません。
たとえば、AUCを使用してランダムフォレストの品質を評価する場合、Out of Bag Samplesまたはホールドアウトクロス検証セットでこれらの数量を計算する方が適切ですか?
OOBサンプルで計算すると、より悲観的な評価が得られると聞いていますが、その理由はわかりません。
回答:
注: 私の答えはおそらく正しいと思いますが、この質問を約30〜60分間読んだ後にだけこの問題について考えて、すべてを補ったという事実のために、私も疑問を感じます。したがって、あなたは懐疑的であり、これを精査し、おそらく自信過剰な書き方にだまされないでください(大きな言葉と派手なギリシャのシンボルを使用しても、私が正しいとは限りません)。
これは単なる要約です。すべての詳細は、セクションに記載されている及び以下。
分類のケースを想定してみましょう(回帰にも拡張できますが、簡潔にするために省略します)。基本的に、私たちの目標は、樹木の森の誤差を推定することです。out-of-bagエラーとk-fold交差検証の両方は、以下の確率を教えようとします。
次の確率と同じです:
そして、両方とも同一です。唯一の違いは、k分割交差検証とOOBEが異なるサイズの学習サンプルを想定していることです。例えば:
したがって、私の見解では、OOBEが森林の誤差の悲観的な推定である唯一の理由は、k倍交差検証(通常10倍が一般的)で通常行われるよりも少ないサンプル数で通常訓練されるためです。
そのため、2倍の交差検証はOOBEよりも森林の誤差の悲観的な推定になり、3倍の交差検証はOOBEにほぼ等しく悲観的になると考えています。
RFの各ツリーは、学習セットXからランダムに抽出されたサンプルのリストによって成長します。この方法では、n個の多数のサンプルが重複する可能性があり、n = | X | Xのサンプルの約3分の1 が、特定のツリーの成長に使用されるnサンプルのリストに含まれない可能性が高いことがわかります(これらは、この特定のツリーのout-of-bagサンプルです。このプロセスはツリーごとに独立して繰り返されるため、各ツリーにはout-of-bagサンプルの異なるセットがあります。
それでは、対処がより簡単になるような平等な記述を見つけることを期待して、バギングを少し違った方法で説明しましょう。
私は木のことを示すことによって、これを行うセットで袋詰めしたサンプルによって訓練されたX T ⊆ X。ただし、セットX tには重複したサンプルがないため(これがセットの動作)、サンプルのnリストには重複がある可能性があるため、これは厳密には正しくありません。
したがって、我々は、ツリーと言うことができ分析試料によって成長さX Tプラスから引き出されたランダムに選択された複製の数Xと T、すなわちX T 、1、X T 、2、... 、X 、T 、R ⊆ X T、ようにそれ: | X t | + r ∑ i = 1 | X t 、i | = n
この集合コレクションから、各要素を単に追加するだけで、重複を含むn個のサンプルのリストを定義できることは簡単ですセットC I ∈ C配列にA。このように、いずれかの1つの≤ P ≤ N、の少なくとも一つの値が存在するIように[ P ] ∈ C Iを。
我々はまた、リストことを確認することができアレイ内のサンプル私はいくつかの特定の定義のためにそれを見るために自明である項1に定義されて袋詰めの一般化であるXの T Iは、このセクションで定義されていること(§ 2) 、配列aのサンプルのリストは、セクション1で定義されているサンプルのリストとまったく同じです。
配列aのサンプルでツリーを成長させる代わりに、X tのみで見つかる重複のないインスタンスのリストでそれらを成長させます。
そして、特定の分割に対してエントロピーが体系的に変化しないと考える理由は、(決定分割を適用した後)サブセットに特定のラベルを持つサンプルの経験的に測定された確率も変化しないためです。