なぜ回帰ランダムフォレスト予測の平均を取るのですか?


8

私が読んだすべての(回帰)ランダムフォレストペーパーで、すべての木の予測を収集するときが来たら、平均値を予測として使用します。

私の質問は、なぜそれを行うのですか?

平均を取るための統計的正当性はありますか?

編集:質問を明確にするために、私は他の集約関数を使用することが可能であることを知っています(分類にはモードを使用します)。



ここでは、画像の説明を入力します。ここでの参照があります:クラスラベルの一部対確率にsebastianraschka.com/Articles/...
PauAI

回答:


5

バイアス分散のトレードオフの観点から、平均化について常に考えてきました。私が記憶に正しければ、Leo Breimanは、randomForestの論文でこれについてほのめかし、「...ノイズに対してより堅牢である」と述べました。

説明は次のようになります。基本的に、あなたは完全に伸びた一束の樹木を刈り取っています-剪定はありません-それであなたは彼らがそれぞれ自分自身でバイアスされることを知っています。ただし、フォレスト内の各ツリーを誘導するランダムサンプリングは、オーバーバイアスと同じくらい頻繁にアンダーバイアスを誘導する必要があります。したがって、平均を取ることで、各ツリーのバイアスを取り除きます。うまくいけば、このプロセスでは、各ツリーの分散も減らすので、全体的な分散も減らす必要があります。

投稿の他の回答が示すように、これが平均化の唯一の理由ではない可能性があります。


1
これを受け入れると、答えは平均が特定の理論的動機ではなく「直感」から選択されているように見えるため、GLMの理論的動機付けの回答とは対照的です:stats.stackexchange.com/q/174390/16052
Bar

1
@Barと決定木では、問題はグローバルな最適化がNP困難であるため、貪欲な最適化が行われることです。各ツリーの貪欲な最適化では、フォレストについてはわかりません。残念ながら、この問題の数学は、私たちのどちらかが望んでいるほど開発されていません。
Lucas Roberts

5

平均を使用する場合、2つのことを言っています。

  1. 外れ値は大きな問題ではありません(それ以外の場合は、中央値を使用するか、少なくとも平均を取る前にいくつかの外れ値を除外します)
  2. すべての予測の重みは同じです(そうでなければ、重みを考慮に入れます)

大きな外れ値が存在することを期待するべきではありません。サンプルサイズを十分に大きくして、それらが平均で問題にならないようにし、個々のツリーの予測から最小限の安定性を期待できるからです。

一部のツリーが他のツリーよりも予測的な重みを持つべきだと考える理由はなく、そのような重みを決定する方法もありません。

予測は連続的なスケールであるため、実際にはモードを使用できません。たとえば、予測が80 80 100 101 99 98 97 102 103 104 96である場合、モードは80と予測します。これは望みの結果にはなりません。すべての値に異なる小数がある場合、モードは決定する方法を知りません。

相乗平均や調和平均など、算術平均以外の平均が存在します。それらは、一連のデータにいくつかの低い値がある場合、平均を引き下げるように設計されています。それもここで望むものではありません。


1
外れ値が問題になる場合は、ウィンザー化またはトリミングされた平均など、中央値とサンプル平均の間に代替値があり、中央値よりも効率的である一方で優れた外れ値保護を提供できます。
kjetil b halvorsen 2017年

3

もちろん、特定の状況で役立つ任意の集計関数を使用できます。中央値は、小さなサンプルを外れ値に対してロバストにする良い方法です。回帰フォレストでは、通常、サンプルサイズに影響を与えて、サンプルサイズが小さいという問題を回避できます。したがって、平均は非常に大きなユースケースで理にかなっているようです。


1

中央値、モード、またはその他の集計関数を使用することも可能ではないでしょうか?

ランダムフォレストの分類(つまり、確率の推定ではない)は、予測(大多数の投票)のモードに基づいているため、好きなように結果を集計できます。


回答ありがとうございます。質問に説明を追加しました。他の集計関数を使用することは可能であることはわかっていますが、平均の選択に理論的な理由があるかどうかは疑問です。
バー

1

まず最初に。他の多くの人々があなたが他の測定基準を使うことができると言ったように、平均は「デフォルト」オプションです。

デフォルトのオプションとして、いくつかの穏やかな条件下で機能する関数を設定します

考えてみれば、ランダムフォレストは木のコレクションであり、これらの各ツリーには数値応答変数を推定する目的があります。

さらに、@ David Ernstが正しく言及しているように:

一部のツリーが他のツリーよりも予測的な重みを持つべきだと考える理由はなく、そのような重みを決定する方法もありません。

さらに、これらのツリーに異なる標準偏差があると考える理由はありません。再び、穏やかな条件下で!

そうは言っても、多数の弱い法則のために、平均は機能するはずです。


-1

アンサンブルで。平均化では、過半数ではなく信頼を優先します。

3つのツリーがある例

2人は22%の信頼でAに投票し、1人は90%の信頼でBに投票しました。

過半数を使用する場合、投票Aを取得します。平均22、N、N信頼を使用する場合、投票Bを取得します。平均90、N、N

他の大多数よりも22%だけの信頼度があるので、90%の信頼度で行くのが理にかなっています。


あなたの主張が何であるか私にははっきりしていません。おそらくそれを明確にするために編集できますか?100のAと1つのBだけが同じ信頼度のセットを持つ場合はどうなりますか?
mdewey
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.