私が読んだすべての(回帰)ランダムフォレストペーパーで、すべての木の予測を収集するときが来たら、平均値を予測として使用します。
私の質問は、なぜそれを行うのですか?
平均を取るための統計的正当性はありますか?
編集:質問を明確にするために、私は他の集約関数を使用することが可能であることを知っています(分類にはモードを使用します)。
私が読んだすべての(回帰)ランダムフォレストペーパーで、すべての木の予測を収集するときが来たら、平均値を予測として使用します。
私の質問は、なぜそれを行うのですか?
平均を取るための統計的正当性はありますか?
編集:質問を明確にするために、私は他の集約関数を使用することが可能であることを知っています(分類にはモードを使用します)。
回答:
バイアス分散のトレードオフの観点から、平均化について常に考えてきました。私が記憶に正しければ、Leo Breimanは、randomForestの論文でこれについてほのめかし、「...ノイズに対してより堅牢である」と述べました。
説明は次のようになります。基本的に、あなたは完全に伸びた一束の樹木を刈り取っています-剪定はありません-それであなたは彼らがそれぞれ自分自身でバイアスされることを知っています。ただし、フォレスト内の各ツリーを誘導するランダムサンプリングは、オーバーバイアスと同じくらい頻繁にアンダーバイアスを誘導する必要があります。したがって、平均を取ることで、各ツリーのバイアスを取り除きます。うまくいけば、このプロセスでは、各ツリーの分散も減らすので、全体的な分散も減らす必要があります。
投稿の他の回答が示すように、これが平均化の唯一の理由ではない可能性があります。
平均を使用する場合、2つのことを言っています。
大きな外れ値が存在することを期待するべきではありません。サンプルサイズを十分に大きくして、それらが平均で問題にならないようにし、個々のツリーの予測から最小限の安定性を期待できるからです。
一部のツリーが他のツリーよりも予測的な重みを持つべきだと考える理由はなく、そのような重みを決定する方法もありません。
予測は連続的なスケールであるため、実際にはモードを使用できません。たとえば、予測が80 80 100 101 99 98 97 102 103 104 96である場合、モードは80と予測します。これは望みの結果にはなりません。すべての値に異なる小数がある場合、モードは決定する方法を知りません。
相乗平均や調和平均など、算術平均以外の平均が存在します。それらは、一連のデータにいくつかの低い値がある場合、平均を引き下げるように設計されています。それもここで望むものではありません。
まず最初に。他の多くの人々があなたが他の測定基準を使うことができると言ったように、平均は「デフォルト」オプションです。
デフォルトのオプションとして、いくつかの穏やかな条件下で機能する関数を設定します
考えてみれば、ランダムフォレストは木のコレクションであり、これらの各ツリーには数値応答変数を推定する目的があります。
さらに、@ David Ernstが正しく言及しているように:
一部のツリーが他のツリーよりも予測的な重みを持つべきだと考える理由はなく、そのような重みを決定する方法もありません。
さらに、これらのツリーに異なる標準偏差があると考える理由はありません。再び、穏やかな条件下で!