ランダムフォレストは、元のトレーニングデータのブートストラップサンプル(入力変数と観測値の両方のサンプル)を使用して各ツリーが作成される決定ツリーのアンサンブルを作成することにより機能します。
同様のプロセスを線形回帰に適用できますか?k個の回帰ごとにランダムブートストラップサンプルを使用してk個の線形回帰モデルを作成する
モデルのような「ランダム回帰」を作成しない理由は何ですか?
ありがとう。基本的に誤解していることがあれば教えてください。
ランダムフォレストは、元のトレーニングデータのブートストラップサンプル(入力変数と観測値の両方のサンプル)を使用して各ツリーが作成される決定ツリーのアンサンブルを作成することにより機能します。
同様のプロセスを線形回帰に適用できますか?k個の回帰ごとにランダムブートストラップサンプルを使用してk個の線形回帰モデルを作成する
モデルのような「ランダム回帰」を作成しない理由は何ですか?
ありがとう。基本的に誤解していることがあれば教えてください。
回答:
ランダムフォレストに基づいて構築された方法論は分散を導入するため(ブートストラップされたサンプル+ランダム部分空間法に基づいて作成されたCART)、それらを独立させるため、現在の回答には部分的に同意しません。直交ツリーを作成すると、その予測の平均は(多くの場合)平均ツリーの予測よりも優れている傾向があります(ジェンセンの不等式のため)。この処理の対象となる場合、CARTには顕著な特典がありますが、この方法論はすべてのモデルに確実に適用され、線形モデルも例外ではありません。これがまさにあなたが探しているRパッケージです。それらを調整および解釈する方法と主題に関する参考文献に関する素晴らしいチュートリアル:Random Generalized Linear Modelsを提示します。
機械学習の用語で@ziggystarの応答を言うと、ブートストラップ集約技術(ランダムフォレストなど)の背後にある考え方は、多くの低バイアス、高分散モデルを「ランダム性」または「不安定性」の要素を持つデータに適合させることです。ランダムフォレストの場合、ブートストラップおよびツリーの各ノードを分割する機能のランダムセットを選択することにより、不安定性が追加されます。これらのノイズの多い低バイアスのツリー全体で平均化することにより、個々のツリーの大きな分散が緩和されます。
回帰/分類ツリーは「低バイアス、高分散」モデルですが、線形回帰モデルは通常反対です-「高バイアス、低分散」。したがって、線形モデルでしばしば直面する問題は、分散を減らすのではなく、バイアスを減らすことです。ブートストラップ集約は、単にこれを行うために作られたものではありません。
追加の問題は、ブートストラップが一般的な線形モデルで十分な「ランダム性」または「不安定性」を提供しない可能性があることです。各リーフは通常少数のデータポイントのみを保持するため、回帰ツリーはブートストラップサンプルのランダム性により敏感になると予想されます。さらに、各ノードで変数のランダムなサブセットでツリーを分割することにより、回帰ツリーを確率的に成長させることができます。これが重要である理由については、前の質問を参照してください。ランダムフォレストがm個のランダムフィーチャに基づいて分割されるのはなぜですか?
言われていることはすべて、あなたは確かに線形モデル[LINK]でブートストラップを使用することができ、これは特定のコンテキストで非常に役立ちます。ただし、その動機はブートストラップ集約技術とは大きく異なります。
a_0 + a_1 * x_1 + ... + a_d * x_d
場合、結果の平均線形関数(ブートストラップの集計後)は、開始時と同じ線形関数形式(つまり、「基本学習器」)のままです。