ランダムフォレストでのLASSOの使用


14

次のプロセスを使用してランダムフォレストを作成します。

  • 情報ゲインを使用して分割を決定し、データとフィーチャのランダムサンプルでツリーを構築します
  • リーフノードが定義済みの深さを超えている場合、または任意の分割の結果、リーフカウントが定義済みの最小値よりも少ない場合、リーフノードを終了します。
  • 各ツリーにクラスラベルを割り当てるのではなく、リーフノードのクラスの割合を割り当てます
  • 事前定義された数が構築された後、ツリーの構築を停止します

これは、2つの方法で従来のランダムフォレストプロセスに対抗します。1つは、クラスラベルではなく比率を割り当てる枝刈りされたツリーを使用します。2つ目は、停止基準は、アウトオブバッグエラーの推定値ではなく、事前に決定されたツリー数です。

私の質問はこれです:

N個のツリーを出力する上記のプロセスの場合、ロジスティック回帰とLASSO選択を使用してモデルを近似できますか?誰もがランダムフォレスト分類器をフィッティングし、ロジスティックLASSOで後処理した経験がありますか?

ISLEフレームワークでは、分類問題ではなく、回帰問題の後処理ステップとしてLASSOを使用することに言及しています。さらに、「ランダムな森のなげなわ」をグーグルで検索しても、役に立つ結果は得られません。


Lassoは、品質がさまざまに異なる場合に便利な機能を見つけて重み付けするのに適しています。あなたの森の中の個々の木は、他の木よりも良くも悪くもならないので、なげなわがあなたを大いに助けるとは思わない。
ルノー

置換せずに小さなフラクションをサンプリングし、ツリーの深さを制限することで、より多様性がもたらされるので、何らかの形の正則化が保証されると思います。
Zelazny7

ロジスティックモデルにどのように適合するかについて、より具体的に説明できますか?予測変数とは正確には何ですか?また、後処理の動機は何ですか?変数の選択を行おうとしている場合、考慮すべき他の方法があります。
アレックスウィリアムズ14年

各ツリーの予測を出力することにより、予測子の新しいデータセットが作成されます。このデータセットをLASSO回帰で使用して、ツリー予測のまばらな組み合わせに到達できます。動機は、より簡潔で生産においてより迅速に実行されるモデルを生産することです。
Zelazny7

最近、同様の問題に遭遇し、フリードマンの元の論文で、彼がバイナリ分類問題のために特別に損失関数を設計したことがわかりました。それが役に立てば幸いです。それに、それをマルチクラス分類問題に拡張する方法についてのアイデアはありますか?または、マルチクラス分類問題に対するあなたのアプローチは何ですか?

回答:


5

これは、勾配ツリーのブーストに似ています。ブースティングのアイデアは、モデルのクラスの最適な線形結合を見つけることです。ツリーをデータに適合させる場合、結果変数を最もよく説明するツリーを見つけようとします。代わりにブースティングを使用する場合、ツリーの最適な線形結合を見つけようとします。

ただし、ブーストを使用すると、ランダムツリーのコレクションがないため、もう少し効率的ですが、まだ十分に予測できない例で機能する新しいツリーを構築しようとします。

詳細については、統計学習の要素の第10章を読むことをお勧めします:http : //statweb.stanford.edu/~tibs/ElemStatLearn/

これはあなたの質問に対する完全な答えではありませんが、役に立つと思います。


3
ありがとう。この質問を最初に投稿してから、RのGBMパッケージに精通しました。私のプロセスでは、10,000個のツリーのGBMモデルを構築し、GLMnetを介して10,000個のツリーすべてを実行して、ツリーでLASSO回帰を実行する必要があります。これにより、パフォーマンスをほとんどまたはまったく損なうことなく、GBMモデルを圧縮することができます(場合によっては向上します)。
Zelazny7

@ Zelazny7難易度の高いホールドアウト/テストデータについてはどうですか?
ジョシュ

はい、私のテストはすべて、開発に何らかの形で通知しない保留状態で行われます。ほとんどの場合、パフォーマンスは低下しません。時々それは少し悪いです、時々それは改善さえします。
Zelazny7

1
@ Zelazny7私も同じ手順で(最後の仕事で)同じ経験をしました。
マシュードゥルーリー

何かをする必要があります... Hastie自身が、ランダムフォレストからのポストプロセッシングツリーまたはLASSOを使用したブーストを提案しています。彼が言及したのは、このビデオの 30:10です。
ジョナサン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.