次のプロセスを使用してランダムフォレストを作成します。
- 情報ゲインを使用して分割を決定し、データとフィーチャのランダムサンプルでツリーを構築します
- リーフノードが定義済みの深さを超えている場合、または任意の分割の結果、リーフカウントが定義済みの最小値よりも少ない場合、リーフノードを終了します。
- 各ツリーにクラスラベルを割り当てるのではなく、リーフノードのクラスの割合を割り当てます
- 事前定義された数が構築された後、ツリーの構築を停止します
これは、2つの方法で従来のランダムフォレストプロセスに対抗します。1つは、クラスラベルではなく比率を割り当てる枝刈りされたツリーを使用します。2つ目は、停止基準は、アウトオブバッグエラーの推定値ではなく、事前に決定されたツリー数です。
私の質問はこれです:
N個のツリーを出力する上記のプロセスの場合、ロジスティック回帰とLASSO選択を使用してモデルを近似できますか?誰もがランダムフォレスト分類器をフィッティングし、ロジスティックLASSOで後処理した経験がありますか?
ISLEフレームワークでは、分類問題ではなく、回帰問題の後処理ステップとしてLASSOを使用することに言及しています。さらに、「ランダムな森のなげなわ」をグーグルで検索しても、役に立つ結果は得られません。
Lassoは、品質がさまざまに異なる場合に便利な機能を見つけて重み付けするのに適しています。あなたの森の中の個々の木は、他の木よりも良くも悪くもならないので、なげなわがあなたを大いに助けるとは思わない。
—
ルノー
置換せずに小さなフラクションをサンプリングし、ツリーの深さを制限することで、より多様性がもたらされるので、何らかの形の正則化が保証されると思います。
—
Zelazny7
ロジスティックモデルにどのように適合するかについて、より具体的に説明できますか?予測変数とは正確には何ですか?また、後処理の動機は何ですか?変数の選択を行おうとしている場合、考慮すべき他の方法があります。
—
アレックスウィリアムズ14年
各ツリーの予測を出力することにより、予測子の新しいデータセットが作成されます。このデータセットをLASSO回帰で使用して、ツリー予測のまばらな組み合わせに到達できます。動機は、より簡潔で生産においてより迅速に実行されるモデルを生産することです。
—
Zelazny7
最近、同様の問題に遭遇し、フリードマンの元の論文で、彼がバイナリ分類問題のために特別に損失関数を設計したことがわかりました。それが役に立てば幸いです。それに、それをマルチクラス分類問題に拡張する方法についてのアイデアはありますか?または、マルチクラス分類問題に対するあなたのアプローチは何ですか?
—
泉