複数の出力を持つランダムフォレストは可能/実用的でしょうか?


17
  1. ランダムフォレスト(RF)は、競合するデータモデリング/マイニング手法です。

  2. RFモデルには、出力/予測変数という1つの出力があります。

  3. RFを使用して複数の出力をモデル化する単純なアプローチは、各出力変数に対してRFを構築することです。したがって、N個の独立したモデルがあり、出力変数間に相関がある場合、冗長/重複モデル構造になります。これは確かに非常に無駄です。また、一般的なルールとして、より多くのモデル変数は、よりオーバーフィットモデル(一般化が少ない)を意味します。ここでこれが当てはまるかどうかはわかりませんが、おそらく当てはまります。

原則として、複数の出力を持つRFを使用できます。予測変数はベクトル(nタプル)になりました。各決定木の決定ノードは、しきい値ベクトルに基づいてターゲット/予測ベクトルのセットを分割しています。このしきい値はn次元空間の平面であると考えられるため、しきい値のどちら側を決定できるかそれぞれのターゲットベクトルがオンになっています。

決定分割の各側の最適な予測値は、各側のベクトルに対して計算された平均(重心)です。

単一変数を操作するときに最適な分割点を見つけるのは簡単で、計算が高速/効率的です。nタプルの場合、最適な分割を見つけることはできません(または、少なくともNが増加すると計算上実行不可能になります)が、モンテカルロタイプの方法(またはモンテカルロとローカルのハイブリッドを使用して、ほぼ最適な分割を見つけることができます。勾配トラバーサル)。

これは実際に機能しますか?つまり、一般化せずにトレーニングペアをマッピングするだけですか?この手法はすでに別の名前で存在していますか?

また、これが制限付きボルツマンマシン(RBM)やDeep Belief Networksなどのニューラルネットにどのように関連するかを検討することもできます。


グーグルの「マルチラベルランダムフォレスト」は、これがいくつかの明確な方法で行われていることを示しています。とにかく、私は音楽情報検索でこの多バイナリrfsアプローチで遊んでいて、それはかなりうまくいっていました。

1
この記事をお勧めします。彼らはあなたが説明したものに非常に近い何かをします。
ドミトリーラプ

2
これは、パーティパッケージおよび他のいくつかのパッケージ(R言語)に既に存在します。
ジェイス14年

回答:


8

複数の出力決定ツリー(したがって、ランダムフォレスト)が開発および公開されています。Pierre Guertzはこのためのパッケージを配布しています(ダウンロード)。シーガル&シャオ、多変量ランダムフォレスト、ワイヤーデータマイニングKnowl Discov 2011 1 80–87、DOI:10.1002 / widm.12も参照してください。最先端技術の優れたレビューは、「マルチ出力ランダムフォレスト」と題されたHenrik Linussonの論文にあります。各ノードで分割を選択する最も簡単な方法は、出力変数の1つをランダムに選択してから、通常のランダムフォレストアプローチに従って分割を選択することです。各入力特徴と出力変数に関する相互情報スコアの加重和に基づく他の方法が開発されましたが、それらはランダム化アプローチと比較して非常に高価です。


-1

ここで述べたように

scikit-learnのすべての分類子は、すぐにマルチクラス分類を行います。

それにはランダムフォレストが含まれます。

また、http//scikit-learn.org/stable/modules/tree.html#tree-multioutputのページには、このトピックに関する多くの参照があります。


8
明確にするために; 質問はマルチ出力回帰に関連しています
-redcalx

:scikit-学ぶ申し出は、例えば、同様回帰を多出力のように申し訳ありませんが、私の返事が遅れのためにそれが見えます scikit-learn.org/stable/auto_examples/tree/... そして、どのような場合には、1のフィッティングで構成戦略がありますターゲットごとのリグレッサー。これは、マルチターゲット回帰をネイティブにサポートしない回帰変数を拡張するための単純な戦略です。scikit
learn.org
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.