ランダムフォレスト(RF)は、競合するデータモデリング/マイニング手法です。
RFモデルには、出力/予測変数という1つの出力があります。
RFを使用して複数の出力をモデル化する単純なアプローチは、各出力変数に対してRFを構築することです。したがって、N個の独立したモデルがあり、出力変数間に相関がある場合、冗長/重複モデル構造になります。これは確かに非常に無駄です。また、一般的なルールとして、より多くのモデル変数は、よりオーバーフィットモデル(一般化が少ない)を意味します。ここでこれが当てはまるかどうかはわかりませんが、おそらく当てはまります。
原則として、複数の出力を持つRFを使用できます。予測変数はベクトル(nタプル)になりました。各決定木の決定ノードは、しきい値ベクトルに基づいてターゲット/予測ベクトルのセットを分割しています。このしきい値はn次元空間の平面であると考えられるため、しきい値のどちら側を決定できるかそれぞれのターゲットベクトルがオンになっています。
決定分割の各側の最適な予測値は、各側のベクトルに対して計算された平均(重心)です。
単一変数を操作するときに最適な分割点を見つけるのは簡単で、計算が高速/効率的です。nタプルの場合、最適な分割を見つけることはできません(または、少なくともNが増加すると計算上実行不可能になります)が、モンテカルロタイプの方法(またはモンテカルロとローカルのハイブリッドを使用して、ほぼ最適な分割を見つけることができます。勾配トラバーサル)。
これは実際に機能しますか?つまり、一般化せずにトレーニングペアをマッピングするだけですか?この手法はすでに別の名前で存在していますか?
また、これが制限付きボルツマンマシン(RBM)やDeep Belief Networksなどのニューラルネットにどのように関連するかを検討することもできます。