randomForestにランダム効果(または反復測定)を含めるにはどうすればよいですか


22

質問が意味を成すかどうかはわかりませんが、ランダムな効果を持つランダムフォレストを提案した論文のタイトルを見たと思います。これはRで可能ですか?


1
はい、あまり意味がありません。ランダム効果とはどういう意味ですか?
シモーネ14年

ランダム効果を(1 |効果)として含めることができるlmer関数でできることと似たようなことを考えています。
mguzmann 14年

これは、ランダムフォレストでのシミュレーテッドアニーリングですか? econpapers.repec.org/article/bpjjqsprt/...の researchgate.net/publication/...
EngrStudent -復活モニカ

2
あなたがアドレスを見ている方法がどのようなランダム性であるかはよくわかりません。ランダムフォレストは、ツリーを無相関化することにより、バギングよりも単純な改善です。「ランダム」と呼ばれる理由は、どのような場合でも、ツリーで分割が考慮されると、分割候補がp個の予測子のランダムサブセットmから選択されるという事実です。通常、m〜sqrt(p)。また、分割が発生するたびに、予測子のランダムなサブセットが選択されるため、ランダムフォレストが選択されます。
psteelk 14

回答:


13

それらは通常一緒に使用されることはないため、それらを組み合わせる前に注意が必要です。

通常、ランダムフォレストは分類子として使用されます。別の方法(K平均クラスタリングなど)の代わりにランダムフォレストを使用する理由は、分類するディメンションが多数ある可能性があるためです。ディメンションの数が多い場合の問題は、ディメンションの順序のすべての組み合わせをテストする場合、選択肢が多数あることです(ディメンションの階乗の数よりも速く増加します)。

ランダム効果は通常、同じことを繰り返し測定する回帰で使用されます。これらは、混合という用語が固定効果とランダム効果の両方を指す混合効果モデルで一般的に使用されます。固定効果は、再び表示されるパラメーター(たとえば、薬物や年齢)を表すと考えられます。ランダム効果は、今後は表示されないパラメーター(特定の人物など)の変動のインスタンスを表すと考えられます。

クラスター化されたデータがある場合にそれらを一緒に使用する例がありますhttp://dx.doi.org/10.1080/00949655.2012.741599およびhttp://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf

私は、この分析を行うことができるRパッケージを知りません。


2
さらに、この作業の著者は、実装のRコードを喜んで共有します。それらをメールで送信してください。それは私がやったことです。
ブラッシュ均衡14

Larocqueに連絡しました。LarocqueはHajjamに連絡しました。
ブラッシュ平衡14

2
ただし、公正な警告として、使用可能なRコードは、連続データのランダムフォレストのみを実装します。カテゴリデータを処理するには、拡張する必要があります。
ブラッシュ平衡14

10

ええ、それは可能です。「RE-EMツリー:縦断的およびクラスター化されたデータのデータマイニングアプローチ」および関連するRパッケージREEMtreeを確認する必要があります。

論文を見てからしばらく経ちました。著者はまだこれらの木のアンサンブルを形成しようとしていないが、それが機能しないことを示唆するものはなかったことを思い出す。


1
REEMtreeは、ランダムフォレストに適用されるランダム効果ではありません。再帰的分割に適用されます。これは、ランダムフォレストモデルの一部にすぎません。だから、この答えがビル・デニーのものよりも高いスコアに値するとは思わない。残念ながら、それに対する私の賛成票はロックされています。
乱暴な均衡14

1
さあ、木を手に入れたら、森を建てるのはどれくらい難しいですか?どういたしまして。
ベンオゴレク14

1
ランダムフォレストがブートストラップサンプリングに追加する方法、試行するランダムに選択された機能の数の調整、ツリー結果の集約などを見て、その中の個々のツリーの予測ではなく、ランダムフォレストの予測にランダムな効果が必要ですフォレストでは、REEMtreeを拡張することは、ビルが引用した記事を読んでその著者にRコードを要求するほど良い解決策ではありません。
ブラッシュ平衡14

8

混合効果ランダムフォレスト(MERF)は重要です。上記の答えが述べているように、HECモントリオールのラロック博士のグループによるそれらに関するいくつかの素晴らしい研究があります。論文はここにある:http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599

本質的に、ランダムフォレストの非線形モデリングと線形ランダム効果を組み合わせる理論的に健全な方法です。

上記のアルゴリズムを使用してMERFを実装するPythonのオープンソースパッケージをリリースしました。

パッケージとクラスター化されたデータセットでの使用方法に関する詳細なブログ記事を作成しました。


1
Rでこれを実装するか、部分的な依存関係プロット機能を追加することについての考え
OliverFishCode
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.