ランダムフォレストの補完


8

ランダムフォレスト(特にRのrandomForest)を(予測子空間で)欠損値補完に使用することについて、2つの質問があります。

1)代入アルゴリズムはどのように機能しますか?特に、代入にクラスラベルがどのようにそしてなぜ必要なのですか?クラスごとに定義された欠損値を補完するために平均値に重みを付ける役割を果たす近接行列は何ですか?

2)欠損値を補完するためにクラスラベルが必要な場合-これを使用して、予測しようとしている新しいデータの欠損値を補完する方法を教えてください。

回答:


8

基本的な考え方は、欠落データの迅速な置換を行い、近接性を使用して欠落補完を繰り返し改善することです。ラベルなしデータを操作するには、すべてのラベルを付けてデータを複製し、ラベル付きデータとして扱います。

観測値のペアが末端ノードを共有する木の割合は、近接行列を与えるため、クラスラベルを明示的に使用します。

トレーニングセット:

  1. 欠損値を平均値で置き換えます。
  2. 満足するまで繰り返します:

    a。これまでに計算された帰属値を使用して、ランダムフォレストをトレーニングします。

    b。近接行列を計算します。

    c。近接度を重みとして使用して、欠損値を非欠損値の加重平均として代入します。

テストセット:

  1. ラベルが存在する場合は、テストデータから派生した補完を使用します。
  2. データがラベル付けされていない場合は、各クラスラベルのコピーを使用してテストセットを複製し、ラベル付けされたデータを使用して続行します。

ここで、(加重)平均は、数値変数の(加重)中央値とカテゴリー変数の(加重)モードを指します。参考文献では、4〜6回の反復が推奨されています。

Rドキュメンテーション(pdf)ブレイマンのマニュアルv4.0(pdf)ブレイマンのRFページ


2
このアルゴリズムを複数の代入に適応できるかどうか、そしてこのアルゴリズムが適切な量の変動性を持ち、代入モデルの不確実性を説明できるかどうかについて、もっと知りたいと思います。
フランクハレル2013

1
フランク、それの説明から、十分なばらつきがあるとは思えません。ターミナルクラスからホットデッキを描画すると、うまくいく場合があります。ツリー成長アルゴリズムがオーバーフィットする傾向がある場合でも、変動は抑制されますが、条件付き平均または条件付き分位を使用する場合ほどではありません。繰り返しになりますが、これは一般的に、代入法がどのように機能するかに関する私の直感です。
StasK 2013

1
コホーズ、ありがとうございます。これは私がその後学んだことを裏付けるものです。問題は、ターゲット変数を使用して構築されているランダムフォレストです。Rには、教師なし代入に使用できる紙を含むmissForestパッケージがあります:ncbi.nlm.nih.gov/pubmed/22039212
B_Miner

質問した場合、sklearn.ensemble.RandomForestClassifierこのデータはトレーニングデータで処理されますか、それとも無視して自分で行う必要がありますか?
Abhishta Gatya

3

MICEの複数の代入にランダムフォレストを使用して、生存分析で欠落しているデータを処理しようとしました。ブートストラップを使用して、補完モデルのサンプリングの変動を考慮しました。代入フォレストモデルに含まれていない予測子変数間に相互作用があった場合、ランダムフォレストMICEはパラメトリックMICEよりもパフォーマンスが優れていることがわかりました。

CALIBERrfimputeパッケージは、MICEにランダムフォレストの帰属のための機能を提供します。
http://cran.r-project.org/web/packages/CALIBERrfimpute/index.html

これは、シミュレートされたデータと実際の疫学的データセットに対するメソッドのテストを説明する記事です。http
//dx.doi.org/10.1093/aje/kwt312


3
@ user37364へようこそ。これらのリンクをありがとう。linkrotの場合に備えて、それらについて少し詳しく説明してもらえますか?将来の読者は、クリックする前に、それらを追求したいかどうかを判断できますか?
ガン-モニカを回復

@ user37364さん、こんにちは!あなたが発表した論文を見ましたが、データセットにマウスを使ってランダムフォレストを適用することはできません。ここに質問を投稿しました:stackoverflow.com/questions/24239595/…。MICEの経験がある場合、これらのエラーを解決する方法を知っていますか?ありがとう
psoares 2014年

こんにちは、私はちょうどあなたの論文、そしてこのスレッドに出くわしました。この方法は、過去1年半にわたってどのように行われてきましたか?しわが発見されましたか?
generic_user 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.