回答:
基本的な考え方は、欠落データの迅速な置換を行い、近接性を使用して欠落補完を繰り返し改善することです。ラベルなしデータを操作するには、すべてのラベルを付けてデータを複製し、ラベル付きデータとして扱います。
観測値のペアが末端ノードを共有する木の割合は、近接行列を与えるため、クラスラベルを明示的に使用します。
トレーニングセット:
満足するまで繰り返します:
a。これまでに計算された帰属値を使用して、ランダムフォレストをトレーニングします。
b。近接行列を計算します。
c。近接度を重みとして使用して、欠損値を非欠損値の加重平均として代入します。
テストセット:
ここで、(加重)平均は、数値変数の(加重)中央値とカテゴリー変数の(加重)モードを指します。参考文献では、4〜6回の反復が推奨されています。
sklearn.ensemble.RandomForestClassifier
このデータはトレーニングデータで処理されますか、それとも無視して自分で行う必要がありますか?
MICEの複数の代入にランダムフォレストを使用して、生存分析で欠落しているデータを処理しようとしました。ブートストラップを使用して、補完モデルのサンプリングの変動を考慮しました。代入フォレストモデルに含まれていない予測子変数間に相互作用があった場合、ランダムフォレストMICEはパラメトリックMICEよりもパフォーマンスが優れていることがわかりました。
CALIBERrfimputeパッケージは、MICEにランダムフォレストの帰属のための機能を提供します。
http://cran.r-project.org/web/packages/CALIBERrfimpute/index.html
これは、シミュレートされたデータと実際の疫学的データセットに対するメソッドのテストを説明する記事です。http:
//dx.doi.org/10.1093/aje/kwt312