私は通常、物事の効果推定/因果推論の側面に重点を置いています。そこでは、データが欠落している場合の複数の代入にかなり慣れていますが、今は機械学習の側面にあるプロジェクトに取り組んでいます。
我々は持っている期待しているいくつかのそれは現実世界の医療データ、常にいますので、データの欠落を。
一部の協力者の傾向は、完全なデータを持つ被験者のみが使用される完全なケースタイプ分析を使用することですが、これらの欠落したデータパターンが影響を与える可能性があると感じるため、これは少し緊張します。
機械学習タスクの「ベストプラクティス」は、何らかの形の代入を使用することですか?もしそうなら、これは特徴選択の前に行われるべきですか?