機械学習と欠落データ:インピュート、そうであればいつ?


7

私は通常、物事の効果推定/因果推論の側面に重点を置いています。そこでは、データが欠落している場合の複数の代入にかなり慣れていますが、今は機械学習の側面にあるプロジェクトに取り組んでいます。

我々は持っている期待しているいくつかのそれは現実世界の医療データ、常にいますので、データの欠落を。

一部の協力者の傾向は、完全なデータを持つ被験者のみが使用される完全なケースタイプ分析を使用することですが、これらの欠落したデータパターンが影響を与える可能性があると感じるため、これは少し緊張します。

機械学習タスクの「ベストプラクティス」は、何らかの形の代入を使用することですか?もしそうなら、これは特徴選択のに行われるべきですか?


1
予測の素晴らしい点は、何が機能しているかを調べに行くことができることです。理論が必要なのは何かが機能する理由を知りたい場合だけです。
generic_user 2018

@generic_userまたは、= p
user20160の

回答:


2

一部の協力者の傾向は、完全なデータを持つ被験者のみが使用される完全なケースタイプ分析を使用することですが、これらの欠落したデータパターンが影響を与える可能性があると感じるため、これは少し緊張します。

あなたの直感は正しいと私は主張しますが、欠けているデータは強力な予測力を持っている可能性があり、捨てるべきではありません。

問題は、欠落しているデータをどうするかであり、ここに2つのオプションがあります(多くのうち)

  • 欠落データを処理できる決定木ベースのアルゴリズムを使用します。特に、欠落しているカテゴリカルデータを独自のカテゴリとして扱います。たとえば、XGboost、Light GBM、Catboost、またはその他の高度なツリーアルゴリズム

  • NANを処理できない他のアルゴリズム(たとえば、ロジスティック回帰、ニューラルネットワークなど)の場合:欠損データに何らかの形の代入を使用します。これは、データの分布の形状と詳細に依存します。平均は常に最良のアイデアであるとは限らず、最頻値またはパーセンタイルの方が良い場合があります

あなたが予測力に主に興味を持っているなら、私はKaggleコンペティションの標準となっているツリーベースのアルゴリズムを使用することをお勧めします(大成功です)


1
回帰の場合、is_missing欠落が予測力を持っていると思われる場合は、新しいバイナリ機能を作成することは完全に合理的であることに言及する価値があります。
Matthew Drury、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.