私の質問は、分類器/モデルのトレーニング/フィッティング中に不完全なデータを処理する手法に関するものです。
たとえば、数百行のデータセットでは、各行が5つのディメンションと最後のアイテムとしてクラスラベルを持っているとすると、ほとんどのデータポイントは次のようになります。
[0.74、0.39、0.14、0.33、0.34、0]
いくつかは次のようになります。
[0.21、0.68、?、0.82、0.58、1]
したがって、この質問の焦点はこれらの種類のデータポイントです。
この質問をする最初の理由は、目の前の問題でした。しかし、質問を投稿する前に、コミュニティのより大きな部分に回答が役立つように、言い換える方が便利だと思いました。
単純なヒューリスティックとして、これらのデータ処理手法を、処理フロー中にそれらが採用されるタイミングに基づいて分類しましょう。分類器への入力前または処理中です(つまり、手法は分類器内にあります)。
後者について考えられる最良の例は、ディシジョンツリーで使用される巧妙な「3方向分岐」技術です。
間違いなく、前者のカテゴリははるかに大きいです。私が知っているテクニックはすべて、以下のグループのいずれかに分類されます。
最近、「データ処理の欠落」に関する個人的なメモを確認していると、かなり印象的なテクニックのリストがあることに気付きました。一般的な安心のためにこれらのメモを保持しているだけで、後輩の同僚から欠落データの処理方法を尋ねられた場合に備えて。実際には、最後の1つを除いて、実際には使用しません。
代入:欠落したデータが推定/予測ではなく置換である同じデータセットによって直接供給されることを共通の特徴とする一連の手法の広範なルーブリック。
再構成:自動連想ネットワーク(入力層と出力層のサイズが等しいニューラルネットワーク、つまり、出力が入力と同じ次元を持つ)を使用して、欠落しているデータポイントを推定します。ここでのアイデアは、このネットワークを完全なデータでトレーニングし、不完全なパターンを送り、出力ノードから欠損値を読み取ることです。
ブートストラップ:(要約は必要ありません、統計分析の他の場所で使用されているので、考えてはいけません)。
拒否:トレーニングセットから欠落または破損した要素のあるデータポイントを静かに削除し、存在しないふりをします。
modern
テクニックを説明する論文を私に指摘してくれますか?ありがとう
mice
は、jstatsoft.org / article / view / v045i03という JSSに関する入門書があります。(Rを使用していない場合でも、この紹介は役立つはずです。)そして、RパッケージにAmelia
は、パッケージに含まれている素敵なビネットがあります。これら2つのパッケージは詳細が異なりますが、両方とも複数の代入を使用します。