分類器への入力として「存在しない」データを処理する方法について、良いテキストや例を実際に見つけたことはありません。欠落しているデータについてたくさん読んだことがありますが、多変量入力に関連して存在できない、または存在しないデータについて何ができるでしょうか。これは非常に複雑な質問であり、使用するトレーニング方法によって異なります...
たとえば、正確なデータを使用して複数のランナーのラップタイムを予測しようとする場合。多くの入力の中で、多くの中で可能な変数は次のとおりです。
- 入力変数-初回ランナー(Y / N)
- 入力変数-前回のラップタイム(0〜500秒)
- 入力変数-年齢
- 入力変数-高さ。。。より多くの入力変数など
&出力予測-予測ラップタイム(0〜500秒)
「2.Previous laptime」の「欠落変数」は、「1。初めてのランナー」は常にNに等しくなります。しかし、初めてのランナー(「1.初めてのランナー」= Y)の「非存在データ」の場合、「2。前のラップタイム '?
たとえば、 '2。-99または0としての以前のlaptime 'は、分布を劇的に歪め、新しいランナーがうまく機能しているように見せることができます。
私の現在のトレーニング方法は、ロジスティック回帰、SVM、NN&ディシジョンツリーを使用しています