回答:
いいえ、それは受け入れられません。繰り返しは証拠の重みを提供するものです。
重複を削除すると、四つ葉のクローバーは通常の三つ葉のクローバーと同じくらい重要になります。これは、それぞれが一度だけ発生するためですが、実際には、10,000個の通常のクローバーごとに四つ葉のクローバーがあります。
あなたの事前知識が「かなり歪んでいる」としても、あなたが言うように、トレーニングセットの目的は、実際の経験を蓄積することです。これは、頻度情報を失うと達成できません。
私は前の回答に同意しますが、ここに私の予約があります。ディシジョンツリーなどの特定の分類子のトレーニングとテストのためにサンプルを分離するときに、重複を削除することをお勧めします。たとえば、データの20%が特定のクラスに属していて、それらのがテストに浸透した場合、ディシジョンツリーなどのアルゴリズムは、重複するサンプルを使用してそのクラスへのゲートウェイを作成します。本質的に正しい出力への非常に特定のゲートウェイがあるため、これはテストセットに誤解を招く結果をもたらす可能性があります。
その分類子を完全に新しいデータに展開する場合、上記の20%のサンプルと同様のサンプルがないと、驚くほどパフォーマンスが低下する可能性があります。
議論:この状況は欠陥のあるデータセットを指していると主張する人もいるかもしれませんが、これは実際のアプリケーションに当てはまると思います。
ニューラルネットワーク、ベイジアンモデルなどの重複を削除することはできません。