分類のためにトレーニングセットから重複を削除する


9

分類問題のための行がたくさんあるとしましょう:

バツ1バツNY

どこ機能/予測因子であると、行の機能の組み合わせが属するクラスです。バツ1バツNY

多くの特徴の組み合わせとそれらのクラスがデータセットで繰り返されています。これは、分類器を適合させるために使用しています。重複を削除することは許容できるかどうか疑問に思っていgroup by X1 ... XN Yます(基本的にSQLでa を実行します)?ありがとう。

PS:

これは、クラスの事前分布がかなり歪んでいるバイナリプレゼンスのみのデータセット用です。

回答:


13

いいえ、それは受け入れられません。繰り返しは証拠の重みを提供するものです。

重複を削除すると、四つ葉のクローバーは通常の三つ葉のクローバーと同じくらい重要になります。これは、それぞれが一度だけ発生するためですが、実際には、10,000個の通常のクローバーごとに四つ葉のクローバーがあります。

あなたの事前知識が「かなり歪んでいる」としても、あなたが言うように、トレーニングセットの目的は、実際の経験を蓄積することです。これは、頻度情報を失うと達成できません。


1

私は前の回答に同意しますが、ここに私の予約があります。ディシジョンツリーなどの特定の分類子のトレーニングとテストのためにサンプルを分離するときに、重複を削除することをお勧めします。たとえば、データの20%が特定のクラスに属していて、それらのがテストに浸透した場合、ディシジョンツリーなどのアルゴリズムは、重複するサンプルを使用してそのクラスへのゲートウェイを作成します。本質的に正しい出力への非常に特定のゲートウェイがあるため、これはテストセットに誤解を招く結果をもたらす可能性があります。14th

その分類子を完全に新しいデータに展開する場合、上記の20%のサンプルと同様のサンプルがないと、驚くほどパフォーマンスが低下する可能性があります。

議論:この状況は欠陥のあるデータセットを指していると主張する人もいるかもしれませんが、これは実際のアプリケーションに当てはまると思います。

ニューラルネットワーク、ベイジアンモデルなどの重複を削除することはできません。


別の実行可能な解決策は、発生頻度に基づいて重複をより低い重み付けすることです。
Rakshit Kothari
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.