まず、データマイニングの書籍で使用されるいくつかの一般的なレイアウトについて説明し、不均衡なデータセットの処理方法を説明します。通常、メインセクションの名前はUnbalanced Datasetsで、これらの2つのサブセクション、コスト重視の分類とサンプリングテクニックについて説明します。
まれなクラスの問題に直面すると、コストに敏感な分類とサンプリングの両方を実行できるようです。代わりに、まれなクラスも分類の対象であり、そのクラスのレコードの誤分類がコストがかかる場合は、コストに敏感な手法を適用する必要があると思います。
一方、オーバーサンプリングやアンダーサンプリングなどのサンプリング手法は、特定のクラスに焦点を当てることなく、分類のターゲットが全体的に良好な精度である場合に役立ちます。
この信念は、分類子をコスト重視にする一般的な方法であるMetaCostの理論的根拠に由来しています:まれなクラスの誤分類エラーにペナルティを課すために分類子をコスト重視にする場合、他のクラスをオーバーサンプリングする必要があります。大まかに言えば、分類器は他のクラスに適応しようとし、まれなクラスに固有になります。
これは、まれなクラスをオーバーサンプリングすることの反対であり、通常、この問題に対処するために推奨される方法です。まれなクラスのオーバーサンプリングまたは他のクラスのアンダーサンプリングは、全体の精度を向上させるのに役立ちます。
私の考えを確認していただければ幸いです。
これを述べると、不均衡なデータセットが直面する一般的な質問は次のとおりです。
他のレコードと同じくらい多くのまれなレコードをカウントするデータセットを取得しようとする必要がありますか?
私の答えは、正確さを求めている場合です。OK。よりまれなクラスの例を見つけるか、他のクラスの一部のレコードを削除して実行できます。
コストに敏感な手法でレアクラスに焦点を当てている場合は、答えます。レアクラスの例を見つけることはできますが、他のクラスのレコードは削除しないでください。後者の場合、分類器を他のクラスに適応させることはできず、まれなクラスの誤分類エラーが増加する可能性があります。
あなたは何に答えますか?