不均衡なクラスをオーバー/アンダーサンプリングする場合、精度の最大化は誤分類コストの最小化と異なりますか?


14

まず、データマイニングの書籍で使用されるいくつかの一般的なレイアウトについて説明し、不均衡なデータセットの処理方法を説明します。通常、メインセクションの名前はUnbalanced Datasetsで、これらの2つのサブセクション、コスト重視の分類とサンプリングテクニックについて説明します。

まれなクラスの問題に直面すると、コストに敏感な分類とサンプリングの両方を実行できるようです。代わりに、まれなクラスも分類の対象であり、そのクラスのレコードの誤分類がコストがかかる場合は、コストに敏感な手法を適用する必要があると思います。

一方、オーバーサンプリングやアンダーサンプリングなどのサンプリング手法は、特定のクラスに焦点を当てることなく、分類のターゲットが全体的に良好な精度である場合に役立ちます。

この信念は、分類子をコスト重視にする一般的な方法であるMetaCostの理論的根拠に由来しています:まれなクラスの誤分類エラーにペナルティを課すために分類子をコスト重視にする場合、他のクラスをオーバーサンプリングする必要があります。大まかに言えば、分類器は他のクラスに適応しようとし、まれなクラスに固有になります。

これは、まれなクラスをオーバーサンプリングすることの反対であり、通常、この問題に対処するために推奨される方法です。まれなクラスのオーバーサンプリングまたは他のクラスのアンダーサンプリングは、全体の精度を向上させるのに役立ちます。

私の考えを確認していただければ幸いです。

これを述べると、不均衡なデータセットが直面する一般的な質問は次のとおりです。

他のレコードと同じくらい多くのまれなレコードをカウントするデータセットを取得しようとする必要がありますか?

私の答えは、正確さを求めている場合です。OK。よりまれなクラスの例を見つけるか、他のクラスの一部のレコードを削除して実行できます。

コストに敏感な手法でレアクラスに焦点を当てている場合は、答えます。レアクラスの例を見つけることはできますが、他のクラスのレコードは削除しないでください。後者の場合、分類器を他のクラスに適応させることはできず、まれなクラスの誤分類エラーが増加する可能性があります。

あなたは何に答えますか?


2
まれなクラスの新しいレコードを「見つける」ことは不可能かもしれません。データがこのように構造化されているのは、よりまれなクラスのイベントを作成するのに費用がかかる(バイオインフォマティクス)かリスクがある(銀行ローン)ためだと思います。
ステフェン

もちろん、しかしそれは一般的な提案された解決策です。ただし、よりまれなクラスの例を見つけることができれば、他の例も見つけることができるかもしれません。トレーニングセットはレコードユニバースの代表的なサンプルである必要があるためです。したがって、オーバーサンプリングを実行しているように見えます。
シモーヌ

回答:


9

いい質問ですね。個人的には、データが多ければ多いほど世界のモデルは良くなるので、データを捨てることは理にかなっていません(計算上の理由がない限り)。したがって、コスト関数をタスクに適した方法で変更するだけで十分であることをお勧めします。たとえば、ある特定のまれなクラスに興味がある場合、このクラスの誤分類をより高価にすることができます。バランスの取れた測定に関心がある場合は、バランスエラー率(各クラスのエラーの平均)やマシューズ相関係数などが適切です。全体的な分類エラー、つまり従来の0-1損失のみに関心がある場合。

問題に対する最新のアプローチは、アクティブラーニングを使用することです。たとえば、 Hospedales et al(2011)「希少クラスの発見:生成モデルと判別モデルによる能動学習、IEEE知識とデータエンジニアリングに関するトランザクション(TKDE 2011)。しかし、これらのアプローチはまだ比較的成熟していないと思います。


バランスのとれた測定が必要な場合に備えて、Metthewsの興味深い測定を行います。ただし、レコードを削除したくない場合は、コスト関数のサンプリングまたは変更を実行する前に、まれなクラス例を追加してデータセットのバランスを取り直しますか?答えはノーだと思います。まれなクラスの例を見つける限り、他の例を見つけることができるからです。したがって、より良いバランスのとれた測定値またはよりまれなクラスのパフォーマンス測定値(F測定値など)を取得するには、データ収集フェーズ後にのみテクニック(サンプリングやコストのmodなど)を実行します。同意しますか?
シモーヌ

同意して、このような操作はデータ収集フェーズの後に実行する必要があります。
tdc
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.