低確率分類のためのAdaBoostのトレーニングとテスト


7

不正/不正ではないと分類したいデータセットがあり、弱者がたくさんいます。私の懸念は、詐欺よりも詐欺の方がはるかに多いことです。そのため、私の弱い学習者は平均よりも優れたパフォーマンスを発揮しますが、完全なセットでは50%を超える精度を実行するものはありません。

私の質問は、詐欺の半分で詐欺ではないテストおよびトレーニングセットをセットアップする必要があるのか​​、それとも代表的なサンプルを使用するだけなのかです。


1
それぞれ、いくつのサンプルを持っていますか?別の方法として、いくつかの異常値検出アプローチを試して、それを不正データに対してテストすることができます。
jpmuc

バイアスと分散のトレードオフがトレーニングデータに存在する必要があります。
Sreejithc321 2015年

この質問を見たことはありますか:datascience.stackexchange.com/questions/6200/…– image_doctor '14
07/14

分類でさまざまなエラーを発生させるペナルティに不均衡があるため、分類アルゴリズムにコストマトリックスを重ねることを検討することもできます。
image_doctor 2015

このコンテキストでAdaboostを使用する特別な理由はありますか?
image_doctor 2015

回答:


1

生成されたデータをデータセットに追加すると、不正/非不正比率が減少し、データセットがより代表的/使用可能になる可能性はありますか?

GenieLogでは、不正検出ツールを設計およびテストするためのテストデータを作成しています。私たちのジェネレーターGEDIS Studioでは、通常のプロファイルと詐欺師プロファイルを定義して、各カテゴリをカスタマイズ可能な比率でインスタンス化できます(たとえば、顧客の2%が生成されたイベントを不正に使用することになります)。

テレコムCDR(http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html)とクレジットカードの使用については、問題なく成功しました。http://www.data-generator.comでオンラインジェネレーターに無料でアクセスできます

ツールがニーズに合わない場合でも、少なくともアプローチは価値があると確信しています。そうでなければ、私はどんな異論も読むのに興味があります:)

よろしく


0

トレーニングセットは、アプリケーション/アルゴリズムが実際に直面するデータセットを表す必要があります。トレーニングとテストセットを正確に半分の不正と半分の非不正で分割するのではなく、代表的なサンプルを取ることをお勧めします。ただし、トレーニングセットに、分類子のパフォーマンスを向上させるための詐欺の肯定的な例と否定的な例の両方が含まれていることを確認してください。


これはテストセットには当てはまりますが、トレーニングには当てはまりません。これらのような問題には、大多数のインスタンスが詐欺ではないため、オーバーサンプリングが必要です。
デビッド

0

特定のクラスが本当に少数派である状況では、まれなカテゴリー検出を使用することをお勧めします。この特定の詐欺/非詐欺のケースでは、詐欺はまれなカテゴリーです。そのアクティブな研究分野- 希少カテゴリーの検出を参照


0

それはあなたのデータセットに依存すると思います。不均衡なデータセットを処理するには、多くの方法があります。たとえば、https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-setのように検索します。最も簡単な方法は、トレーニングセットとテストセットで同じクラスの分布を使用することだと思います。

少数派クラスが本当に少ない場合は、1クラス分類を試すことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.