不正/不正ではないと分類したいデータセットがあり、弱者がたくさんいます。私の懸念は、詐欺よりも詐欺の方がはるかに多いことです。そのため、私の弱い学習者は平均よりも優れたパフォーマンスを発揮しますが、完全なセットでは50%を超える精度を実行するものはありません。
私の質問は、詐欺の半分で詐欺ではないテストおよびトレーニングセットをセットアップする必要があるのか、それとも代表的なサンプルを使用するだけなのかです。
不正/不正ではないと分類したいデータセットがあり、弱者がたくさんいます。私の懸念は、詐欺よりも詐欺の方がはるかに多いことです。そのため、私の弱い学習者は平均よりも優れたパフォーマンスを発揮しますが、完全なセットでは50%を超える精度を実行するものはありません。
私の質問は、詐欺の半分で詐欺ではないテストおよびトレーニングセットをセットアップする必要があるのか、それとも代表的なサンプルを使用するだけなのかです。
回答:
生成されたデータをデータセットに追加すると、不正/非不正比率が減少し、データセットがより代表的/使用可能になる可能性はありますか?
GenieLogでは、不正検出ツールを設計およびテストするためのテストデータを作成しています。私たちのジェネレーターGEDIS Studioでは、通常のプロファイルと詐欺師プロファイルを定義して、各カテゴリをカスタマイズ可能な比率でインスタンス化できます(たとえば、顧客の2%が生成されたイベントを不正に使用することになります)。
テレコムCDR(http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html)とクレジットカードの使用については、問題なく成功しました。http://www.data-generator.comでオンラインジェネレーターに無料でアクセスできます。
ツールがニーズに合わない場合でも、少なくともアプローチは価値があると確信しています。そうでなければ、私はどんな異論も読むのに興味があります:)
よろしく
特定のクラスが本当に少数派である状況では、まれなカテゴリー検出を使用することをお勧めします。この特定の詐欺/非詐欺のケースでは、詐欺はまれなカテゴリーです。そのアクティブな研究分野- 希少カテゴリーの検出を参照