希少性が事実に反する多数のイベントによるものである場合、「まれな」イベントによる教師あり学習

13

市場で買い手と売り手の間の「一致」を観察できると仮定します。また、買い手と売り手の両方の特性を観察して、将来の一致を予測し、市場の両側に推奨事項を作成することもできます。

簡単にするために、N人の買い手とN人の売り手がいて、それぞれが一致するものを見つけると仮定します。N個の一致と（N-1）（N-1）個の不一致があります。すべてを含むトレーニングデータセットには、N +（N-1）*（N-1）個の観測値がありますが、これは非常に大きくなる可能性があります。（N-1）（N-1）の不一致からランダムにサンプリングし、その削減されたデータでアルゴリズムをトレーニングすると、より効率的になると思われます。私の質問は：

（1）トレーニングデータセットを構築するための不一致からのサンプリングは、この問題に対処する合理的な方法ですか？

（2）（1）が真の場合、含める（N-1）（N-1）のチャンクの大きさを決定する厳密な方法はありますか？

machine-learning

— ジョン・ホートン
ソース

11

私が正しく理解している場合、2つのクラスの分類の問題があり、陽性のクラス（一致）はまれです。多くの分類子はこのようなクラスの不均衡に苦しんでおり、より良いパフォーマンスを得るために多数派クラスをサブサンプリングするのが一般的な慣習であるため、最初の質問に対する答えは「はい」です。ただし、サブサンプリングが多すぎると、少数派の陽性クラスを過剰に予測する分類器になってしまいます。そのため、最善の方法は、おそらくクロスサンプリングを最小化して、パフォーマンスを最大化するサブサンプリング比率を選択することですテストデータがサブサンプリングされていないため、運用パフォーマンスの良い指標が得られる検証エラー。

クラスメンバーシップの確率の推定値を提供する確率的分類器を使用している場合は、トレーニングセットと動作中のクラス頻度の差を補正するために、出力を後処理して改善することができます。一部の分類器の最適なアプローチは、交差検証エラーを最適化することにより、サブサンプリング比と出力の補正の両方を最適化することだと考えています。

サブサンプリングではなく、一部の分類子（SVMなど）では、正と負のパターンに異なる重みを付けることができます。特定のサブサンプルが使用されているため、結果にばらつきがないことを意味するため、これはサブサンプリングよりも好まれます。これが不可能な場合は、ブートストラップを使用してバギングされた分類器を作成します。この場合、各反復で多数派クラスの異なるサブサンプルが使用されます。

私が言いたいもう1つのことは、一般的にクラスの不均衡が大きい場合、偽陰性エラーと偽陽性エラーは等しく悪いわけではなく、これを分類器設計に組み込むことは良い考えです（サブによって達成することができます-各クラスに属するサンプリングまたは重み付けパターン）。

— ディクラン・マースピアル
ソース

3

（+1）ただし、ランキングの目標（測定：AUC）と2つのクラスの分離（測定：精度）の間で区別する必要があると思います。前者の場合、Naive Bayesのような確率的分類を考えると、不均衡の役割は小さいと思います。または、この場合も心配する必要がありますか？別の質問：「出力を後処理する」とはどういう意味ですか？スコアを実際の確率に変換しますか？

— ステフェン

@Steffen私の直感では、クラスの不均衡の問題はランキングの問題ではありませんが、完全に消えることはありません（この問題に関する論文を執筆中ですので、解決する価値があります）。後処理とは、出力に操作セットとトレーニングセットのクラス頻度の比率を掛けてから、すべての可能な結果の確率が1になるように再正規化することを意味しました。ただし、実際には、実際の最適なスケーリング係数は多少異なる可能性が高いため、XVALで最適化します（ただし、再度正規化します）。

— ディクランマースピアル

1

（1）について。意味のある結果が必要な場合は、正と負の観測値を保持する必要があります。
（2）データにアプリオリが存在しない場合、均一分布よりも賢いサブサンプリング方法はありません。

— うご
ソース

Ugoに感謝します。トレーニングデータには、一致と不一致の両方が必ず必要です。問題は、（N-1）（N-1）の不一致がいくつ必要かということです。パート（2）については、すべての観測値で同じ重みで確実にサンプリングします。

— ジョンホートン

データにアプリオリがない場合、データをサンプリングする合理的な方法はありません。そのため、均一なサンプリングを行う必要があります。この場合、より多くのデータを取得するほど効果的です。ただし、サンプリングによって生じるエラーを推定することはできますが、この点で役立つ情報はここにありません。

— Ugo

エラーは使用する分類子のタイプに依存するように思えます。とにかく、いつでも異なるサンプルレートで予測し、導入されたエラーが満足できると思うしきい値を修正しようとすることができます。

— ウゴ