まれなインスタンスを「学習」する難しさ

モデル（SVM、Neural-Net、kNNなど）が「まれな」インスタンス/尾の現象を学習するのが難しいことを示す結果はありますか？

machine-learning lg.learning pac-learning

— ダニエル
ソース

回答をすぐに受け入れたと思います-良い回答ですが、他にも可能性があるかもしれません。

— usul 2018

@usulコメントありがとうございます。他に何か提案はありますか？追加の考えを聞いてうれしいでしょう。

— Daniel

従来のPAC学習（つまり、分類）モデルでは、まれなインスタンスは問題になりません。これは、学習者のテストポイントがトレーニングデータと同じ分布に由来すると想定されているためです。したがって、空間の領域が非常にまばらで、トレーニングサンプルで十分に表現されていない場合、テストフェーズ中に出現する確率は低くなります。

タイプIとタイプIIのエラー、またはおそらく組み合わせた精度再現スコアを明示的に調べる別の学習モデルが必要になります。ここでも、特定のクラスのアルゴリズムがこのタスクに特に適していることを示す結果はないと思いますが、私は間違っている可能性があります。

私が考えることができる最も近いものは、外れ値に対する感度です---たとえば、AdaBoostはこの特性を持っていることが知られています。

— アリーエ
ソース