私は最近、機械学習/統計学習の「クラスの不均衡問題」について多くのことを考えてきましたが、何が起こっているのか分からないという感覚をさらに深めています。
まず、用語を定義(または試行)します。
クラス不均衡問題マシン/統計的学習では1クラスに0のクラスの割合が非常に偏っているとき、いくつかのバイナリ分類(*)アルゴリズムはうまく機能しないという観察です。
したがって、たとえば、上記の例では、すべての1クラスごとに100個のクラスがある場合、クラスの不均衡は1から100または1 %です。
私が見た問題の声明のほとんどは、十分な資格と考えるもの(どのモデルが苦労しているのか、不均衡が問題であるか)を欠いており、これが私の混乱の原因の1つです。
機械学習/統計学習の標準テキストの調査では、ほとんど何もわかりません。
- 統計斜の要素と統計的学習の概要は、インデックス内の「クラスの不均衡」を含んでいません。
予測データ分析の機械学習では、インデックスに「クラスの不均衡」も含まれていません。
マーフィーの機械学習:確率的観点に は、インデックスに「クラスの不均衡*」が含まれています。SVMのセクションを参照しますが、次の興味深いコメントが見つかりました。
SVMは確率を使用して不確実性をモデル化しないため、これらの困難、およびそれらを修正するために提案された多数のヒューリスティックが根本的に発生するため、出力スコアはクラス間で比較できないことに注意してください。
このコメントは私の直観と経験を思い起こさせます:私の以前の仕事では、ロジスティック回帰と勾配ブーストツリーモデルを(二項対数尤度を最小化するために)不均衡なデータ(クラスの不均衡の程度)に、パフォーマンスの明らかな問題。
私は(どこかで)分類木ベースのモデル(木自体とランダムフォレスト)もクラスの不均衡の問題に苦しんでいると読みました。これにより、水が少し濁り、ツリーは何らかの意味で確率を返します。つまり、ツリーの各終端ノードのターゲットクラスの投票レコードです。
まとめると、私が本当に望んでいるのは、クラスの不均衡問題(存在する場合)を引き起こす力の概念的な理解です。
- 不適切に選択されたアルゴリズムと怠algorithmsなデフォルトの分類しきい値を使用して自分自身で行うことですか?
- 適切なスコアリング基準を最適化する確率モデルを常に当てはめると消えますか?別の言い方をすれば、原因は単に損失関数の不適切な選択、つまり、厳密な分類ルールと全体的な精度に基づいてモデルの予測力を評価することですか?
- その場合、適切なスコアリングルールを最適化しないモデルは役に立たない(または少なくとも有用性が低い)か?
(*)分類とは、バイナリ応答データに適合する統計モデルを意味します。私はない、それはかもしれないが、私の目標は、一つのクラスにハード譲渡またはその他であると仮定します。
poor choice of loss function
リストに追加するのを忘れました。損失関数としての適切なスコアリングルールについても、これは真実だと思いますか?