これは、分類において興味深い非常に頻繁な問題です-意思決定ツリーだけでなく、実質的にすべての分類アルゴリズムにおいて。
経験的にわかったように、いずれかのクラスの異なる数の代表で構成されるトレーニングセットは、多数派に偏った分類器になる可能性があります。同様に不均衡なテストセットに適用すると、この分類器は楽観的な精度の推定値を生成します。極端な場合、分類子はすべてのテストケースを多数決クラスに割り当て、それによって多数決クラスに属するテストケースの割合に等しい精度を達成する場合があります。これは、バイナリ分類でよく知られている現象です(当然、マルチクラス設定にも拡張されます)。
これは重要な問題です。データセットが不均衡だと、パフォーマンスの見積もりが大きくなる可能性があるためです。これは、アルゴリズムが偶然よりも優れたパフォーマンスを発揮した重要性に関する誤った結論につながる可能性があります。
このトピックに関する機械学習の文献では、基本的に3つのソリューション戦略が開発されています。
大きいクラスをアンダーサンプリングするか、小さいクラスをオーバーサンプリングすることにより、トレーニングセットのバランスを回復して、そもそもバイアスが発生しないようにすることができます。
あるいは、バイアスを防ぐために、前の応答で述べたように、誤分類のコストを変更することもできます。
ϕ := 12(π++ π−)、π+π−
上記のアプローチのうち少なくとも2つを組み合わせて検討することをお勧めします。たとえば、マイノリティクラスをオーバーサンプリングして、分類器が多数派クラスに有利なバイアスを獲得しないようにすることができます。これに続いて、分類器のパフォーマンスを評価するときに、精度をバランスの取れた精度に置き換えることができます。2つのアプローチは相補的です。一緒に適用すると、元の問題を防ぎ、それに続く誤った結論を回避するのに役立ちます。
これについてフォローアップしたい場合は、文献への追加の参考文献を投稿させていただきます。