単純ベイズ分類器を使用して、2つのデータグループを分類しています。データの1つのグループが他のグループよりもはるかに大きい(4倍以上)。分類器の各グループの事前確率を使用しています。
問題は、私が得た結果の真陽性率が0%、偽陽性率が0%であるということです。以前の値を0.5と0.5に設定した場合も同じ結果が得られました。
しきい値をより良いものに設定して、よりバランスの取れた結果を得るにはどうすればよいですか?
ロジスティック回帰分類器を使用すると、同様の問題が発生しました。バイアスから前期を差し引くことで解決しました。
このデータでフィッシャー線形判別を使用すると、中間に設定されたしきい値で良い結果が得られます。
この問題にはいくつかの一般的な解決策があると思いますが、見つけることができませんでした。
更新:私は分類器が過剰適合していることに気づきました。トレーニングセットのパフォーマンスは完璧です(100%正確)。
同じグループを使用すると、分類子は「小さな」グループにも分類を開始しますが、パフォーマンスはかなり低くなります(FLDまたはLRよりも悪い)。
UPDATE2:問題は、完全な共分散行列を使用していたことでした。対角共分散行列で実行すると、より「バランスの取れた」結果が得られました。