バイナリクラス属性を持つデータセットがあります。クラス+1(癌陽性)のインスタンスは623個、クラス-1(癌陰性)のインスタンスは101,671個あります。
私はさまざまなアルゴリズム(ナイーブベイズ、ランダムフォレスト、AODE、C4.5)を試してみましたが、それらはすべて許容できない偽陰性率を持っています。ランダムフォレストは、全体の予測精度が最も高く(99.5%)、偽陰性率が最も低くなりますが、陽性クラスの79%は見落とします(つまり、悪性腫瘍の79%を検出できません)。
この状況を改善するにはどうすればよいですか?
ありがとう!