誰かが偽陰性よりも偽陽性の方がはるかに多い理由を誰かが手掛かりを持っていますか(陽性は少数派クラスです)?よろしくお願いします!
なぜなら、ポジティブは少数派だからです。誤検知になる可能性のある否定的な例はたくさんあります。逆に、偽陰性となる可能性のある陽性例は少なくなります。
Recall = Sensitivityあることを思い出してください= TP(TP+ FN)
感度(真陽性率)は、ROC曲線で視覚化される偽陽性率(1特異度)に関連しています。極端な例として、すべての例を正と呼び、100%の感度と100%のFPRがあります。別の例では、正の例を呼び出さず、FPRが0%で感度が0%です。肯定的なクラスが少数派である場合、FPRが比較的小さい場合(recall = sensitive = TPRが高いために発生する可能性があります)でも、FPの数が多くなります(多くの否定的な例があるため)。
以来
= TP(TP+ FP)
FPRが比較的低い場合でも、否定的な例の数がはるかに多い場合、FPはTPを圧倒します。
または、
C+
O+
P(O+| C+)= P(C+| O+)P(O+)P(C+)
ポジティブクラスが小さい場合、P(O +)は低くなります。
私の想起を損なうことなく精度を向上させるために私ができることについて、何かアドバイスはありますか?
@rinspyで述べたように、GBCは私の経験ではうまく機能します。ただし、線形カーネルのSVCよりも遅くなりますが、非常に浅いツリーを作成して高速化できます。また、より多くの機能またはより多くの観察が役立つ場合があります(たとえば、現在のすべてのFPで常に何らかの値に設定されている、現在分析されていない機能がある場合があります)。
ROC曲線と検量線をプロットする価値もあります。分類器の精度が低い場合でも、非常に有用な確率推定につながる可能性があります。たとえば、絶対確率がかなり低い場合でも、ハードドライブの故障の可能性が500倍増加する可能性があることを知っているだけでも、重要な情報になる可能性があります。
また、精度が低いということは、本質的に分類子が多くの誤検知を返すことを意味します。しかし、誤検知が安ければ、これはそれほど悪くないかもしれません。