まず第一に、私は「正確さ」が時々少し誤解を招くのを見つけます。
システムまたはメソッド(私は分析化学者です)を評価するための一般的な精度という用語は、予測の偏りを指します。
ご存知のように、分類子のパフォーマンスのさまざまな側面に答えるさまざまなパフォーマンス指標がたくさんあります。それらの1つは、偶然にも精度と呼ばれています。あなたの論文が機械学習/分類の読者を対象としていない場合は、この区別を明確にすることをお勧めします。このより具体的な正確さの意味についても、クラスの不均衡を処理するいくつかの方法が発生する可能性があるため、私は正確度と呼ばれるものを非常に明確にします。通常、クラスの不均衡は無視され、よく知られた計算につながります。ただし、感度と特異度の平均を使用することもできます。これは、平均を重み付けしてクラスの不均衡を制御することになります。TP+TNall cases
F-スコアは、しばしば精度と再現率の調和平均(又は陽性予測値及び感度)として導入されます。あなたの質問については、これをもう少し詳しく説明して簡略化すると役立つと思います:
F=2⋅precision⋅recallprecision+recall=2TPall PTPallTTPall P+TPallT=2TP2all P⋅allTTP⋅all Tall P⋅allT+TP⋅all Pall P⋅allT=2 TP2TP⋅all T+TP⋅all P=2 TPall T+all P
最後の表現は、テストケースの特定のグループとして考えることができるものの一部ではありません。特に、TRUEとPOSITIVEのケースの間には(大きな)重複が予想されます。これは、Fスコアをパーセンテージとして表現することを妨げます。実際、Fスコアにはそのような解釈がないことを読者に警告したいと思います。