現在、テキストから抽出されたさまざまなエンティティでいくつかの異なる分類子を使用しており、特定のデータセット全体でそれぞれの分類子がどれだけうまく機能しているかの要約として精度/リコールを使用しています。
これらの分類器のパフォーマンスを同様の方法で比較する有意義な方法があるかどうか疑問に思っていますが、分類されているテストデータの各エンティティの総数も考慮しますか?
現在、パフォーマンスの尺度として精度/リコールを使用しているため、次のようなものがあります。
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
ただし、これらを実行しているデータセットには、10万人、5万社、500チーズ、1卵が含まれている可能性があります。
では、上記の表に追加できる要約統計量はありますが、これは各アイテムの合計数も考慮に入れていますか?または、たとえば、卵分類器の100%prec / recが1つのデータ項目だけでは意味がないかもしれないという事実を測定する方法はありますか?
このような分類子が何百もあったとしましょう。「どの分類子がパフォーマンスが低いのか、どの分類子がパフォーマンスが低いかどうかを判断するのに十分なテストデータがない」などの質問に答える良い方法を探していると思います。