サンプルサイズが異なるさまざまな分類器のパフォーマンスの測定


12

現在、テキストから抽出されたさまざまなエンティティでいくつかの異なる分類子を使用しており、特定のデータセット全体でそれぞれの分類子がどれだけうまく機能しているかの要約として精度/リコールを使用しています。

これらの分類器のパフォーマンスを同様の方法で比較する有意義な方法があるかどうか疑問に思っていますが、分類されているテストデータの各エンティティの総数も考慮しますか?

現在、パフォーマンスの尺度として精度/リコールを使用しているため、次のようなものがあります。

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

ただし、これらを実行しているデータセットには、10万人、5万社、500チーズ、1卵が含まれている可能性があります。

では、上記の表に追加できる要約統計量はありますが、これは各アイテムの合計数も考慮に入れていますか?または、たとえば、卵分類器の100%prec / recが1つのデータ項目だけでは意味がないかもしれないという事実を測定する方法はありますか?

このような分類子が何百もあったとしましょう。「どの分類子がパフォーマンスが低いのか、どの分類子がパフォーマンスが低いかどうかを判断するのに十分なテストデータがない」などの質問に答える良い方法を探していると思います。


異なるデータセットでトレーニングされた異なる分類器がある場合、それらを有意義な方法でどのように比較できますか?リンゴとオレンジ、チョークとチーズが思い浮かびます。また、マルチクラス分類器がある場合、精度とリコールをどのように計算しますか?N = 1を知っていても、必ずしも役立つとは限りません。世界に卵が1つしかない場合、卵の分類器は問題ありません。
ブル

同じデータセットでトレーニングされた異なる分類子です。たとえば、リンゴとオレンジに関するドキュメントがあることがわかっているので、リンゴ分類子を実行して、話しているリンゴの種類を特定し、オレンジ分類子をオレンジの種類を特定しますそれについて話します。ドキュメントがリンゴについて99%、オレンジについて1%で、両方の分類子が同じprec / rec(混同行列の行/列の合計)を持っている場合、それぞれの数量の違いを考慮に入れて提示できる情報はありますか?(いいえ、ないかもしれませんが、これは私が満足する答えです)
デイブチャリス14年

回答:


5

統計の信頼区間を調べる必要があります。これは、統計量の不確実性を測定するのに役立ちます。これは主にサンプルサイズの関数です。


2

私の意見では、このような大きなサイズの違いがある場合、パフォーマンスを比較することは困難です。このリンク(ウィキペディアhttp://en.wikipedia.org/wiki/Effect_sizeで確認してください)には、さまざまな戦略があります。

私が提案するのは、分散に関連するものです。たとえば、分類子(100%)と個人分類子(65%)のパフォーマンスを検討します。前の分類子でコミットする最小エラーは100%です。ただし、後者の分類器でコミットできる最小エラーは10e-5です。

したがって、分類子を比較する1つの方法は、この3つのルールhttp://en.wikipedia.org/wiki/Rule_of_three_(statistics)念頭に置いて、パフォーマンスとその変動性を比較することです。

その他の可能性は、PrecisionとRecallの組み合わせであるF-measureであり、エフェクトサイズとは無関係です。


2

クラス内のデータの数はsupport、分類子の数と呼ばれることもあります。結果を信頼できる度合いを示します。たとえば、p値を使用すると、テストを信頼または不信することができます。

使用できるアプローチの1つは、精度と再現率だけでなく、真の陽性率、偽陽性率、特異性、感度、陽性尤度、陰性尤度など、いくつかの分類子パフォーマンス測定を計算し、それらが互いに整合しているかどうかを確認することです。メジャーの1つが最大(100%)で、もう1つが最大でない場合、私の経験では、何かが間違っていることを示していることがよくあります(例:サポート不足、単純分類子、偏分類子など)。分類器のパフォーマンス測定のリストについては、これを参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.