PRの値が1つしかない場合、精度-再現率曲線を作成するにはどうすればよいですか?


12

コンテンツベースの画像検索システムを作成するデータマイニングの割り当てがあります。5匹の動物の画像が20枚あります。つまり、合計100枚の画像になります。

私のシステムは、最も関連性の高い10個の画像を入力画像に返します。次に、Precision-Recall曲線を使用してシステムのパフォーマンスを評価する必要があります。しかし、私はプレシジョンリコール曲線の概念を理解していません。私のシステムがゴリラ画像に対して10個の画像を返すとしましょう。ただし、ゴリラは4つだけです。返される他の6つの画像は他の動物のものです。したがって、

  • 精度は4/10 = 0.4(関連性が返される)/(すべて返される)
  • 再現率は4/20 = 0.2(関連性が返される)/(すべての関連)

つまり<0.2,0.4>、カーブではなくポイントしかありません。曲線(つまり、ポイントのセット)はどのように作成しますか?返される画像の数を変更する必要がありますか(これは私の場合10に固定されています)?


2
ほとんどのモデルは、クラス自体ではなく、クラスに属する確率を割り当てます。または、分類子から1つを絞り込みます。曲線は、確率のカットオフを変更することによって得られます。使用している分類子について言及すると、より詳細な回答が得られる可能性があります。
charles 14

特徴ベクトル(色、テクスチャ、形状)を計算し、それぞれの類似度スコアを取得し、それらを合計して合計類似度スコアにし、降順で並べ替えます。上位10の画像インデックスが最も関連性の高いものです。画像は(20匹のゴリラ、20キリンなど)を注文しているので、私は完全に概念分類器/記述などを理解していないので、私は自分自身を明らかにした期待した画像インデックスからクラスインデックスを取得することができます
ジェフ

質問をよく読んでいないことに気づきました。あなたは2つのクラスの問題(ゴリラ/ノーゴリラ)を抱えていたと思いました。私を越えて複数のクラスの方法では、これが役立つことがあります。stats.stackexchange.com/questions/2151/...
チャールズ

回答:


11

PRカーブの生成は、ROCカーブの生成に似ています。このようなプロットを描くには、テストセットの完全なランキングが必要です。このランキングを作成するには、バイナリの回答ではなく決定値を出力する分類器が必要です。決定値は、すべてのテストインスタンスをランク付けするために使用できる予測の信頼度の尺度です。一例として、ロジスティック回帰とSVMの決定値は、それぞれ分離超平面への確率と(符号付き)距離です。

決定値を破棄する場合は、その決定値に一連のしきい値を定義します。これらのしきい値は、分類子のさまざまな設定です。たとえば、保守主義のレベルを制御できます。ロジスティック回帰の場合、デフォルトのしきい値はますが、全範囲を調べることができます。通常、しきい値は、モデルがテストセットに対して生成した一意の決定値になるように選択されます。0 1 f(x)=0.5(0,1)

しきい値を選択するたびに、モデルは異なる予測を生成します(たとえば、異なる数の正と負の予測)。そのため、精度の異なるタプルのセットを取得し、すべてのしきい値でリコールします。たとえば、タプルのセットです。PR曲線は、ペアに基づいて描画されます。P iR i(Ti,Pi,Ri)(Pi,Ri)

私があなたのコメントを正しく理解していれば、計算した類似性スコアの合計を決定値として使用できます。


これは私には明確ではありませんが、OPの動物の画像検索の状況に似た詳細な例で作業できますか?
MR
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.