回答:
分類器を1回だけトレーニングする場合は、おそらくMcNemarのテストを選択します。また、David Barberは、私にとってはかなりエレガントに見えるが、あまり使用されていない、かなりきちんとしたベイジアンテストを提案しています(彼の本にも記載されています)。
追加するだけで、Peter Flomが言うように、答えはほとんど間違いなく「はい」です。パフォーマンスの違いとサンプルのサイズを見るだけです(引用された数字はトレーニングセットのパフォーマンスではなくテストセットのパフォーマンスです)。
ちなみに、JapkowiczとShahは「学習アルゴリズムの評価:分類の観点」に関する最近の本を読んでいますが、私はそれを読んでいませんが、これらの種類の問題の有用な参照のようです。
何も実行しなくても、その違いは統計的に非常に重要であることがわかります。IOTT(眼間外傷テスト-眼の間を打つ)に合格します。
ただし、テストを実行する場合は、2つの比率のテストとして実行できます。これは、2サンプルのt検定で実行できます。
ただし、「精度」をそのコンポーネントに分解することもできます。感度と特異性、または偽陽性と偽陰性。多くのアプリケーションでは、さまざまなエラーのコストはまったく異なります。
この場合、精度は正しく分類されたサンプルの割合であるため、2つの割合のシステムに関する仮説検定を適用できます。
ましょう及びそれぞれ分類1および2から得られた精度であり、そしてサンプル数です。分類器1および2で正しく分類されたサンプルの数は、それぞれおよびです。
検定統計量は次によって与えられます
where
私たちの意図は、分類器2のグローバルな精度、つまりが分類器1 のグローバルな精度であることを証明することです。これは、仮説を
拒否領域は次のように与えられます
(trueの場合、を拒否し、を受け入れ)H a
ここで、z_は、有意水準関係する標準正規分布から取得されます。例えば、有意水準5%の、です。つまり、リレーションが真の場合、95%の信頼レベル()で、分類器2は分類器1よりも正確であると言えます。 α Z 0.5Z < - 1.645 1 - α
参照: