統計的有意性に関する2つの分類器の精度結果をt検定と比較する


17

統計的有意性について2つの分類器の精度を比較したいと思います。両方の分類器は同じデータセットで実行されます。これは、私が読んでいたものから1つのサンプルt検定を使用するべきだと思うように導きます。

例えば:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

これは使用するのに適切なテストですか?もしそうなら、分類器間の精度の差が有意であるかどうかをどのように計算しますか?

または、別のテストを使用する必要がありますか?

回答:


14

分類器を1回だけトレーニングする場合は、おそらくMcNemarのテストを選択します。また、David Barberは、私にとってはかなりエレガントに見えるが、あまり使用されていない、かなりきちんとしたベイジアンテストを提案しています(彼の本にも記載されています)。

追加するだけで、Peter Flomが言うように、答えはほとんど間違いなく「はい」です。パフォーマンスの違いとサンプルのサイズを見るだけです(引用された数字はトレーニングセットのパフォーマンスではなくテストセットのパフォーマンスです)。

ちなみに、JapkowiczとShahは「学習アルゴリズムの評価:分類の観点」に関する最近の本を読んでいますが、私はそれを読んでいませんが、これらの種類の問題の有用な参照のようです。


1
これらの結果を得るために、10倍のクロス検証を実行しています。それは実際には異なるデータセットであることを意味しますか。これが合計サイズで、クロス検証でテスト/トレーニング用に分割されています
クリス

4
各フォールドの精度は独立していないため、ほとんどの統計検定の仮定に違反しますが、おそらく大きな問題にはなりません。私はよく100のランダムトレーニング/テスト分割を使用してから、ウィルコクソンのペアの符号付きランクテストを使用します(両方の分類器に同じランダム分割を使用します)。私は頻繁に小さなデータセットを使用するので、この種のテストを好みます(オーバーフィットに興味があるので)ランダム分割間の変動は分類器間のパフォーマンスの違いに匹敵する傾向があります。
ディクラン有袋類

2
(1)ウィルコクソンのためにランク検定署名対をなす(TOCはこの本になることができ、その約束を果たすことができれば...と書籍へのリンクを必読のすべてのMLS:O)
ステファン

3
また、分類器を比較するために、t検定と署名付きランク検定を使用しました。しかし、この目的のために片側テストを使用して報告するたびに、レビュー担当者から苦労するため、両側テストの使用に戻りました!
BGreene

2
OPがコメントで質問が実際にクロスバリデーションに関するものであると明確にしたことを考えると、おそらくあなたはそのトピックをカバーするためにあなたの答えを広げることを検討しますか?Qを編集できます。これは重要なトピックであり、非常に関連する(または重複する)質問がいくつかありますが、良い答えはありません。上記のコメントでは、CV推定値でペアテストを使用することをお勧めしますが、ここでは非独立性が大きな問題であるとは思わないと言います。何故なの?潜在的に大規模な問題のように思えます!
アメーバは、Reinstate Monica

4

何も実行しなくても、その違いは統計的に非常に重要であることがわかります。IOTT(眼間外傷テスト-眼の間を打つ)に合格します。

ただし、テストを実行する場合は、2つの比率のテストとして実行できます。これは、2サンプルのt検定で実行できます。

ただし、「精度」をそのコンポーネントに分解することもできます。感度と特異性、または偽陽性と偽陰性。多くのアプリケーションでは、さまざまなエラーのコストはまったく異なります。


合意-これは明らかに重要です。Nitpick:検定を使用して2つの比率(およそ)を検定します。これは、が増加するにつれて二項分布が正規分布に収束することに関係しています。セクション5.2をご覧ください。en.wikipedia.org/wiki/Statistical_hypothesis_testingzn
マクロ

考え直して、テストはまだCLTによって漸近的に有効かもしれませんが、ここでテストが通常使用される理由がなければなりません。tz
マクロ

2
私が質問に入れた正確度の割合はほんの一例です。
クリス

0

この場合、精度は正しく分類されたサンプルの割合であるため、2つの割合のシステムに関する仮説検定を適用できます。

ましょう及びそれぞれ分類1および2から得られた精度であり、そしてサンプル数です。分類器1および2で正しく分類されたサンプルの数は、それぞれおよびです。p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

検定統計量は次によって与えられます

Z=p^1p^22p^(1p^)/n wherep^=(x1+x2)/2n

私たちの意図は、分類器2のグローバルな精度、つまりが分類器1 のグローバルな精度であることを証明することです。これは、仮説をp2p1

  • H0:p1=p2(両方とも等しいという帰無仮説)
  • Ha:p1<p2(新しいものが既存のものより優れていると主張する代替の仮説)

拒否領域は次のように与えられます

Z<zα(trueの場合、を拒否し、を受け入れ)H aH0Ha

ここで、z_は、有意水準関係する標準正規分布から取得されます。例えば、有意水準5%の、です。つまり、リレーションが真の場合、95%の信頼レベル()で、分類器2は分類器1よりも正確であると言えます。 α Z 0.5zααZ < - 1.645 1 - αz0.5=1.645Z<1.6451α

参照:

  1. R.ジョンソンとJ.フロイント、ミラーとフロイントのエンジニアの確率と統計、第8版 プレンティスホールインターナショナル、2011年。(一次資料)
  2. 仮説コンサイス式概要の試験。([1]から採用)

べきではありません平均ことと?したがって、分母は 2nでなければなりません。 、P 1、P 2p^p^1p^2p^=(x1+x2)/2n
シバTp

プロポーションの検定を使用できることに同意しますが、元の質問には片側検定が適切であることを示唆するものは何もありません。さらに、「95%の自信を持って言える」というのはよくある誤解です。例はこちらをご覧ください:metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
フランスロデンブルク

@ShivaTp確かに。非常に必要なタイプミス修正を指摘してくれてありがとう。編集を確認しました。
エーベアイザック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.