分類結果の重要性をテストする正しい方法は何ですか


21

いくつかの異なる分類器をトレーニングしたり、いくつかの異なる特徴抽出方法を使用したりする多くの状況があります。文献では、著者はしばしば、データのランダムな分割のセット(つまり、二重にネストされた交差検証の後)で平均分類誤差を与え、時には分割での誤差にも分散を与えます。しかし、これだけでは、ある分類器が別の分類器よりもはるかに優れていると言うには不十分です。これに対する多くの異なるアプローチを見てきました-カイ2乗検定、t検定、事後検定付きANOVAなどを使用します。

統計的有意性を判断するには、どの方法を使用する必要がありますか?その疑問の根底にあるのは、分類スコアの分布についてどのような仮定を立てるべきかということです。


2
「これに対する多くの異なるアプローチを見てきました-カイ2乗検定、t検定、事後検定付きANOVAなどを使用して」という論文を投稿できますか?私は本当にそれに興味があります。
jb。

1
@jbはこれを見てみましょう:cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf
Dov

回答:


8

@jbの優れた答えに加えて、同じテストセットでMcNemarのテストを使用して、ある分類器が他の分類器よりも有意に優れているかどうかを判断できることを付け加えます。これは、分類問題(McNemarの元の研究で「二分特性」と呼ばれるもの)でのみ機能します。つまり、分類子は、真ん中にスペースがなくても正しいか間違っているかのどちらかです。


分類器が合格できるシナリオではどうですか?それが言うように、それは知りません。まだMcNemarのテストを使用できますか?
S0rin

5

分類エラーの分布はバイナリ分布であるため(誤分類があるか、存在しないかのどちらかです)---カイ2乗の使用は賢明ではないと思います。

また、同じデータセットで機能する分類器の効率のみを比較するのが理にかなっています-「無料昼食定理なし」は、すべてのモデルがすべてのデータセットで同じ平均効率を持っていると述べているため、どのモデルがより良く見えるかは、どのデータセットがあったかにのみ依存しますhttp://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimizationをトレーニングすることを選択しました。

データセットDに対してモデルAとモデルBの効率を比較している場合、選択を行うには平均効率+平均で十分であると思います。

さらに、合理的な効率を備えた(そして、互いに線形に独立している)モデルが多数ある場合は、最適なモデルを選択するだけでなく、アンサンブルモデルを構築します。


しかし、単一の分類子の場合、スコアのセット(たとえば、100分割を超えるMSE)になります。これは、たとえば[0,1]の範囲になります。実行のたびに結果を取得して分析するのは、費用がかかりすぎると思います。
tdc

はい。ただし、この場合、平均+ stddevは、他の測定と同様に、一方が他方よりも有意に優れているかどうかをテストするのに十分です。
jb。

2
私はちょっと確信が持てません。Mean&stddevは最初にガウス性を仮定します。2つ目は、実行されている比較の数を考慮していません(例:ボンフェローニ補正が必要な場合があります)
tdc

1
基本的な測定理論でも同じです。我々が持っていると仮定しましょマイクロメータを、我々は二つのロッドが同じdiamaterを持っているかどうかを確認したい、我々は平均+のSTDDEV重複するかどうか棒とチェックの両方の100回の測定値を取ります。両方の場合(ロッド測定とモデル計算)では、結果のガウス分布を仮定します。賢明な議論のみが中心極限定理です。
jb。

3

Tom Dietterichによる「教師付き分類学習アルゴリズムを比較するための近似統計検定」というタイトルの論文をお勧めします。:ここではCiteSeer上の紙のプロフィールだhttp://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325が。要約から:「このペーパーでは、特定の学習タスクで1つの学習アルゴリズムが他の学習アルゴリズムよりも優れているかどうかを判断する5つの近似統計テストをレビューします。 )。... McNemarのテストでは、タイプIエラーが少ないことが示されています。... "


2

私見では、スコアの分布と他の種類のデータの分布に違いはないはずです。したがって、基本的に確認する必要があるのは、データが正常に配信されているかどうかだけです。さらに、この質問を徹底的に扱う素晴らしい本があります(つまり、簡単に言うと、2つの分類器の結果が著しく異なるかどうかをテストします。


それらは正常に配布されない可能性が高いと思います。通常の場合、スコアは正で、範囲の一方の端に向かって傾斜します(測定値として精度またはエラーを使用しているかどうかに応じて1または0)。
tdc

@tdc:この関数の分布(誤分類の数)->(この誤分類のカウントを持つモデルの数)は、多くの場合、IMHO同様のポアソン分布です。
jb。

@Dov:どのモデルが有意に優れているか(つまりOPの質問)をテストし、それらが異なるかどうかをテストすることはまったく異なります。
jb。

@jb。ありがとう。しかし、私は大幅に異なると言った方が良い
...-Dov

@Dovあなたの最初のリンクが壊れています-それがどこを指しているのかわかりません。
Tamzinブレイク

2

すべての状況に適した単一のテストはありません。2011年ケンブリッジ大学出版局のナタリー・ジャプコウィッツとモハック・シャーによる「評価アルゴリズムの学習」という本をお勧めします。私の研究のニーズに実際に合ったテストがないことをしばしば発見したので、最終的に使用される方法の長所と短所を十分に把握することが重要です。

一般的な問題は、大規模なデータセットの場合、実用的な意味のない効果サイズで統計的に有意な差が得られる可能性があることです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.