精度の向上が重要かどうかを確認する


14

物事を2つのカテゴリに分類するアルゴリズムがあるとします。たとえば、1000個のテスト項目でアルゴリズムの精度を測定できます。80%が正しく分類されていると仮定します。

どうにかしてアルゴリズムを変更して、物事の81%が正しく分類されると仮定しましょう。

統計は、アルゴリズムの改善が統計的に有意であるかどうかを教えてくれますか?この状況で統計的有意性の概念は関連していますか?関連する可能性のあるリソースの方向を教えてください。

どうもありがとう。

回答:


3

要するに、はい。ここでは統計的有意性が関係します。分類エラーを見ています(または、ここで精度= 1-分類エラーを指定すると)。異なる1000個のサンプルで分類器を比較する場合、McNemarの検定を使用する必要がある1000個のサンプルと同じであれば、二項検定を使用できます。この方法で単純に分類エラーをテストすることは、分類エラーが真のクラスに依存しないか、潜在的なアプリケーション全体で真のクラスの割合が同じであると仮定するため、最適ではないことに注意してください。

つまり、真の陽性率、偽陽性率、AUCなどの指標を検討する必要があります。使用する測定値とテスト方法は、クラシケーターの出力によって異なります。それは単なるクラスである場合もあれば、特定のクラスに属する確率を与える連続した番号である場合もあります。


それは素晴らしい、ありがとう。私は実際にテキスト文書の感情分析を見ています-それらを「ポジティブ」または「ネガティブ」に分類します-人々がいくつかの微妙な方法で機能選択を変更する、例えば1%の精度改善で公開された多くの研究がありますこれについての論文。これらのケースの多くで、著者が分類精度の統計的に有意な改善の証拠を提供できなかったかどうか疑問に思っています。
ベン

McNemarのテストは、モデルが大幅に異なるかどうかを示しますが、これは必ずしも精度の違いが重要であることを意味するわけではありません(異なるモデルは同じ精度を持つことができます)。精度の向上の重要性を直接確認するには、多くの精度の推定値を作成して、精度の分布をマッピングし、それらが異なるかどうかを推定します。これは、モデルを複数回トレーニングすることを意味します。
drevicko

3

エリックが言いました、はい、あなたは、統計的有意性のためにこれを確認することができます。ただし、確認したい内容を少しの間考えてください。より興味深い質問は、「改善された」とされるアルゴリズムが、観測された1%の差のデータを考慮して、元のアルゴリズムよりも優れている(または有意に優れている)可能性を尋ねることです。「統計的有意性」の観点から質問すると、反対のタイプの質問につながる傾向があります。2つのアルゴリズムが同じであると仮定すると、少なくともこの程度の改善を観察する可能性は5%未満ですか。

私には、後者の質問は逆向きですが、どういうわけか標準になりました。統計的仮説検定の論争については、ウィキペディアをご覧ください。その後、ベイジアン推論に興味があるかもしれません。本当にベイジアンデータ分析を行いたい場合は、Gelmanらの「ベイジアンデータ分析」またはこの質問をご覧ください。


2

マイケル答えにエリックの答えを 適用する:

パフォーマンス測定を選択するときに、エリックが参照するのと同じ種類の思考を行うことができます。

彼らが答える質問でさまざまなそのような手段を参照することは役立つと思います(ここで私が最もよく知っている医療診断言語で-しかし、たぶんあなたは患者をテキストで、病気をスパムで置き換えることができます;-)):

  • 感度:患者が本当に病気にかかっていることを考えると、分類器はそれを実現する可能性はどれくらいですか?

  • 特異性:患者が本当に病気にかかっていない場合、分類器はそれを実現する可能性がどのくらいありますか?

  • 陽性的中率:分類器が患者が病気にかかっていると主張した場合、患者は実際にどの程度病気にかかっているでしょうか?

  • 負の予測値:分類器が患者が病気にかかっていないと主張した場合、患者は実際に病気にかかっていない可能性がどのくらいありますか?

ご覧のとおり、予測値は医師と患者が本当に関心を持っているものです。しかし、ほとんどすべての人が彼の分類器を感度と特異性で特徴付けています。その理由は、予測値は疾患の有病率を考慮に入れる必要があり、それは患者の種類によって大きく異なる場合があるということです。

質問のトピックの詳細:

私はあなたが心配するのが正しいと確信しています。

Erikの両方のシナリオを例に取ります:

独立したテストサンプルは次のとおりです。

> binom.test (x = 810, n = 1000, p = 0.8)

    Exact binomial test

data:  810 and 1000 
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8 
95 percent confidence interval:
 0.7842863 0.8338735 
sample estimates:
probability of success 
                  0.81 

(結果が逆の場合でも2つの分類子が公開されていたと仮定すると、このテストは両面であったことに注意してください...)

最良の状況は次のとおりです。ペアテスト、および新しい分類子はすべてのサンプルに適切であり、古い分類子も適切であり、さらに10個あります。

> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
          newclassif
oldclassif correct wrong
   correct     800     0
   wrong        10   190
> mcnemar.test (oldclassif, newclassif)

    McNemar's Chi-squared test with continuity correction

data:  oldclassif and newclassif 
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427

1000個のうち10個以下のサンプルが2つの分類器によって異なる方法で予測されている限り、p値は魔法の0.05を下回っています)。

p値が間違った質問に対する正しい答えであったとしても、それが一種の狭い場所であるという兆候があります。

ただし、通常の科学的慣行、つまり未知の(未公開の)新機能の数がテストされ、わずかに優れた機能のみが公開されたため、場所はさらに厳しくなります。そして、80%の分類器は、79%の分類器の後継にすぎないかもしれません...

ドイツ語を読むのが好きな人には、Beck-BornholdとDubbenによる素晴らしい本がいくつかあります。正しく覚えていれば、Mit an Wahrscheinlichkeit grenzender Sicherheitがこれらの問題について非常に良い議論をしています。(英語版があるかどうかはわかりませんが、タイトルのかなり文字通りの翻訳は、「確率に境界をつけて確実に」です)


1

不連続の不適切なスコアリングルール(感度、特異性、偽りのモデルで最適化された結果が正しいと分類された割合などの正確度スコア)の使用を非常に推奨し、代わりに尤度比検定または部分F検定を新しい値に使用します変数。

割合が正しく分類されている問題を確認するいくつかの方法の1つは、1つのカテゴリの全体の割合が0.9の場合、データを無視し、すべての観測値をそのカテゴリにあると分類することで0.9の時間で正しいことです。


2
はい、精度は使用するのがお粗末なメトリックである場合もあれば、素晴らしい方法である場合もあります。場合によります。しかし、それは問題が何であるかについて完全に接線のようです。問題は、最初にメトリックを選択することではなく、既知のメトリックに従って新しいアルゴリズムが優れているかどうかを判断することです。
マイケルマッゴーワン

目標とユーティリティ関数を慎重に記述する必要があると思います。ユーティリティ関数を提供したくない場合は、分類の実行時に効果的に想定されているユーティリティ関数のバックソルブを行う必要があります。
フランクハレル

多くの匿名のダウン投票の理由は何ですか?
chl

2
@chl私は、私が尋ねられた質問に実際に答えなかったためにダウン投票したと説明したと思った。
マイケルマク

@MichaelMcGowanまあまあ。
chl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.