回答:
要するに、はい。ここでは統計的有意性が関係します。分類エラーを見ています(または、ここで精度= 1-分類エラーを指定すると)。異なる1000個のサンプルで分類器を比較する場合、McNemarの検定を使用する必要がある1000個のサンプルと同じであれば、二項検定を使用できます。この方法で単純に分類エラーをテストすることは、分類エラーが真のクラスに依存しないか、潜在的なアプリケーション全体で真のクラスの割合が同じであると仮定するため、最適ではないことに注意してください。
つまり、真の陽性率、偽陽性率、AUCなどの指標を検討する必要があります。使用する測定値とテスト方法は、クラシケーターの出力によって異なります。それは単なるクラスである場合もあれば、特定のクラスに属する確率を与える連続した番号である場合もあります。
エリックが言いました、はい、あなたは、統計的有意性のためにこれを確認することができます。ただし、確認したい内容を少しの間考えてください。より興味深い質問は、「改善された」とされるアルゴリズムが、観測された1%の差のデータを考慮して、元のアルゴリズムよりも優れている(または有意に優れている)可能性を尋ねることです。「統計的有意性」の観点から質問すると、反対のタイプの質問につながる傾向があります。2つのアルゴリズムが同じであると仮定すると、少なくともこの程度の改善を観察する可能性は5%未満ですか。
私には、後者の質問は逆向きですが、どういうわけか標準になりました。統計的仮説検定の論争については、ウィキペディアをご覧ください。その後、ベイジアン推論に興味があるかもしれません。本当にベイジアンデータ分析を行いたい場合は、Gelmanらの「ベイジアンデータ分析」またはこの質問をご覧ください。
パフォーマンス測定を選択するときに、エリックが参照するのと同じ種類の思考を行うことができます。
彼らが答える質問でさまざまなそのような手段を参照することは役立つと思います(ここで私が最もよく知っている医療診断言語で-しかし、たぶんあなたは患者をテキストで、病気をスパムで置き換えることができます;-)):
感度:患者が本当に病気にかかっていることを考えると、分類器はそれを実現する可能性はどれくらいですか?
特異性:患者が本当に病気にかかっていない場合、分類器はそれを実現する可能性がどのくらいありますか?
陽性的中率:分類器が患者が病気にかかっていると主張した場合、患者は実際にどの程度病気にかかっているでしょうか?
負の予測値:分類器が患者が病気にかかっていないと主張した場合、患者は実際に病気にかかっていない可能性がどのくらいありますか?
ご覧のとおり、予測値は医師と患者が本当に関心を持っているものです。しかし、ほとんどすべての人が彼の分類器を感度と特異性で特徴付けています。その理由は、予測値は疾患の有病率を考慮に入れる必要があり、それは患者の種類によって大きく異なる場合があるということです。
質問のトピックの詳細:
私はあなたが心配するのが正しいと確信しています。
Erikの両方のシナリオを例に取ります:
独立したテストサンプルは次のとおりです。
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(結果が逆の場合でも2つの分類子が公開されていたと仮定すると、このテストは両面であったことに注意してください...)
最良の状況は次のとおりです。ペアテスト、および新しい分類子はすべてのサンプルに適切であり、古い分類子も適切であり、さらに10個あります。
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(1000個のうち10個以下のサンプルが2つの分類器によって異なる方法で予測されている限り、p値は魔法の0.05を下回っています)。
p値が間違った質問に対する正しい答えであったとしても、それが一種の狭い場所であるという兆候があります。
ただし、通常の科学的慣行、つまり未知の(未公開の)新機能の数がテストされ、わずかに優れた機能のみが公開されたため、場所はさらに厳しくなります。そして、80%の分類器は、79%の分類器の後継にすぎないかもしれません...
ドイツ語を読むのが好きな人には、Beck-BornholdとDubbenによる素晴らしい本がいくつかあります。正しく覚えていれば、Mit an Wahrscheinlichkeit grenzender Sicherheitがこれらの問題について非常に良い議論をしています。(英語版があるかどうかはわかりませんが、タイトルのかなり文字通りの翻訳は、「確率に境界をつけて確実に」です)
不連続の不適切なスコアリングルール(感度、特異性、偽りのモデルで最適化された結果が正しいと分類された割合などの正確度スコア)の使用を非常に推奨し、代わりに尤度比検定または部分F検定を新しい値に使用します変数。
割合が正しく分類されている問題を確認するいくつかの方法の1つは、1つのカテゴリの全体の割合が0.9の場合、データを無視し、すべての観測値をそのカテゴリにあると分類することで0.9の時間で正しいことです。