パーセンテージと入力サンプル数で分類子の精度を出力します。この情報に基づく結果が統計的に有意であるかどうかを判断できるテストはありますか?
ありがとう
パーセンテージと入力サンプル数で分類子の精度を出力します。この情報に基づく結果が統計的に有意であるかどうかを判断できるテストはありますか?
ありがとう
回答:
完全な無作為性に対するテストがどこで役立つかわかりません。純粋なランダムな推測のみを打つことができる分類子はあまり役に立ちません。より大きな問題は、正確性スコアとして正しく分類された比率の使用です。これは不連続で不適切なスコアリングルールであり、恣意的で鈍感なので簡単に操作できます。(多くの)その欠陥を確認する方法の1つは、切片のみのモデルがある場合に正しく分類された比率を計算することです。結果が有病率で0.5に近くない場合は高くなります。
より適切なルールを選択したら、インデックスの信頼区間を計算することは価値があります。統計的有意性はほとんど価値がありません。
確かに、信頼区間をコンピュータ化できます。もし のテストセットで推定された精度は 要素、それはそれを保持します
パフォーマンスをランダムに計算した場合との差を計算して、ゲインを計算できると思います。ランダム分類子の精度は次のとおりです。
The gain is:
I actually think a statistical test can be sketched. The numerator could be seen as a Normal random variable, , but you should figure out what kind of random variable the denominator could be.
You may be interested in the following papers:
I think they cover what Dimitrios Athanasakis talks about.
I implemented one option of Yeh in the manner that I understand it:
I think that one thing you could try out would be a permutation test. Simply put just randomly permute the input-desired output pairs you feed to your classifier over a number of times. If it fails to reproduce anything at the same level over 100 different permutations than it's significant at the 99% interval and so on. This is basically the same process used to obtain p-values (which correspond to the probability of obtaining a linear correlation of the same mangnitude after randomly permuting the data) and so on.