いくつかの異なる分類器をトレーニングしたり、いくつかの異なる特徴抽出方法を使用したりする多くの状況があります。文献では、著者はしばしば、データのランダムな分割のセット(つまり、二重にネストされた交差検証の後)で平均分類誤差を与え、時には分割での誤差にも分散を与えます。しかし、これだけでは、ある分類器が別の分類器よりもはるかに優れていると言うには不十分です。これに対する多くの異なるアプローチを見てきました-カイ2乗検定、t検定、事後検定付きANOVAなどを使用します。
統計的有意性を判断するには、どの方法を使用する必要がありますか?その疑問の根底にあるのは、分類スコアの分布についてどのような仮定を立てるべきかということです。