複数のデータセットで複数のアルゴリズムのパフォーマンスを比較しています。これらのパフォーマンス測定値が正規分布であることが保証されていないので、私はDemšar(2006)に基づいたNemenyi事後検定を伴うフリードマン検定を選択しました。
次に、Quad検定とそれに続くShaffer事後検定のような他の方法を提案する以外に、Nemenii検定を異なる方法で適用する別の論文を見つけました。
ネメニポストホックテストを正しく適用するにはどうすればよいですか?
1.スチューデント化範囲統計を使用しますか?
Demšarの論文では、平均ランク差が付き臨界距離CDより大きい場合帰無仮説(2つのアルゴリズムのない性能差)を拒否すると言う
「臨界値qαは、スチューデント化された範囲統計を」
掘り下げた後、特定のアルファについてそれらの "重要な値"を検索できることがわかりました。たとえば、α = 0.05の表で、無限の自由度(各表の下部)を確認できます。
2.または正規分布を使用していますか?
どうすればいいのかと思ったとき、正規分布のみを使用していたため、別の論文で混乱を招きました。デムサルは12ページで同様のことを述べています:
この段落で彼はすべてのアルゴリズムを制御アルゴリズムと比較することについて話していましたが、「複数の比較を補正するために調整する方法が異なる」という発言は、これがネメニ検定にも当てはまることを示唆しています。
ただし、これにより、帰無仮説を棄却するための完全に異なるランク差が生じます。そして今、私は行き詰まっており、どの方法を適用すべきか分かりません。私は正規分布を使用する方に強く傾いています。正規分布を使用する方が簡単で論理的だからです。また、テーブルで値を検索する必要もありません。特定の重要度の値に拘束されません。
繰り返しになりますが、私はスチューデント化された範囲統計を扱ったことがないため、理解できません。