複数のデータセットで複数のアルゴリズムのパフォーマンスを比較しています。これらのパフォーマンス測定値が正規分布であることが保証されていないので、私はDemšar（2006）に基づいたNemenyi事後検定を伴うフリードマン検定を選択しました。

次に、Quad検定とそれに続くShaffer事後検定のような他の方法を提案する以外に、Nemenii検定を異なる方法で適用する別の論文を見つけました。

ネメニポストホックテストを正しく適用するにはどうすればよいですか？

1.スチューデント化範囲統計を使用しますか？

Demšarの論文では、平均ランク差が付き臨界距離CDより大きい場合帰無仮説（2つのアルゴリズムのない性能差）を拒否すると言う

C D = q_{α} \sqrt{\frac{k (k + 1)}{6 N}}

$CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}}$

「臨界値qαは、スチューデント化された範囲統計を $\sqrt{2}.$ 」

掘り下げた後、特定のアルファについてそれらの "重要な値"を検索できることがわかりました。たとえば、表 $\alpha = 0.05$ で、無限の自由度（各表の下部）を確認できます。

2.または正規分布を使用していますか？

どうすればいいのかと思ったとき、正規分布のみを使用していたため、別の論文で混乱を招きました。デムサルは12ページで同様のことを述べています：

$z = \frac{(R_{i} - R_{j})}{\sqrt{\frac{k (k + 1)}{6 N}}}$ $z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}}$ $\alpha$ $\alpha$

この段落で彼はすべてのアルゴリズムを制御アルゴリズムと比較することについて話していましたが、「複数の比較を補正するために調整する方法が異なる」という発言は、これがネメニ検定にも当てはまることを示唆しています。

$z$ $k(k-1)/2$

ただし、これにより、帰無仮説を棄却するための完全に異なるランク差が生じます。そして今、私は行き詰まっており、どの方法を適用すべきか分かりません。私は正規分布を使用する方に強く傾いています。正規分布を使用する方が簡単で論理的だからです。また、テーブルで値を検索する必要もありません。特定の重要度の値に拘束されません。

繰り返しになりますが、私はスチューデント化された範囲統計を扱ったことがないため、理解できません。

nonparametric multiple-comparisons post-hoc

— 衛兵
ソース

5

私もこの質問を見始めました。

前述のように、正規分布を使用して各テストのp値を計算する場合、これらのp値は複数のテストを考慮していません。これを修正し、ファミリごとのエラー率を制御するには、いくつかの調整が必要です。Bonferonni、つまり有意水準を除算すること、または生のp値を検定数で乗算することは、1つの可能な修正にすぎません。他の多くの複数のテストp値の修正があり、多くの場合、保守的ではありません。

これらのp値の修正では、仮説検定の特定の構造は考慮されていません。

クラスカル・ウォリス検定またはフリードマン検定のように、ランク変換されたデータではなく、元のデータのペアワイズ比較の方がよくわかります。Tukey HSD検定であるその場合、多重比較の検定統計量は、独立したサンプルの仮定の下でのすべてのペアワイズ比較の分布であるスチューデント化された範囲分布に従って分布されます。これは、数値積分によって計算できる多変量正規分布の確率に基づいていますが、通常はテーブルから使用されます。

理論がわからないので、スチューデント化された範囲分布は、Tukey HSDのペアごとの比較と同様の方法でランク検定のケースに適用できると思います。

したがって、（2）正規分布と複数のテストp値補正の使用と（1）スチューデント化範囲分布の使用は、テスト統計の近似分布を取得する2つの異なる方法です。ただし、スチューデント化された範囲分布の使用に関する仮定が満たされている場合は、すべてのペア比較の特定の問題用に設計されているため、より良い近似が得られます。

— ヨセフ
ソース

1

私の知る限り、2つのアルゴリズムのみを比較する場合、Demšarはフリードマン+ポストホックではなく、ウィルコクソンの符号付き順位検定を提案します。残念ながら、デムシャーのk-1による除算の意味を解読することに関しては、あなたと同じように混乱しています。

— 5xum
ソース

1

（k-1）による除算は、複数のアルゴリズムを制御方法と比較する場合です。ただし、これはそれぞれ対NxNです。分割部分は理解できますが、スチューデント化範囲分布との関係は私の理解を超えています。

— Sentry 2013年

@Sentry：乗算ではなく、ここで調整係数を乗算する必要があります。上記の私の答えをご覧ください。

— Chris

0

また、通常のt分布とスチューデント化されたt分布のどちらからp値を計算するかについても、疑問点を見つけました。残念ながら、私はまだ答えることができません。異なる論文は異なる方法を伝えているからです。

それにもかかわらず、調整されたp値を計算するには、未補正のp値に調整係数を掛ける必要があります。たとえば、1つの制御方法との比較の場合はp *（k-1）またはp *（（k *（k-1 ））/ 2）nxn比較用。

調整係数で除算する必要があるのは、調整されていないpと比較した場合のアルファ値です。

— クリス
ソース

フリードマン検定後にネメニポストホック検定を正しく適用する方法

ネメニポストホックテストを正しく適用するにはどうすればよいですか？