回答:
テストされる仮定と仮説には違いがあります。
ANOVA(およびt検定)は、値の平均の等価性の検定です。Kruskal-Wallis(およびMann-Whitney)は、技術的には平均ランクの比較として見ることができます。
したがって、元の値に関しては、クラスカル・ワリスは平均値の比較よりも一般的です。各グループからのランダムな観測値が別のグループからのランダムな観測値を上回ったり下回ったりする確率をテストします。その比較の基礎となる実際のデータ量は、平均値の差でも中央値の差でもありません(2つのサンプルの場合)。これは実際にはすべてのペアワイズ差の中央値 -サンプル間Hodges-Lehmann差です。
ただし、いくつかの制限的な仮定を行うことを選択した場合、クラスカルワリスは、人口平均の平等のテスト、分位数(中央値など)、および実際にはさまざまな他の尺度と見なすことができます。つまり、帰無仮説の下でのグループ分布が同じであり、代替の下で唯一の変化が分布シフト(いわゆる「位置シフトの代替」)であると仮定した場合、それは検定でもあります人口平均の平等(および、同時に、中央値、下位四分位など)。
[この仮定を行うと、ANOVAでできるように、相対シフトの推定値と間隔を取得できます。まあ、その仮定なしで間隔を取得することも可能ですが、解釈するのはより困難です。]
ここで答えを見ると、特に最後に向かって、t検定とWilcoxon-Mann-Whitneyの比較について説明します。Wilcoxon-Mann-Whitneyは(少なくとも両側検定を行う場合は)ANOVAとKruskal-Wallisに相当します2つのサンプルのみの比較に適用されます。それはもう少し詳細を提供し、その議論の多くはクラスカル・ワリス対分散分析に引き継がれます。
実際の違いが何を意味するかは完全には明らかではありません。通常、それらは一般的に同様の方法で使用します。両方の仮定が当てはまる場合、通常、かなり類似した結果が得られる傾向がありますが、状況によってはかなり異なるp値が得られる可能性があります。
編集:ここに、小さなサンプルでも推論の類似性の例があります-これは、正規分布(サンプルサイズが小さい)からサンプリングされた3つのグループ(2番目と3番目がそれぞれ最初のグループと比較)の間の位置シフトの共同受け入れ領域です5%レベルでの特定のデータセットの場合:
多数の興味深い特徴を認識することができます-この場合のKWのわずかに大きい受け入れ領域は、その境界が垂直、水平、斜めの直線セグメントで構成されています(理由を理解するのは難しくありません)。2つの領域は、ここで関心のあるパラメーターについて非常によく似たものを示しています。
はいあります。anova
ながらパラメトリックアプローチであるkruskal.test
ノンパラメトリックアプローチです。したがって kruskal.test
、分布の仮定は必要ありません。
実用的な観点から、データが歪んでいる場合、anova
使用するのに適切なアプローチではありません。たとえば、この質問をご覧ください。
私の知る限り(ただし、間違っている場合は修正してください)、Kruskal-Wallis検定は、同じ形状と同じ分散を持つ2つの分布の違いを検出するために構築されています。 、一方は、次のような差分によって他方を変換することによって取得されます。
この仮定を呼び出してみましょう。KWテストは、帰無仮説 vsテストします。ただし、KWテストは仮定なしで「有効」です:そのレベル(下でを拒否する確率は有効です明らかに満たされるため。H 0:{ Δ = 0 } H 1:{ Δ ≠ 0 } (∗ )H 0 H 0)(∗ )H 0:{ 分布は等しい}
ただし、が成り立たない場合、KW検定は「非効率的」です。を検出する能力があるだけで、検定統計量は2つの分布の差を反映するのに適切ではありません。そのような。Δ > 0 Δ
次の例を考えてみましょう。サイズ 2つのサンプルとは、2つのまったく異なる分布から生成されますが、平均は同じです。その後、KWはを拒否できません。y n = 1000 H 0
set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")
> kruskal.test(list(x,y))
Kruskal-Wallis rank sum test
data: list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152
最初に主張したように、KWの正確な構成についてはわかりません。私の答えは別のノンパラメトリック検定(Mann-Whitney?..)の方が正しいかもしれませんが、アプローチは似ているはずです。
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersion
グレンの回答、コメント、およびこのサイトの他の多くの場所で述べられているように、それは真実ですが、テストの実行内容の絞り込みです。same shape/dispersion
実際には組み込みではありませんが、いくつかの状況で使用され、他の状況では使用されない追加の仮定です。
distributions are equal
ではなく、そう考えるのは間違いです。H0は、比ular的に言えば、「重力の凝縮」の2つのポイントが互いに逸脱していないということだけです。
krusal.test()
R のヘルプによれば、は分布の位置パラメーターの等式です。実際には、分布間の違いを評価するためにKWをよく使用すると思います。したがって、(Gaussian ANOVAの場合と同じように)同じ形状を想定し、KWを適用できます。これは理にかなっています。
the equality of the location parameters of the distribution
正しい定式化です(ただし、「場所」は、一般的な場合、単なる平均または中央値と見なされるべきではありません)。場合は、あなたが同じ形状を想定し、それから、当然、これと同じH0「は、同一の分布」となります。
Kruskal-Wallisは、値ベースではなくランクベースです。偏った分布がある場合、または極端な場合がある場合、これは大きな違いを生むことができます