ANOVAとKruskal-Wallis検定の違い


20

私はRを学んでおり、分散分析を実験しています。私は両方を実行しています

kruskal.test(depVar ~ indepVar, data=df)

そして

anova(lm(depVar ~ indepVar, data=dF))

これら2つのテストの間に実際的な違いはありますか?私の理解では、どちらも母集団が同じ平均を持っているという帰無仮説を評価するということです。

回答:


28

テストされる仮定と仮説には違いがあります。

ANOVA(およびt検定)は、値の平均の等価性の検定です。Kruskal-Wallis(およびMann-Whitney)は、技術的には平均ランクの比較として見ることができます。

したがって、元の値に関しては、クラスカル・ワリスは平均値の比較よりも一般的です。各グループからのランダムな観測値が別のグループからのランダムな観測値を上回ったり下回ったりする確率をテストします。その比較の基礎となる実際のデータ量は、平均値の差でも中央値の差でもありません(2つのサンプルの場合)。これは実際にはすべてのペアワイズ差の中央値 -サンプル間Hodges-Lehmann差です。

ただし、いくつかの制限的な仮定を行うことを選択した場合、クラスカルワリスは、人口平均の平等のテスト、分位数(中央値など)、および実際にはさまざまな他の尺度と見なすことができます。つまり、帰無仮説の下でのグループ分布が同じであり、代替の下で唯一の変化が分布シフト(いわゆる「位置シフトの代替」)であると仮定した場合、それは検定でもあります人口平均の平等(および、同時に、中央値、下位四分位など)。

[この仮定を行うと、ANOVAでできるように、相対シフトの推定値と間隔を取得できます。まあ、その仮定なしで間隔を取得することも可能ですが、解釈するのはより困難です。]

ここで答えを見ると、特に最後に向かって、t検定とWilcoxon-Mann-Whitneyの比較について説明します。Wilcoxon-Mann-Whitneyは(少なくとも両側検定を行う場合は)ANOVAとKruskal-Wallisに相当します2つのサンプルのみの比較に適用されます。それはもう少し詳細を提供し、その議論の多くはクラスカル・ワリス対分散分析に引き継がれます。

実際の違いが何を意味するかは完全には明らかではありません。通常、それらは一般的に同様の方法で使用します。両方の仮定が当てはまる場合、通常、かなり類似した結果が得られる傾向がありますが、状況によってはかなり異なるp値が得られる可能性があります。

編集:ここに、小さなサンプルでも推論の類似性の例があります-これは、正規分布(サンプルサイズが小さい)からサンプリングされた3つのグループ(2番目と3番目がそれぞれ最初のグループと比較)の間の位置シフトの共同受け入れ領域です5%レベルでの特定のデータセットの場合:

Kruskal-WallisとAnovaの位置差の許容領域

多数の興味深い特徴を認識することができます-この場合のKWのわずかに大きい受け入れ領域は、その境界が垂直、水平、斜めの直線セグメントで構成されています(理由を理解するのは難しくありません)。2つの領域は、ここで関心のあるパラメーターについて非常によく似たものを示しています。


2
+1。必要だと思ったところに強調を加えるために、あえて少し編集しました。同意するかどうか、今すぐご覧ください。
ttnphns

@ttnphns編集に感謝します。私は、元の背中の一部を編集することができるので、あなたが変更され、物事のいくつかは、そこにいた理由をいくつかの特定の理由があります。しかし、おそらく私はそれをより明確にする必要があり、なぜ私は前にそれを持っていたとして、私はそれを書きました。しかし、まず、できるだけ多くの変更を保持する最善の方法について慎重に考えたいと思います。
Glen_b

4

はいあります。anovaながらパラメトリックアプローチであるkruskal.testノンパラメトリックアプローチです。したがって kruskal.test、分布の仮定は必要ありません。
実用的な観点から、データが歪んでいる場合、anova使用するのに適切なアプローチではありません。たとえば、この質問をご覧ください。


4
Kruskal-Wallis ANOVAは、パラメトリックANOVAと比較して分布に関して緩和された仮定を立てていると言えます。各グループの観測値は、類似の形状の母集団から得られます。異分散性または非常に歪んだ分布は、従来のテストと同様に問題が残ります。
chl

2
どのように、@chl?ランクはスキューによって変更されず、KWはランクに基づいています。私は何が欠けていますか?
ピーターフロム-モニカの復職

6
@PeterFlom KWテストでは、サンプリングされた母集団の形状と分散が同じであると想定していますが、ほとんどの場合、これらの仮定からの逸脱は結果に影響しません。パラメトリックな仮定が満たされると、テストは一元配置分散分析と同じくらい強力なます。順位に基づく検定統計に関しては、いくつかの研究は、しかし、歪度の様々な程度が公称タイプIエラー率を膨らませることが、例えば、参照、FAGERLANDとサンドビック(2009) 、またはいくつかのの参照3/π
chl

@chl仮説は分布の等式であるため、同一の形状の仮定はパワーにのみ関係しているのではないでしょうか?H0
ステファンローラン

1
@StéphaneLaurent形状が同一でない場合、推論が不適切になる可能性があります。ここに私の例を参照してください
フラスコ

3

私の知る限り(ただし、間違っている場合は修正してください)、Kruskal-Wallis検定は、同じ形状と同じ分散を持つ2つの分布の違いを検出するために構築されています。 、一方は、次のような差分によって他方を変換することによって取得されます。 Δここに画像の説明を入力してください

この仮定を呼び出してみましょう。KWテストは、帰無仮説 vsテストします。ただし、KWテストは仮定なしで「有効」です:そのレベル(下でを拒否する確率は有効です明らかに満たされるため。H 0{ Δ = 0 } H 1{ Δ 0 } H 0 H 0H 0{ 分布は等しい}()H0:{Δ=0}H1:{Δ0}()H0H0)()H0:{the distributions are equal}

ただし、が成り立たない場合、KW検定は「非効率的」です。を検出する能力があるだけで、検定統計量は2つの分布の差を反映するのに適切ではありません。そのような。Δ > 0 Δ()Δ>0Δ

次の例を考えてみましょう。サイズ 2つのサンプルとは、2つのまったく異なる分布から生成されますが、平均は同じです。その後、KWはを拒否できません。y n = 1000 H 0xyn=1000H0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

ここに画像の説明を入力してください

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

最初に主張したように、KWの正確な構成についてはわかりません。私の答えは別のノンパラメトリック検定(Mann-Whitney?..)の方が正しいかもしれませんが、アプローチは似ているはずです。


1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersionグレンの回答、コメント、およびこのサイトの他の多くの場所で述べられているように、それは真実ですが、テストの実行内容の絞り込みです。same shape/dispersion実際には組み込みではありませんが、いくつかの状況で使用され、他の状況では使用されない追加の仮定です。
ttnphns

PSあなたの2番目の例は、KWテストと矛盾したり反論したりしません。テストのH0はそう distributions are equalではなく、そう考えるのは間違いです。H0は、比ular的に言えば、「重力の凝縮」の2つのポイントが互いに逸脱していないということだけです。
ttnphns

@ttnphns私はあなたを信じています、私は知りません。しかし、通常、は平等とれます(たとえば、ウィキペディアの記事を参照)。H0
ステファンローラン

1
私はこれが一般的な信念だと言います。krusal.test()R のヘルプによれば、は分布の位置パラメーターの等式です。実際には、分布間の違いを評価するためにKWをよく使用すると思います。したがって、(Gaussian ANOVAの場合と同じように)同じ形状を想定し、KWを適用できます。これは理にかなっています。H0
ステファンローラン

1
うん。the equality of the location parameters of the distribution正しい定式化です(ただし、「場所」は、一般的な場合、単なる平均または中央値と見なされるべきではありません)。場合は、あなたが同じ形状を想定し、それから、当然、これと同じH0「は、同一の分布」となります。
ttnphns

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.