ノンパラメトリック検定(例:順列検定)で相互作用効果をテストする方法は?


10

私は2つのカテゴリ変数/名義変数を持っています。それぞれが2つの異なる値のみを取ることができます(したがって、合計で4つの組み合わせがあります)。

値の各組み合わせには、数値のセットが付属しています。だから、私は4セットの数字を持っています。より具体的にするために、私は名目変数として、および従属数値「出力」として持っているmale / femaleyoung / oldしましょうweight

からmaleへの移行femaleによって平均体重が変化し、これらの変化が統計的に有意であることを知っています。だから、gender因子を計算することができます。同じことがage変数にも当てはまります。からyoungへの移行oldによって平均重量が変わることは知っていますage。対応する係数を計算できます。

さて、若い女性から古い男性への移行が、性別と年齢の要因の組み合わせよりも多いことがデータで証明されているかどうか、私が本当に確認したいのは、つまり、「2Dの影響」があること、つまり年齢と性別の影響が独立していないことをデータが証明しているかどうかを知りたいのです。たとえば、男性の場合は年齢が上がると体重が1.3増加し、女性の場合は対応する係数が1.1になる可能性があります。

もちろん、私は2つの言及された要因(男性の年齢係数と女性の年齢係数)を計算でき、それらは異なります。しかし、私はこの違いの統計的有意性を計算したいと思います。この違いはどれほど本物ですか。

できれば、ノンパラメトリック検定をしたいのですが。4つのセットを混合し、シャッフルし、再分割して計算することで、やりたいことを実行できますか?


2
相互作用をノンパラメトリックに処理する際の1つの問題は、応答の単調な変換により、存在していた相互作用を取り除いたり、存在しない場所で相互作用を引き起こしたり、相互作用の方向を反転させたりできることです。これは、たとえば、ランクベースのアプローチでは、期待どおりの結果が得られない可能性があることを示唆しています。
Glen_b-2016

元の変数の置換テストを使用すると、その問題は発生しませんが、相互作用の正確なテストがないことがわかります。おおよそのテストを取得できます。
Glen_b-モニカを2017

回答:


5

相互作用のノンパラメトリック検定があります。大まかに言えば、観測された重みをランクで置き換え、結果のデータセットを不均一分散ANOVAとして扱います。たとえば、BrunnerとPuri(2001)による「要因計画におけるノンパラメトリック手法」を見てください。

ただし、関心のある種類のノンパラメトリックな相互作用は、この一般性では示すことができません。あなたが言った:

つまり、「2Dの影響」があること、つまり年齢と性別の影響が独立していないことをデータが証明しているかどうかを知りたいのです。たとえば、男性の場合は年齢が上がると体重が1.3増加し、女性の場合は対応する係数が1.1になる可能性があります。

後者は不可能です。ノンパラメトリックな相互作用には、符号の変更が必要です。つまり、年をとると男性の体重が増加しますが、女性の体重は減少します。重みを単調に変換しても、このような符号の変化は残ります。ただし、1.3にできるだけ近い重み1.1による重みの増加をマップするデータに対して単調な変換を選択できます。もちろん、あなたが望むほどに近いことができれば、違いが有意であることを示すことは決してありません。

符号を変更せずに相互作用に本当に関心がある場合は、通常のパラメトリック分析を使用する必要があります。そこでは、「違いを飲み込む」単調な変換は許可されていません。もちろん、これもまた、統計をモデル化して解釈することによって覚えておくべきことです。


1

あなたは年齢や性別の影響は単なる個々の効果よりもあると考えている場合は、モデルを考慮することができるγweighti=αagei+βgenderi+γ(genderiagei).γ係数は、年齢と性別の「2D」効果のサイズをキャプチャします。 t統計をチェックして、モデルで観察するγγ = 0と大きく異なるかどうかの大まかなアイデアを得ることができます。γγγ=0

ここではどのようなこの追加の乗法用語を示すために非常にラフなグラフィカルな例ですありません。genderiagei

モデルでは、基本的に単純な超平面をデータに適合させようとしますresponse=x1+x2

ここに画像の説明を入力してください

これはモデルが共変量で線形であるため、上のプロットに線形の形が表示されます。

response=x1+x2+x1x2x1x2

ここに画像の説明を入力してください

γ=0

γγ^γ^50±p%2p%γ


x1とx2が0または1の値しか取ることができない場合、これをどのように非線形にすることができますか?あなたの例のガンマはどのような形の曲率をどのように説明しますか?
5ayat 2016年

αR2:x1+x2+x1x2=i=12αixi

ただし、ドメインがバイナリ(2Dキューブの頂点のような)の場合、この関数を線形に扱うことができることを付け加えます。しかし、関数形式は厳密に非線形です。
Mustafa S

@MustafaMEisa、「2D立方体の頂点」で説明された線形モデルの相互作用項を見たことがありません。詳しく説明できれば参考になります。
5ayat 2016年

@HorstGrünbusch、私もこの回答についてのコメントに興味があります。あなたはすでに私の回答に役立つコメントを書いているからです。
5ayat 2016年

1

wt=α+b1age+b2gender+b3agegender+ϵ

wtgender=b2+b3age

gender=0age=0gender=1age=1gender=0age=1gender=1age=0

wt=α+b1young.male+b2old.male+b3young.female+ϵ

old.femaleb1old.femaleyoung.maleαwtold.female

したがって、上記の例はこの結論を得るには非常に複雑な方法です(実際には4つのグループ平均を比較しているだけです)が、相互作用がどのように機能するかを知るには、これが役立つ練習だと思います。CVには、連続変数と名義変数の相互作用、または2つの連続変数の相互作用に関する非常に優れた投稿があります。質問はノンパラメトリックテストを指定するように編集されていますが、仮説テストへのほとんどのノンパラメトリックアプローチは同じロジックですが、一般的には特定の分布に関する仮定が少なくなります。

wt

old.menyoung.women

「重要な」相互作用の脇に

x1x2x1x2しかし、もう一度言いますが、0または1の値しか取ることができない2つの共変量がある場合、基本的に4つのグループ平均を調べていることになります。

実施例

相互作用モデルの結果とダンのテストの結果を比較してみましょう。最初に、(a)男性の方が女性よりも体重が多い、(b)若い男性の方が年配の男性よりも軽い、(c)若い女性と年配の女性の間に差がないというデータを生成しましょう。

set.seed(405)
old.men<-rnorm(50,mean=80,sd=15)
young.men<-rnorm(50,mean=70,sd=15)
young.women<-rnorm(50,mean=60,sd=15)
old.women<-rnorm(50,mean=60,sd=15)
cat<-rep(1:4, c(50,50,50,50))
gender<-rep(1:2, c(100,100))
age<-c(rep(1,50),rep(2,100),rep(1,50))
wt<-c(old.men,young.men,young.women,old.women)
data<-data.frame(cbind(wt,cat,age,gender))
data$cat<-factor(data$cat,labels=c("old.men","young.men","young.women","old.women"))
data$age<-factor(data$age,labels=c("old","young"))
data$gender<-factor(data$gender,labels=c("male","female"))

wt

mod<-lm(wt~age*gender,data)
library(effects)
allEffects(mod)

 model: wt ~ age * gender

 age*gender effect
       gender
age         male   female
  old   80.61897 57.70635
  young 67.78351 56.01228

限界効果の標準誤差または信頼区間を計算する必要がありますか?上で参照された「エフェクト」パッケージはこれを行うことができますが、はるかに複雑な相互作用モデルであっても、Aiken and West(1991)が公式を提供します。彼らの表は、マットゴールダーによる非常に優れた解説とともに、ここに印刷されています

ダンのテストを実装します。

#install.packages("dunn.test")
dunn.test(data$wt, data$cat, method="bh")

Kruskal-Wallis chi-squared = 65.9549, df = 3, p-value = 0


                           Comparison of x by group                            
                             (Benjamini-Hochberg)                              
Col Mean-|
Row Mean |    old.men   young.me   young.wo
---------+---------------------------------
young.me |   3.662802
         |    0.0002*
         |
young.wo |   7.185657   3.522855
         |    0.0000*    0.0003*
         |
old.wome |   6.705346   3.042544  -0.480310
         |    0.0000*    0.0014*     0.3155

クラスカル・ウォリスのカイ二乗検定結果のp値は、少なくとも1つのグループが「別の母集団から来ている」ことを示唆しています。グループごとの比較の場合、一番上の数値はダンのz検定統計量で、一番下の数値はp値で、複数の比較用に調整されています。私たちの例のデータはかなり人為的だったので、非常に多くの小さなp値があることは驚くべきことではありません。しかし、若い女性と年配の女性の右下の比較に注意してください。この検定は、これら2つのグループ間に差がないという帰無仮説を正しくサポートしています。

更新:他の回答が与えられたため、この回答は更新され、これには任意の形式の非線形モデリングが必要であるという考え、またはOPの2つのバイナリ共変量、つまり4つのグループの特定の例を考えると、これをノンパラメトリックに評価するための符号変更。たとえば、年齢が連続している場合、この問題に対処する他の方法がありますが、それはOPによって与えられた例ではありませんでした。


2つの交差した因子の構造は使用しません。4つのグループを比較するだけです。Dunnのテストは、相互作用に関するものではありません。
HorstGrünbusch16年

同意し、ダンのテストは相互作用についてではありません。ただし、この質問では、2つのバイナリ変数間の相互作用について具体的に質問します。私の回答は、これが4つのグループを比較することと同等であることを示しています。インタラクションの用語がOPにとって新しいものである場合、うまくいけば、これは役立つ図です。
5ayat 2016年

1

したがって、これらのランダム変数があります:

  • AN
  • S{male,female}
  • W]0,[

そして、あなたはこれらの確率質量/密度関数を持っています:

  • fWW
  • fW,AW,A
  • fW,SW,S
  • fW,A,SW,A,S

was

  • fW,A(w,a)fW(w)
  • fW,S(w,s)fW(w)

fW,A,S(w,a,s)fW,A(w,a)fW,S(w,s)

was

ただし、あなたは上記の本当の共同PDFを知りません。ノンパラメトリックメソッドに限定したいので、ここでのタスクは、これらのノンパラメトリック推定を見つけることです。

  • f^W,A(w,a)
  • f^W,S(w,s)
  • f^W,A,S(w,a,s)

そしてそれを示します:

  • 密度推定は十分に正確です。
  • f^W,A,S(w,a,s)f^W,A(w,a)f^W,S(w,s)
  • f^W,A,S(w,a,s)=f^W,A(w,a)=f^W,S(w,s)

0

それは相互作用の影響をチェックすることになります。線形モデリングはそのようなことをチェックできますが、ノンパラメトリックではないので、別のツールを使用する必要があると思います。

これまでの自分のチェックagegender効果はどうですか?

編集:この答えはあなたに役立つようです

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.