線形モデル:2つの異なる測定方法の予測力の比較


9

私は予測に興味があり、Y異なる2つの測定手法X1とを研究していX2ます。たとえば、テーブルの上に置いた時間を測定するか、バナナの茶色の斑点の数を測定することで、バナナの美味しさを予測したい場合があります。

1つだけを実行することを選択した場合、どちらの測定手法が優れているか知りたい。

Rで線形モデルを作成できます。

m1 = lm(Y ~ X1)
m2 = lm(Y ~ X2)

ではX1、バナナの美味しさの優れた予測因子であるとしましょうX2。2つのモデルのを計算すると、モデルのR 2はモデルより明らかに高くなります。メソッドがどのように優れているかについての論文を書く前に、違いが偶然ではないこと、おそらくp値の形である種の指標を得たいと思います。R2R2m1m2X1X2

これについてはどうすればよいでしょうか?異なるブランドのバナナを使用しているときに、バナナブランドをランダムエフェクトとして組み込んだ線形混合効果モデルに移行する方法を教えてください。


モデルに両方の予測子を含めることができない理由を明確にできますか?あなたのケースではX1X2おそらく相関関係があります。茶色の斑点は、テーブルの上に横たわる時間の増加に伴っておそらく増加するからです。
COOLSerdash 2013年

X1とX2のどちらが優れた測定方法であるかをテストすることに興味があります。両方を1つのモデルに含めることがその質問に答えることができれば、問題はありません。同じことを測定しているので、両者は明らかに相関しています。
ロダン2013年

私が言いたいのは、バナナの味を測定しようとするとき、テーブルの上に置かれた時間を測定することは、茶色の斑点の数を数えるよりもこれを判断するためのより良い方法です(p <0.05)。
ロダン2013年

回答:


7

線形混合効果モデルがあることを聞いた後に追加したいことの1つ:、およびB I Cは、引き続きモデルを比較するために使用できます。たとえば、このペーパーを参照してください。サイトの他の同様の質問から、このペーパーは非常に重要であるようです。AIC,AICcBIC


元の答え

基本的に必要なのは、ネストされていない2つのモデル比較することですバーナムとアンダーソンモデルの選択とマルチモデルの推論では、これについて議論し、A I C cまたはB I Cなどを使用することをお勧めします。彼らはA I C A I C cB I Cなどの情報理論的基準テストではなく、「重要な」という言葉は避けるべきであると明確に述べていますAICAICcBICAIC,AICc,BIC 結果を報告するとき。

これこの答えに基づいて、私はこれらのアプローチをお勧めします:

  1. 平滑化を含むデータセットの散布図行列(SPLOM)を作成しますpairs(Y~X1+X2, panel = panel.smooth, lwd = 2, cex = 1.5, col = "steelblue", pch=16)。ライン(スムーザー)が線形関係と互換性があるかどうかを確認します。必要に応じてモデルを調整します。
  2. モデルm1とを計算しますm2。いくつかのモデルチェック(残差など)plot(m1)を実行しplot(m2)ます。
  3. 両方のモデルの(小さいサンプルサイズに対して補正されたA I C)を計算し、2つのA I C c間の絶対差を計算します。パッケージには、機能を提供し、このために:。この絶対差が2より小さい場合、2つのモデルは基本的に区別できません。それ以外の場合は、A I C cが低いモデルを優先しますAICcAICAICcR psclAICcabs(AICc(m1)-AICc(m2))AICc
  4. 入れ子になっていないモデルの尤度比検定を計算します。R パッケージは、lmtest機能有しているcoxtest(コックス検定)、 jtest(ダビッドソン-マッキノンJ試験)及びencomptest(ダビッドソン&マッキノンの包含テスト)。

いくつかの考え: 2つのバナナ測定が本当に同じものを測定する場合、どちらも予測に等しく適している可能性があり、「最良の」モデルがない可能性があります。

このペーパーも役立つかもしれません。

ここに例がありますR

#==============================================================================
# Generate correlated variables
#==============================================================================

set.seed(123)

R <- matrix(cbind(
  1   , 0.8 , 0.2,
  0.8 , 1   , 0.4,
  0.2 , 0.4 , 1),nrow=3) # correlation matrix
U <- t(chol(R))
nvars <- dim(U)[1]
numobs <- 500
set.seed(1)
random.normal <- matrix(rnorm(nvars*numobs,0,1), nrow=nvars, ncol=numobs);
X <- U %*% random.normal
newX <- t(X)
raw <- as.data.frame(newX)
names(raw) <- c("response","predictor1","predictor2")

#==============================================================================
# Check the graphic
#==============================================================================

par(bg="white", cex=1.2)
pairs(response~predictor1+predictor2, data=raw, panel = panel.smooth,
      lwd = 2, cex = 1.5, col = "steelblue", pch=16, las=1)

SPLOM

スムーザーは線形関係を確認します。もちろん、これは意図されたものです。

#==============================================================================
# Calculate the regression models and AICcs
#==============================================================================

library(pscl)

m1 <- lm(response~predictor1, data=raw)
m2 <- lm(response~predictor2, data=raw)

summary(m1)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.004332   0.027292  -0.159    0.874    
predictor1   0.820150   0.026677  30.743   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.6102 on 498 degrees of freedom
Multiple R-squared:  0.6549,    Adjusted R-squared:  0.6542 
F-statistic: 945.2 on 1 and 498 DF,  p-value: < 2.2e-16

summary(m2)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.01650    0.04567  -0.361    0.718    
predictor2   0.18282    0.04406   4.150 3.91e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.021 on 498 degrees of freedom
Multiple R-squared:  0.03342,   Adjusted R-squared:  0.03148 
F-statistic: 17.22 on 1 and 498 DF,  p-value: 3.913e-05

AICc(m1)
[1] 928.9961

AICc(m2)
[1] 1443.994

abs(AICc(m1)-AICc(m2))
[1] 514.9977

#==============================================================================
# Calculate the Cox test and Davidson-MacKinnon J test
#==============================================================================

library(lmtest)

coxtest(m1, m2)

Cox test

Model 1: response ~ predictor1
Model 2: response ~ predictor2
                Estimate Std. Error   z value  Pr(>|z|)    
fitted(M1) ~ M2   17.102     4.1890    4.0826 4.454e-05 ***
fitted(M2) ~ M1 -264.753     1.4368 -184.2652 < 2.2e-16 ***

jtest(m1, m2)

J test

Model 1: response ~ predictor1
Model 2: response ~ predictor2
                Estimate Std. Error t value  Pr(>|t|)    
M1 + fitted(M2)  -0.8298   0.151702  -5.470 7.143e-08 ***
M2 + fitted(M1)   1.0723   0.034271  31.288 < 2.2e-16 ***

最初のモデルのは明らかに低く、R 2ははるかに高くなっています。AICcm1R2

R2,AICBICR2


R2AICc

R2,AICBICR2AICc

謝罪する必要はありません。別の賢明な方法が同じ結論を示唆するときはいつでも、それは良い知らせだと思います!
Nick Cox

優秀な。コックステストはまさに私が欲しかったものです。残念ながら、私のモデルはlme4パッケージに適合した線形混合効果モデルであり、パッケージで直接サポートされていませんlmtest。LMEを使用したcoxのようなテストについて書かれた文献に飛び込む前に、それを行うためにすぐに利用できるRパッケージを知っている人はいますか?
ロダン2013年

@Rodinいいえ、Rそれができるパッケージは知りません。たぶん、この投稿はあなたにさらなるガイダンスを与えることができます。
COOLSerdash 2013年

3

R2

ここではバナナの例が多分面白そうですが、直線フィットがうまく機能するとは思いません...

答えで他の人たちによって動かされた推論の機械は知的美しさのものですが、時々あなたはナッツを割るために最先端のハンマーを必要としません。その夜を公開する人が日よりも暗い人は、「正式にテストしたことはありますか?P値は何ですか?」


AIC

1
少し前に戻ってこれを覚えておくことは常に良いので+1ですが、これが実際には特に役に立たない奇妙なケースであるのではないかと思っています。2つの仮の予測子が実質的に異なる変数とは対照的に同じものの異なる測定値である場合、1つのモデルが他のモデルより明らかに優れている可能性は本当に高いですか?少しの間バナナを脇に置いて、少し異なるアンケートや定規対レーザー距離計を考えてください。1つの測定法は、非線形性が1つの場合に現れ、他の場合には現れないようにするために、極端に欠けている必要があります。
ガラ2013年

2
R2

私は、データとモデルによる適合を明確に提示することが最善の方法であることに同意します。このようにして、読者は自分が良いことについての記述を受け入れるかどうかを自分で決めることができます。ただし、レビュアーが純粋に冗談の反応からの有意性テストを要求することを恐れています。Ga nightlの昼夜に関するコメントはそれほど遠くない。
ロダン2013年

1
昼も夜もそれが私でした...
Nick Cox

2

ネストされていないモデルに対してCoxテストを実行します。

y <- rnorm( 10 )
x1 <- y + rnorm( 10 ) / 2
x2 <- y + rnorm( 10 )

lm1 <- lm( y ~ x1 )
lm2 <- lm( y ~ x2 )

library( lmtest )

coxtest( lm1, lm2 )
?coxtest

(他のテストへの参照があります)。

このコメントこの質問も参照してください。特に、AIC / BICの使用を検討してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.