リレベルを使用するとモデルが変更されるのはなぜですか?


8

Rを使用して回帰モデルを計算するとき、私は定期的にrelevel関数を使用して、他のレベルの結果も得られるようにモデルを取得します。頻繁ではありませんが、これがモデルを変更したことに気づきました。これは、レベルを変更する前に重要だった他の要因のレベルがもはや変わらないという意味です。これは、レベル変更または例外的なものに固有のものですか、おそらく私のデータの問題が原因ですか?私のデータが線形モデルの前提条件の1つを満たしていない可能性が高いことを示していますか?

これに関連して、リレベルを使用してモデルを再計算し、両方のモデルの有意性の値を記事に報告しても問題ありませんか?2つのモデル間で特定の要因の有意性が異なる場合、楽観的でないモデルを使用する必要があると思いますか?

私の質問は、基本レベルの必要性を把握するのに十分なlmについて知らないのではないかと思います。私はそれをかなりよく理解していると思いました;)どういうわけか私が読んだ導入のどれもその点を説明しなかった、または私はそれを理解するのが苦手でした。だから、誰かが私にlmの基本レベルを持っていることのポイントが説明されている、またはそれを自分で説明しているサイトに誘導できたら、それも素晴らしいことです!

編集:これは最小限の例です:

library(datasets)
sprays<-OrchardSprays
model<-lm(decrease~treatment+rowpos+colpos,data=sprays)
summary(model)

概要の一部は言う

treatmentC    20.625      9.731   2.120  0.03866 *

したがって、治療== Cの場合、これは「減少」に大きなプラスの影響を与えます。ここで、「治療」をBにレベル変更して、治療== Aがどのような影響を与えるかを調べます。

sprays$treatment<-relevel(sprays$treatment,"B")
summary(model)

そして今、治療== Cはこの新しいモデルでは重要ではありません:

treatmentC    17.625      9.731   1.811  0.07567 .

間違った場所に投稿してすみません!質問をstats statexchangeに移動できますか、またはそこで新しい質問を開く必要がありますか?


2
SOへようこそ。これを説明する再現可能な小さなを作成できると思いますか?
アンドリー

4
モデルがどのようなものであり、モデルのパラメーターを解釈する方法が実際にわからないようです。これはおそらく、stats stackexchangeサイトに適しています。
Dason 2012

2
これまでのコメントはどちらも的確なものです。簡単なd <- data.frame(y=runif(300),f=factor(rep(LETTERS[1:3],each=100)); lm(y~f,data=d)ことから始められますが、もちろんその場合は大きな変化はありません(ただし、レベルを変更すると、パラメーターの推定値とp値は確かに変化します)。
Ben Bolker、

多分あなたはこの本の74-75ページを見たいかもしれませんspringer.com/economics/econometrics/book/978-0-387-77316-2。これは明らかにダミー変数に関する計量経済学的問題です。ベースラインを変更しても、推定の期待値は変更されませんが、パラメーター推定は変更されます。すべての基本的な計量経済学の本は、この問題に役立ちます。

2
...これは、統計のあらゆる分野の問題であるモデルのパラメータ化の問題であるのと同じくらい、「計量経済学」の問題ではありません。
Dason、2012

回答:


7

因子conditionsにレベルがA,B,Cあり、をy使用して条件に対して応答変数を回帰するとしますmod <- lm(y ~ conditions)。今summary(mod)の基準レベルの平均値を返しconditions(例えばA)と条件との間の平均の差BAし、条件間の差CA(報告のそれぞれとして(Intercept)conditions:Bおよびconditions:C)。あなたの場合はconditions <- relevel(conditions, ref = 'B')、再reun線形モデル、今は、平均取得しますBとの違い、AおよびB、との違いCとはA。当然、p値は変化する可能性があります。データに問題があるという意味ではありません。これは、データが線形モデルの仮定を必ずしも満たしていないという意味ではありません。適合度は同じであり、参照レベルを変更して治療のコントラストを使用しているため、出力される情報を変更するだけです。元のを使用して、同じ線形仮説検定を取得できますmod

何を報告するかについては、多くのフィールドで、conditions(の出力を使用してanova(mod))統計的に有意な影響があったかどうかを報告し、(必要な参照レベルを使用して)テーブルの完全な回帰出力に報告するのが慣例です)。Avsのテストを報告する方法Bとかどうかの基準(たとえば)はフィールドによって異なります。あなたの分野の優れた論文をよく見てください。


おかげで、それはほとんど私の質問に答えます!明確化のために:因子が有意であるかどうか(anovaの出力)と完全な回帰出力を報告するのが慣習であると言いますが、テストの基準は異なる場合があります。しかし、完全な回帰出力(要約付き)には、主に(切片に加えて)これらのテストが含まれていますか?

はい、しかしそれはあなたがそれらを報告する必要があることを必ずしも意味しません。特に、インターセプトの有意性検定は...よりも頻繁無意味ではありません
ベンBolker

私は混乱しています...要約がそれらを報告する場合、それらは何かに役立つに違いないと思いますか?また、モデルを計算している主な理由は、どのレベルがどの程度の影響を与えていると言えるかをある程度確実に知りたいからです。したがって、それらが「無意味」になる傾向がある場合、私がこれを行う理由はほとんどありません。または、これを行う別の方法をお勧めしますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.