2つの線形回帰モデルの比較


12

2つの異なる条件下でのmRNAの経時的な分解率を表す2つの線形回帰モデルを比較したいと思います。各モデルのデータは個別に収集されました。

これがデータセットです。

時間(時間)ログ(処理A)ログ(処理B)
0 2.02 1.97
0 2.04 2.06
0 1.93 1.96
2 2.02 1.91
2 2.00 1.95
2 2.07 1.82
4 1.96 1.97
4 2.02 1.99
4 2.02 1.99
6 1.94 1.90
6 1.94 1.97
6 1.86 1.88
8 1.93 1.97
8 2.12 1.99
8 2.06 1.93
12 1.71 1.70
12 1.96 1.73
12 1.71 1.76
24 1.70 1.46
24 1.83 1.41
24 1.62 1.42

これらは私のモデルです:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
コール:
lm(式= Exp1 $ Time〜Exp1 $(治療A))

残差:
    最小1Q中央値3Q最大 
-6.8950 -1.2322 0.2862 1.2494 5.2494 

係数:
                   標準の見積もり エラーt値Pr(> | t |)    
(切片)74.68 6.27 11.91 2.94e-10 ***
Exp1 $(処理A)-36.14 3.38 -10.69 1.77e-09 ***
---
シグニフ。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1

残差標準誤差:19自由度で2.97
複数のR二乗:0.8575、調整済みR二乗:0.85 
F統計:14.3と1 DFで114.3、p値:1.772e-09

コール:
lm(式= Exp1 $ Time〜Exp1 $(治療B))

残差:
   最小1Q中央値3Q最大 
-7.861 -3.278 -1.444 3.222 11.972 

係数:
                      標準の見積もり エラーt値Pr(> | t |)    
(切片)88.281 16.114 5.478 2.76e-05 ***
Exp1 $(治療B)-41.668 8.343 -4.994 8.05e-05 ***
---
シグニフ。コード:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 '' 1

残差標準誤差:19自由度で5.173
複数のR二乗:0.5676、調整済みR二乗:0.5449 
F統計:1と19 DFで24.94、p値:8.052e-05

これら2つのモデルを比較するために、次のコードを使用しました。

anova(Exp1.A.lm,Exp1.B.lm)
分散分析表

モデル1:Exp1 $ Time〜Exp1 $ Exp1 $(治療A)
モデル2:Exp1 $時間〜Exp1 $ Exp1 $(処理B)
  Res.Df RSS Df Sq F Pr(> F)の合計
1 19 167.60                      
2 19 508.48 0 -340.88

私の質問は、ANOVA分析がF統計量とp.valを示さない理由です。これがナイーブな質問であるかどうか、私の謝罪

異なる勾配に基づいて、これらの2つのモデルでは劣化の速度が異なりますが、この違いが統計的にどれほど重要であるかを知りたいと思います。これが理にかなっているといいのですが。


2
分散分析表に、分析に関連する自由度が0としてリストされていることに気付くでしょう。両方のモデルに同じ数の変数があるため、Fまたはp値を計算できません。
gung-モニカの復活

5
これらのモデルを比較して、それらの適合度を確認するまで気にしません。2つ目の例では、応答もその対数も時間の線形関数ではないことがわかります。これは、(真剣に)勾配推定値の比較に疑問を投げかけます。
whuber

回答:


11

AとBを新しい列として1つの長い列にデータを設定すると、回帰モデルを、連続時間変数と名目上の「実験」変数(A、B)を持つGLMとして実行できます。ANOVAの出力は、パラメーター間の違いの重要性を示します。「切片」は一般的な切片であり、「実験」係数は実験間の切片間の差(実際には全体の平均)を反映します。「時間」係数は一般的な勾配となり、交互作用は実験に関する差です。斜面に。

私はチート(?)を認め、最初に2つのパラメーターセットとそのエラーを取得するためにモデルを個別に実行し、次に結合モデルを実行して処理の違い(ケースAとB)を取得する必要があります...


3
これは賢いアプローチです。「チート」するとき、エラー分散が各モデルでほぼ同じであることを確認しますか?そして、それらが大幅に異なるように見える場合、それはあなたの推奨にどのように影響しますか?
whuber

GLMは優れたアプローチであり、データを探索するために、別々のモデルをフィッティングすることは、実験間のエラー分散を判断するための良い方法です。本当に懸念がある場合は、GLMモデルを拡張して、すべての実験データに共通のエラー分散の暗黙の仮定ではなく、グループ固有のエラー分散を含めることができます。
prince_of_pears

もう1つ頭に浮かぶのは、OPが実験間の劣化率が単に異なるかどうか(絶対速度を無視して)のトレードに関心があるかどうか、またはこれらの速度も統計的に(または実際には)ゼロと異なるかどうかです。最初は、治療と時間の間の相互作用係数がゼロに等しいという仮説の検定に相当します。2つ目は、各レートがゼロとは異なる2つの個別のテスト(または1つの結合仮説テスト)を実行することです。最初の前に2番目をテストする方が興味があるかもしれません。
prince_of_pears

5

ANOVA分析では、F統計量とp。値は表示されません。これは、両方のモデルの残余自由度が同じ(つまり19)であり、差を取るとゼロになるためです。F検定を実行するには、差をとった後に少なくとも1つの自由度が必要です。


あなたの答えが理解できるかどうかわかりません。残留自由度が等しい理由はありますか?勾配を比較する別のアプローチについて何か提案はありますか?
Rooz

n=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19

F検定以外にも、それらを比較する多くの方法があります。最も簡単な方法は、要約と同じように複数のR二乗と調整済みR二乗を使用することです。R二乗または調整済みR二乗が高いモデルの方が適しています。ここで、より良いモデルはExp1 $(Treatment A)のモデルのようです。ただし、モデルの残差を確認して、近似モデルの妥当性を確認する必要があることに注意してください。私は個人的にはR二乗基準のみに依存することをお勧めしません。線形モデルの他の仮定も確認する必要があります。特に、残差が自己相関しているかどうかを確認します。
統計
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.