単純な線形回帰、p値、およびAIC


13

このトピックは、例えばhereの前に何度も出てきましたが、回帰出力をどのように解釈するのが最善かはまだわかりません。

x値の列とy値の列で構成される非常に単純なデータセットがあり、場所(loc)に従って2つのグループに分割されています。ポイントはこんな感じ

ここに画像の説明を入力してください

同僚は、各グループに個別の単純な線形回帰を当てはめる必要があると仮定しましたy ~ x * C(loc)。出力を以下に示します。

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

ここに画像の説明を入力してください

係数のp値を見ると、位置のダミー変数と相互作用項はゼロと有意な差はありません。その場合、回帰モデルは本質的に上記のプロットの赤い線になります。私にとって、これは、以下に示すように、2つのグループに別々の線を合わせるのは間違いかもしれず、より良いモデルはデータセット全体の単一の回帰線かもしれないことを示唆しています。

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

ここに画像の説明を入力してください

これは視覚的には問題ないように見え、すべての係数のp値は重要です。ただし、2番目のモデルのAIC は最初のモデルよりもはるかに高くなっています。

私は、そのモデルの選択はおよそ以上であると認識だけで p値または単に AICが、私はこれを行うためにはよく分かりません。誰でもこの出力の解釈と適切なモデルの選択に関する実用的なアドバイスを提供できますか?

私の目には、単一の回帰線は大丈夫に見えますが(特に良いとは思いませんが)、個別のモデルをフィッティングするための少なくとも正当化があるようです(?)。

ありがとう!

コメントに応じて編集

@カグダス・オズゲンク

2行モデルは、Pythonのstatsmodelsと次のコードを使用して適合しました

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

私が理解しているように、これは基本的にこのようなモデルの略記です

y=β0+β1バツ+β2l+β3バツl

lloc=Dl=0

y=β0+β1バツ

loc=Nl=1

y=β0+β2+β1+β3バツ

これは上のプロットの青い線です。このモデルのAICは、statsmodelsサマリーで自動的に報告されます。単線モデルでは、私は単に使用しました

reg = ols(formula='y ~ x', data=df).fit()

これでいいと思う?

@ user2864849

loc=D

編集2

完全を期すために、@ whuberが提案する残差プロットを以下に示します。2行モデルは、実際、この観点からははるかに良く見えます。

2行モデル

ここに画像の説明を入力してください

単線モデル

ここに画像の説明を入力してください

皆さんありがとう!


3
なぜ単一の回帰線があなたにとって良く見えるのかを説明することに気をつけますか?私には、線形に分離可能な2つのクラスターがあり、カテゴリNの分散はほとんどありません。信頼帯が重複しているため、最初の方が悪いと思いますか?
マルセナウ

6
バツ

3
R2

3
@StudentTの両方のモデルは、すべてのデータポイントを使用します。単純なモデルでは、使用する独立変数が少なくなります。1つのデータポイントはタプル全体です。
カグダスオズゲンク

5
モデル選択に仮説検定ベースのアプローチを採用する場合、2つの予測子がそれぞれ取るに足らないため、モデルから両方を削除してインポートがほとんどないと仮定してはなりません。共同有意性のF検定が適切です。
Scortchi -復活モニカ

回答:


1

相互作用なしで両方の予測子を使用してみましたか?だから:

y〜x + Loc

位置が重要であるため、AICは最初のモデルの方が優れている場合があります。ただし、相互作用は重要ではないため、P値は重要ではありません。Locを制御した後、xの効果として解釈します。


1

p値とAIC値だけでモデルの実行可能性を決定できるという概念に異議を唱えたと思います。ここで共有することを選択したことも嬉しいです。

既に説明したように、さまざまな用語とそれらの相互作用を考慮すると、さまざまなトレードオフが行われます。念頭に置いておくべき1つの質問は、モデルの目的です。の効果を決定するよう依頼された場合場所のをy、あなたは関係なく、p値がどのように弱いのモデル内の位置を維持する必要があります。その場合、ヌルの結果自体が重要な情報になります。

一見したところ、そのD場所がより大きなを意味することは明らかyです。しかし、x両方を持っているのは狭い範囲しかないDN、ロケーションの値と値のです。この小さな間隔でモデル係数を再生成すると、標準誤差がはるかに大きくなります。

しかし、予測能力を超えた場所は気にしないかもしれませんy。それはあなたがたまたま持っていたデータであり、プロット上で色分けすると興味深いパターンが明らかになりました。この場合、お気に入りの係数の解釈可能性よりもモデルの予測可能性に関心があるかもしれません。この場合、AIC値の方が便利だと思います。私はまだAICに精通していません。しかし、固定されたの場所を変更できる範囲はごくわずかしかないため、混合語にペナルティを課している可能性があります。まだ説明していない場所の説明はほとんどありません。xx


0

両方のグループを個別に報告する必要があります(または、マルチレベルモデリングを検討することもできます)。グループを単純に結合することは、回帰の基本的な前提(および他のほとんどの推論統計手法)の1つである観測の独立性に違反します。別の言い方をすれば、分析で考慮されない限り、グループ化変数(場所)は隠し変数です。

極端な場合、グループ化変数を無視すると、シンプソンのパラドックスにつながる可能性があります。このパラドックスでは、両方に正の相関がある2つのグループを設定できますが、それらを組み合わせると、(誤った、誤った)負の相関があります。(もちろん、その逆も可能です。)http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/を参照してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.