重回帰モデルですべての変数が非常に重要になることは現実的ですか?


8

エンジンの排気量、燃料の種類、2対4輪駆動、馬力、マニュアルトランスミッションと自動トランスミッション、および速度の数について、燃費を後退させたいと思います。私のデータセット(リンク)には、2012〜2014年の車両が含まれています。

  • fuelEconomy ガロンあたりのマイル
  • engineDisplacement:エンジンサイズ(リットル)
  • fuelStd:ガス用1、ディーゼル用0
  • wheelDriveStd:2輪駆動の場合は1、4輪駆動の場合は0
  • hp:馬力
  • transStd:自動の場合は1、手動の場合は0
  • transSpeed:速度の数

Rコード:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16
  1. ほとんどの変数が統計的に非常に有意であるため、結果は現実的ですか、またはここで何か間違っていますか?
  2. この目的のために他のモデルを使用する方が良いですか?
  3. そのような結果は解釈に使用できますか?

回答:


5

@AntoniParelleadaは、モデルの評価に使用できるいくつかの標準的なモデル診断手法を実証する優れた仕事をしました。私の主な関心事は、「ほとんどの変数は統計的に非常に有意である」ということです。

F-statistic: 1566 on 6 and 2648 DF662655transSpeed

おそらく、あなたの質問は、理論的な観点から、いくつかの変数は無関係であるはずでありfuelEconomy、したがって、それが重要であることに驚いているという信念によって動機付けられているのでしょう。(ただし、それが真実である場合は、モデルに含めることは珍しいことです。)しかし、有意な結果が必ずしも共変量が応答に影響を与えることを意味しないため、これはタイプIである必要はありません。エラー。データはほぼ確実に観測であるため、限界関連のみが検出されます。つまり、たとえば前輪駆動の車は、通常、後輪駆動車とは、どの車輪が動力を伝達するか、およびモデルに含まれる他の変数以外の点で異なる場合があります。したがって、の係数wheelDriveStdは、そして、すべてのunincludedの変数は、それと相関してfuelEconomy。したがって、物理学/工学から、どの車輪が動力を伝達するかが燃料効率とは無関係であることを知っていても、それが重要であることは理にかなっています。


統計よりも機械学習の知識が豊富です。大量のデータで100万行、1000列と言った場合、機能の「重要性」を気にする必要はもうありませんか?
Haitao Du

3
@ hxd1011のように、必ずしもそのように特徴付けることはしません。本当に関連性がない場合でも、タイプIのエラー率は.05のままなので、誰かが気にかける可能性がありますが、非常に些細な影響でさえ検出するのに十分な能力があります。類推として、「正規性テストは「本質的に役に立たない」ですか?
ガン-モニカの復活

本当に有益です。F統計に基づく膨大な統計的検出力についてのあなたの主張を直観的に把握するための参照/展望を与えるために追加できる1行があるかどうかと思います。
Antoni Parellada 2016

2
N=2655

ありがとうございました!統計では、もっと「隠されている」必要があるといつも思っています... :-)
Antoni Parellada

4

関係する力学と物理学についてはほとんど知りませんが、最初に確認するのは回帰診断、特に、全体的なパターンを残さないための残差と近似値のプロットです。

線形モデルを当てはめたため、各共変量はと線形に関連付けられていfuelEconomyます。これは、基礎となる機械的および物理的な理論によってサポートされていますか?非線形の関連付けはありますか?その場合、非線形項を含むモデル、特定の変数の変換、または加法モデルの使用を検討できます。関連付けが実際のデータセット内でもっともらしい線形であっても、データ制限を超えて結果を外挿する場合は十分に注意してください。


4

レスカーブと相関値(絶対値)を含む散布図行列は、出発点として最適です。

ここに画像の説明を入力してください

ここでは、おそらく次の関係に気づくことができますfuelEconomy両方に対してプロットlineDisplacementし、hpまたのでナイキスウッシュ外観に反映され、残留プロットを。これらの用語間の相互作用の存在を調査することは興味深いでしょう。

ここに画像の説明を入力してください

この線形性の欠如は、fuelEconomyに対して線形回帰を実行した場合にも明らかですlinearDisplacement(同様の結果がで得られますhp)。赤い線に注意してください...

ここに画像の説明を入力してください

この影響は部分的に修正され、モデルがより複雑になり、2次モデルが導入されます。

ここに画像の説明を入力してください

0.82050.7798


予測値の平均値を下げるだけの二項性でfuelStdありwheeldriveStd、事実上、ダミーでコード化された変数または因子です。これは最初の散布図でも明らかですが、ボックスプロットでさらに視覚化できます。

ここに画像の説明を入力してください


診断の最後のポイントは、調査する価値のある高レバレッジポイントの存在です。

ここに画像の説明を入力してください

何を結論付けますか?明確なものはありません。おそらく、データセットとそれに課せられたモデルを理解する上で、プロットすることの重要性を強調するだけかもしれません。


1

最初の質問に対する答えは、理論的フレームワーク、従属変数と独立変数の間の関係について仮説をどのように述べるか、結果をどのように解釈するかによって異なります。それ自体では、ほとんどの変数について統計的に有意な関係を取得しても、結果がどれほど現実的であるかについては何も言えない可能性があります。

したがって、これらの結果が疑わしい場合(事前の知識に基づいて)、回帰の診断テストを実行できます。モデルの仮定およびその他の問題(たとえば、外れ値)に違反している可能性があります。実際、これらのテストを実行して回帰モデルを評価することは常に役立ちます。を使用しているため、診断テスト用の多数の機能を提供するパッケージをRチェックできcarます。ここでは、carパッケージの作成者の1人(および作成者)であるJohn Fox による回帰診断に関するコーススライドを見つけることができます。彼の本に関するトピック(1991)もチェックできます。Kabacoff(2011)は、回帰診断とR関数の使用方法(carパッケージ)と結果の解釈(p.188-200)。これらの診断テストの後、結果とそれらがどれほど使いやすいかを評価する方が良いと思います。


フォックス、J。(1991)。回帰診断。ニューベリーパーク、ロンドン、ニューデリー:セージ出版。

カバコフ、ロードアイランド(2011)。R in Action:Rによるデータ分析とグラフィックス。シェルターアイランド:マニング。

また:

Fox、J.、&Weisberg、S.(2011)。線形および一般化線形モデルの問題の診断。でアンR応用回帰にコンパニオン(第2版、頁285から328)。ロサンゼルス:セージ出版。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.