多重線形回帰におけるp値の理解


12

多重線形回帰分析のp値については、MinitabのWebサイトからの紹介を以下に示します。

各項のp値は、係数がゼロに等しい(影響なし)という帰無仮説を検定します。低いp値(<0.05)は、帰無仮説を棄却できることを示します。言い換えると、予測子の値の変化は応答変数の変化に関連しているため、p値が低い予測子はモデルに意味のある追加になる可能性があります。

たとえば、結果のMLRモデルは です。と出力は以下に示されています。次に、この方程式を使用してyを計算できます。y=0.46753X10.2668X2+1.6193X3+4.5424X4+14.48y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

上記の導入に基づいて、帰無仮説は、係数が0私の理解は、係数は、例えば係数ということで等しいことである、0に設定され、別のYは以下のように計算されるY 2 = 0.46753 X 1 - 0.2668 X 2 + 1.6193は、X 3 + 0 X 4 + 14.48。次に、対応するt検定がyy 2に対して行われますが、このt検定のp値は6.9e-12で、0.1292(X 4の係数のp値)とは異なります。X4y2=0.46753X10.2668X2+1.6193X3+0X4+14.48yy2X4

誰かが正しい理解を手伝ってくれる?どうもありがとう!


回帰ルーチンの出力を表示できますか?
Aksakal 2014

p値計算の説明は非標準です。なぜあなたはあなたが説明するように計算されるべきだと思いますか?出力のp値は、パラメーターのVar-Cov行列から計算されます。Waldのような制限テストを実行したい場合、それはあなたが説明する方法ではありません。あなたは3つの変数でモデルを再推定する必要があるだろう、対数尤度などを取得
Aksakal

1
その概要によれば、p値のみが小さいため、「有意な」変数は1つ(「切片」)しかありません。引用文の素朴で誤解を招く慣行を超えるには、重回帰についてさらに学ぶ必要があります。この点に関して何を学ぶことができるかを確認するには、私たちのサイトで関連するスレッドを探すことを検討してください
whuber

2
- :この二つの質問の答えをチェックしstats.stackexchange.com/questions/5135/...をして- stats.stackexchange.com/questions/126179/...彼らは私がp値を計算する方法を理解する助け、あなたがそれらを見つけることができます願っています同様に役立つ。
ジャコモ

回答:


7

これは、いくつかの理由で正しくありません。

  1. X4の「なし」のモデルは、他の値に対して必ずしも同じ係数推定値を持つとは限りません。縮小モデルを適合させ、自分の目で確かめてください。

  2. Y

  3. 係数の統計的有意性について行われる統計的検定は、1サンプルのt検定です。X4の複数の係数の「サンプル」がないため、これは混乱を招きますが、中心極限定理を使用して、このようなサンプルの分布特性を推定できます。平均と標準誤差は、そのような制限的な分布の位置と形状を表します。「Est」列を取り、「SE」で除算して標準正規分布と比較すると、4列目のp値が得られます。

  4. 4番目のポイント:minitabのヘルプページに対する批判。このようなヘルプファイルでは、1段落では何年にもわたる統計トレーニングを要約することはできなかったので、全体を扱う必要はありません。しかし、「予測子」が「重要な貢献」であると言うのはあいまいで、おそらく正しくありません。多変量モデルに含める変数を選択する根拠は微妙で、統計的推論ではなく科学的推論に依存しています。


0

p値の最初の解釈は正しいように見えます。つまり、切片だけが0とは大幅に異なる係数を持っています。x4の係数の推定値はまだかなり高いが、十分ではないという十分なエラーがあることがわかります0とは異なります。

y1とy2の対応のあるt検定は、モデルが互いに異なることを示唆しています。これは予想されることです。1つのモデルに、大きくはあるが不正確な係数が含まれているため、モデルにかなり寄与しています。これらのモデルのp値が互いに異なることは、x4の係数のp値が0と異なることと同じであると考える理由はありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.