仮説検定の多重線形回帰


15

複数の線形回帰を使用してさまざまな変数のモデルを作成することに精通しています。ただし、回帰テストを使用して、基本的な仮説のテストを行う場合は興味がありました。もしそうなら、それらのシナリオ/仮説はどのように見えるでしょうか?


1
あなたが意味することをさらに説明できますか?変数の勾配パラメーターがゼロと異なるかどうかをテストすることは非常に一般的です。これを「仮説検定」と呼びます。あなたはそれを知らないのですか、それとも何か違うことを意味しますか?目的のシナリオを構成するものは何ですか?
GUNG -復活モニカ

私はそれを知りません。また、回帰ベースの分析が他の種類の仮説検定に使用されるかどうかも不明でした(おそらく、ある変数の別の変数に対する重要性など)。
cryptic_star

回答:


25

以下に簡単な例を示します。Rに慣れているかどうかはわかりませんが、コードが十分に自明であることを願っています。

set.seed(9)        # this makes the example reproducible
N = 36
    # the following generates 3 variables:
x1 =     rep(seq(from=11, to=13),           each=12)
x2 = rep(rep(seq(from=90, to=150, by=20),   each=3 ), times=3)
x3 =     rep(seq(from=6,  to=18,  by=6 ),  times=12)
cbind(x1, x2, x3)[1:7,]    # 1st 7 cases, just to see the pattern
      x1  x2 x3
 [1,] 11  90  6
 [2,] 11  90 12
 [3,] 11  90 18
 [4,] 11 110  6
 [5,] 11 110 12
 [6,] 11 110 18
 [7,] 11 130  6 
    # the following is the true data generating process, note that y is a function of
    #   x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
    #   & that x2 tends to have less influence on the response variable than x1:
y  = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)

reg.Model = lm(y~x1+x2+x3)    # fits a regression model to these data

次に、これがどのように見えるかを見てみましょう。

. . . 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -1.76232   27.18170  -0.065  0.94871   
x1           3.11683    2.09795   1.486  0.14716   
x2           0.21214    0.07661   2.769  0.00927 **
x3           0.17748    0.34966   0.508  0.61524   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
. . . 
F-statistic: 3.378 on 3 and 32 DF,  p-value: 0.03016 

出力の「係数」セクションに焦点を当てることができます。モデルによって推定された各パラメーターは、独自の行を取得します。実際の見積もり自体は、最初の列にリストされています。2番目の列には、推定の標準誤差、つまり、このプロセスを何度も繰り返した場合に、サンプルからサンプルへ「バウンスする」推定量がリストされます。より具体的には、推定値のサンプリング分布の標準偏差の推定値です。各パラメーターの推定値をそのSEで除算すると、3番目の列にリストされているtスコアが得られます。これは、仮説のテストに使用されます。具体的には、パラメーターの推定値が0と '有意に'異なるかどうかをテストします。最後の列はそのtスコアに関連付けられたp値。帰無仮説が真である場合、0から遠く離れた推定値見つける確率です。帰無仮説が当てはまらない場合、この値が意味のあるものをすべて伝えているかどうかは明確ではないことに注意してください。

Coefficientsテーブルと上記の真のデータ生成プロセスを行き来すると、いくつかの興味深いことがわかります。切片は-1.8で、SEは27であると推定されますが、真の値は15です。関連するp値は.95であるため、0(タイプIIエラー)とは「大きく異なる」とは見なされませんが、それにもかかわらず、それ 1つのSE 内で真の値です。したがって、真の価値と変動すべき量の観点から、この推定について極端に極端なものはありません。0と区別するのに十分ながありません。x1x2.21214.2x3x1偶然よりも応答変数をよりよく予測します。別の言い方をすれば、すべての推定値を0と区別できないと見なすべきかどうかです。このテストの結果は、少なくともいくつかのパラメーター推定値が0に等しくないことを示しています。上記の4つのテストがあるため、これがないと多重比較の問題から保護されません。(p値は確率変数であるため(実験で実験が再実行された場合、何か重要なことが実験ごとに異なるかどうかにかかわらず)、これらが互いに矛盾する可能性があることに注意してください。ここでのCV:重回帰における係数の有意性:有意なt検定と有意でないF統計量、ここでの逆の状況:回帰は重要ですが、すべての予測子は非有意である可能性があります&&ここ:回帰のF統計とt統計。)おそらく奇妙なことに、この例にはタイプIエラーはありません。とにかく、この段落で説明した5つのテストはすべて仮説テストです。

あなたのコメントから、ある説明変数が他の説明変数よりも重要であるかどうかを判断する方法についても疑問に思うかもしれません。これは非常に一般的な質問ですが、非常に注意が必要です。アスリートの身長と体重に基づいてスポーツの成功の可能性を予測し、どちらがより重要かを考えたいと想像してください。一般的な戦略は、どの推定係数が大きいかを調べることです。ただし、これらの推定値は使用された単位に固有です。たとえば、重量の係数は、ポンドとキログラムのどちらを使用するかによって変わります。また、ポンドとインチ、またはキログラムとセンチメートルをどのように同等化/比較するかは明確ではありません。人々が採用する戦略の1つは、標準化することですR2r=r2


2

回帰モデルの重要なテストは、Full-Reducedテストです。ここで2つの回帰モデルを比較します。フルモデルにはすべての用語が含まれ、Reducedテストにはそれらの用語のサブセットが含まれます(ReducedモデルはFullモデルにネストする必要があります)。次に、このテストでは、縮小モデルが完全モデルと同様に適合し、差異は偶然によるものであるという帰無仮説をテストします。

統計ソフトウェアからの一般的な印刷には、全体的なFテストが含まれます。これは、縮小テストがインターセプトのみのモデルである完全縮小テストです。また、各予測子のp値を出力することもよくあります。これは、一連の完全縮小モデルテストであり、各縮小モデルには特定の用語が含まれていません。これらのテストを使用して関心のある質問に答える方法は多数あります。実際、統計の入門コースで教えられるほとんどすべてのテストは、回帰モデルと完全縮小テストを使用して計算でき、結果は多くの場合同一であり、他のいくつかでは非常に近い近似になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.