回帰におけるp値の意味


27

一部のソフトウェアパッケージ(Mathematicaなど)で線形回帰を実行すると、モデル内の個々のパラメーターに関連付けられたp値が得られます。、例えば、結果生成する線形回帰の結果関連付けられたp値有するであろうと一つ。a bax+bab

  1. これらのパラメーターについて、これらのp値は個々に何を意味しますか?

  2. 回帰モデルのパラメーターを計算する一般的な方法はありますか?

  3. 各パラメーターに関連付けられたp値をモデル全体のp値に結合できますか?

この質問を本質的に数学的に保つために、確率の観点からp値の解釈のみを求めています。


@cardinalにリンクされた質問でのGavinの回答は、それをよく言っています。
JMは統計家ではありません

6
@ zyx、OPの質問に関して高度なものはありません。これらは非常に一般的な質問であり、私の意見では、stats.SEの方が適切であり、参加者もより適切に調整されています。Math.SEとMOは、どちらも確率の質問には優れたリソースですが、統計の質問にはあまり適していません。OPの質問は、後者の方がはるかに重要です。
枢機

@cardinal:パブリックベータの開始以来、stats.SEをフォローしています。これまでの4800+の質問のうち、私は見つけることができませんでした1本は「非常に一般的な」クエリの場合は奇数であるOP、からアイテム3を尋ねたり答え。また、項目1に対する概念的に正確な回答は、項目1が出てきたときに見たことがありません。これらのことは、数分以内にstats.SEに移行するのではなく、より多くの聴衆の注意を引くためにmath.SEとMOに定期的に投稿すべきだと思います。stat.SEについて質問することは問題ありませんが、後者を統計について議論できる唯一の場所に変えることは役に立ちません。
zyx

meta.math.SEには、math.SEからstats.SEへの移行に関するスレッドがあります。
zyx

(上記のコメントの一部は移行で失われました。元のmath.SEの投稿で表示され、「migrated from ...」という単語の横にリンクされています)
zyx

回答:


13
  1. p値仮説検定のp値である「α = 0」(通常2両側T検定)。p値bが「仮説の検定のp値であるβ = 0(また、通常両面」T検定)と同様に、回帰における他の係数について。これらの検定の確率モデルは、線形回帰モデルで想定されているものによって決定されます。最小二乗線形回帰の場合、ペア(a b)は、真のパラメーター値(α β)を中心とする2変量正規分布に従いますaα=0tbβ=0ta,bα,β)、および各係数の仮説検定は、適切な正規分布(1つの変数、つまりaまたはbのみの分布)のサンプルに基づいて、α = 0(またはβ = 0)であるかどうかをテストすると同等です。正規分布はやや複雑で、「自由度」と「ハット行列を」関与している表示されるの詳細は(表記に基づいてA常にOLS回帰の理論に現れる行列のいくつかのために)。tα=0β=0abA^

  2. はい。通常、これは最尤推定によって行われます(そして定義されます)。ための回帰線形OLSおよび他のモデルの少数データからパラメータを推定する正確な式が存在します。より一般的な回帰では、解は本質的に反復的で数値的です。

  3. 直接ではありません。モデル全体のテスト、つまり(実際に変化すると推定される変数の)すべての係数が存在する場合、「定数項」の係数を含まないという仮説のテストに対して、p値が個別に計算されます。 1)。ただし、このp値は通常、係数のp値の知識からは計算できません。


2
あなたのポイント(1.)で、パラメーター推定器の間には少し混乱があるようです。 -valueは、推定ではなく、パラメータに関連付けられていると推定は、(少なくとも、古典的な統計に固定であると考えられる)二変量正常ではないパラメータです。また、ポイント(3.)でのコメントは、回帰推定の個々のp値の一部が対応するからのジョイントp値より大きくも小さくも完全に可能である(そして非常に一般的)ため、混乱を招く可能性がありますF-テスト。pppF
枢機

@NRH:申し訳ありませんが、以前のコメントを明確にしてください。私は(まだ)それに従いません。:)
枢機

@cardinal:p値が仮説検定に関連付けられていると言う方が正確に思えます。パラメーターは検定の帰無仮説に現れ、ペア(推定器の観測値、対立仮説)がp値を決定します。帰無仮説は、現在編集されている元の回答で[不注意]に行われた推定器a = 0ではなく、α= 0などのパラメーターを使用して説明する必要があります(エラーを指摘していただきありがとうございます)。ただし、「推定量はパラメーターではなく、2変量正規分布である」と思われる区別が紛らわしい、または欠落していると答えられました。
zyx

1
申し訳ありませんが、抵抗できませんでした。@zyxはmath.SEの元の投稿にコメントし、stat.SEの回答はしばしば不正確でした。数学的には不正確な場合もありますが、多くの答えは非常に正確です。それは物事の性質にあります。統計的な質問と回答は、必ずしも正確な数学的ステートメントに還元できるとは限りません。特に難しいものではありません。しかし、ここで提供される答えは、私の意見では特に正確でも正確でもありません。
-NRH

3
誰かが説明的なコメントを提供してくれればいいと思います。
枢機

1

最初の質問について:これは選択したソフトウェアに依存します。これらのシナリオで頻繁に使用される実際には2つのタイプのp値があり、どちらも通常は尤度比検定に基づいています(他にもありますが、通常は同等であるか、少なくとも結果がほとんど異なりません)。

これらのp値はすべて、残りのパラメーター(の一部)に条件があることを理解することが重要です。つまり、他のパラメーター推定値(の一部)が正しいと仮定して、パラメーターの係数がゼロかどうかをテストします。通常、これらの検定の帰無仮説は、係数がゼロであるため、p値が小さい場合、(他の係数の値に応じて)係数自体がゼロになる可能性は低いことを意味します。

タイプIテストでは、モデル内で左にある係数の値に基づいて、各係数のゼロネスを条件付きでテストします。タイプIIIテスト(限界テスト)、他のすべての係数の値を条件とする各係数のゼロネスのテスト。

異なるツールはデフォルトとして異なるp値を示しますが、通常は両方を取得する方法があります。パラメーターを何らかの順序で含める統計以外の理由がない場合は、通常、タイプIIIのテスト結果に関心があります。

最後に(最後の質問に関連して)、尤度比テストを使用すると、残りを条件とする係数セットのテストをいつでも作成できます。これは、同時にゼロになる複数の係数をテストする場合の方法です(そうしないと、厄介な複数のテストの問題が発生します)。


あなたが言及した条件付けについて詳しく説明していただけますか?有する単変量回帰分析で予測因子と切片、パラメータの線形結合で仮説を試験ψ = C ' βの使用は、テスト統計T = ψ - ψ 0pψ=cβt=ψ^ψ0σ^c(XX)1c

ψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcjψ0=0t

たとえば、問題の本質をここに示します。anovaは回帰の特殊なケースにすぎないことを忘れないでください。基本的に、これは次のようになります。変数Bの有無に関係なく、モデルで変数A(の係数)のゼロ性をテストすると、異なる結果が得られる場合があります。したがって、結果は、モデル、データ(変数Bの値であっても)、したがってテストではなくモデルの係数に依存します。数学でそのアイデアを見つけるのは少し難しいかもしれません:
ニックサブブ

p1pcββjF=SSerSSeあなたは/dferdfeあなたはSSeあなたは/dfeあなたはSSerdfer||er||2あなたは

連続した場合は、0-1でエンコードされた二分変数と完全に同等である必要があります。
ニックサブベ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.