帰無仮説の下での線形回帰での分布は何ですか?ときになぜモードがゼロにならないのですか?


26

帰無仮説下での線形単変量多重回帰における決定係数、またはR 2乗の分布は何ですか?R2H0:β=0

予測子の数とサンプルのどのように依存しますか?この分布のモードに閉形式の表現はありますか?kn>k

特に、単純な回帰(1つの予測子)の場合、この分布のモードはゼロになりますが、重回帰の場合、モードはゼロ以外の正の値になります。もしこれが本当なら、この「相転移」の直感的な説明はありますか?x


更新

@Alecosが以下に示すように、および場合、分布は実際にゼロでピークに達し、場合、ゼロではありません。この相転移には幾何学的な見方が必要だと感じています。OLSの幾何学的ビューを考えてみましょう:はベクトルで、は次元の部分空間を定義します。OLSはこの部分空間にを投影することになり、はとその投影間の角度の二乗余弦です。k=2k=3k>3yRnXkyR2Yyy^

@Alecosの答えから、すべてのベクトルがランダムである場合、この角度の確率分布はおよびでピークになりますが、他の値モードを持つことになりますのため。なぜ?!90k=2k=3<90k>3


更新2:私は@Alecosの回答を受け入れていますが、ここでいくつかの重要な洞察を逃していると感じています。もし誰かがこの現象について他の(幾何学的であるか否かを問わず)それを「明白」にするだろうと提案した場合、私は喜んで賞金を提供します。


1
エラーの正常性を引き受けますか?
Dimitriy V. Masterov

1
はい、この質問に答えられるようにするには、それを仮定する必要があると思います(?)。
アメーバは2014


1
@Khashaa:実際、ここに質問を投稿する前に、そのブログスポットページを見つけたことを認めなければなりません。正直に言って、私はまだフォーラムでこの現象について議論したかったので、それを見なかったふりをしました。
アメーバは2014

回答:


33

特定の仮説(すべてのリグレッサー係数がゼロであり、このテストでは検証されない定数項を含まない)および正規性の場合(たとえばMaddala 2001、p。155を参照してください。ただし、は定数項のないリグレッサなので、式は少し異なります)k

Fk1nk

F=nkk1R21R2
は、中央の確率変数として分布しています。F(k1,nk)

定数項はテストしませんが、もカウントすることに注意してください。k

物を動かす

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R2=(k1)F(nk)+(k1)F

しかし、右側は特にベータ配布として配布されます

R2Beta(k12,nk2)

この配布モードは

modeR2=k121k12+nk22=k3n5


有限モードと一意モード上記の関係から、分布が一意かつ有限のモードを持つためには、

k3,n>5

これは、ベータ配布の一般的な要件と一致しています。

{α>1,β1},OR{α1,β>1}

このCVスレッドから推測するか、ここで読むことができます。場合、均一分布を取得するため、すべての密度点はモード(有限だが一意ではない)である
ことに注意してください。質問を作成します:なぜ、場合、として分布していますか?、K = 3 N = 5 R 2 U 0 1 {α=1,β=1}k=3,n=5R2U(0,1)

含意回帰変数(定数を含む)、および観測値がある
と仮定します。かなり良い回帰、過剰適合なし。それからn = 99k=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

および密度プロット

ここに画像の説明を入力してください

直観してください:これは、回帰に実際に属する回帰子はないという仮説の下での分布です。そのため、a)分布はリグレッサから独立しています。b)サンプルサイズが増加すると、分布がゼロに向かって集中します。与えられたサンプルサイズに対して増加すると、分布はに集中し、「スプリアスフィット」現象が発生します。 1R21

しかし、また、帰無仮説を拒否するのが「簡単」であることに注意してください。特定の例では、累積確率は既にに達しているため、取得したは「無意味な回帰」の帰無を拒否します"有意水準%。0.99 R 2 > 0.13 1R2=0.130.99R2>0.131

補遺分布の
モードに関する新しい問題に対応するために、次の考え方(幾何学的ではない)を提供できます。これは、「スプリアスフィット」現象にリンクしています。設定すると、本質的に未知数を持つ線形方程式のシステムを解きます(高校の数学との唯一の違いは、当時は「既知の係数」、線形回帰では「変数/リグレッサー」、「未知のx」 「未知の係数」、「定数項」と呼ばれるものを「従属変数」と呼びます)。長いほど n k k < n 1 R 2 k = n k R 2 1 k nR2nkk<nシステムは過剰に識別されており、正確な解は存在せず、近似値にすぎません。そして、差はによってキャプチャされる「従属変数の説明できない分散」として現れます。の場合、システムには1つの厳密な解があります(線形独立性を仮定)。その間に、の数を増やすと、システムの「過剰識別の程度」を減らし、単一の正確な解に「向かっていきます」。この見方では、が無関係な回帰の追加によって誤って増加する理由、そしてその結果、が与えられたが増加するにつれてそのモードがに向かって徐々に移動する理由は理にかなっています。1R2k=nkR21kn


1
その数学的。の場合、ベータ分布の最初のパラメーター(標準表記の「」)は1より小さくなります。その場合、ベータ版ディストリビューションには有限モードがありません。keisan.casio.com/ exec / system / 1180573226いじって、形状がどのように変化するかを確認してください。αk=2α
アレコスパパドプロ14

1
@Alecosすばらしい答えです!(+1)モードが存在するための要件を回答に追加することを強く提案できますか?これは通常および表されますが、より微妙に、2つのうちの1つで等式が成り立つ場合は問題ありません...私たちの目的では、これはおよびなり、これらの不等式の少なくとも1つは厳密です。β > 1 K 3 N K + 2α>1β>1k3 nk+2
シルバーフィッシュ14

2
@Khashaa理論が要求する場合を除いて、回帰から切片を除外することはありません-それは従属変数、リグレッサまたはリグレッサなしの平均レベルです(そしてこのレベルは通常正であるため、それは愚かに自己作成された誤仕様になります省略します)。しかし、従属変数がゼロ以外の無条件平均を持っているかどうかではなく、この平均からの逸脱に関して説明変数が説明力を持っているかどうかが重要なので、常に回帰のF検定から除外します。
アレコスパパドプロ14

1
+1!ゼロ以外の分布の結果はありますか?β jをR2βj
クリストフハンク


18

私は、@ Alecosの優れた答えの分布を再確認しません(標準的な結果です。別の方法については、こちらを参照してください)良い議論)が、私は結果についての詳細を記入したいです!まず、と値の範囲に対してヌル分布はどのように見えますか?@Alecosの回答のグラフは、実際の重回帰で発生することを非常によく表していますが、小さなケースからより簡単に洞察を収集できる場合もあります。平均、モード(存在する場合)、標準偏差を含めました。グラフ/表は良い目玉に値する:フルサイズで表示するのが最適R2nknkBeta(k12,nk2)R2nk。より少ないファセットを含めることもできましたが、パターンはそれほど明確ではありませんでした。R読者がと異なるサブセットで実験できるようにコードを追加しました。nk

小さいサンプルサイズのR2の分布

形状パラメーターの値

グラフの配色は、各形状パラメーターが1未満(赤)、1に等しい(青)、または複数(緑)であるかどうかを示します。左側ショーの値ながら右側にあります。以降、等差数列でその値が大きくなるの公差によって我々は(我々のモデルに回帰を追加)列から列に右に移動します一方、固定、は減少します。合計は、各行に対して(特定のサンプルサイズに対して)固定されています。代わりにを修正する場合β α = K - 1αβ 1α=k12 Nβ=N-K12n 1β=nk2 α+β=N-112 Kαβ1α+β=n12k列を下に移動して(サンプルサイズを1増やします)、は一定のままで、は増加します。回帰項では、はモデルに含まれるリグレッサの数の半分で、は残差自由度の半分です。分布の形状を決定するには、または 1に等しい場所に特に関心があります。αβ αβαβ12αβαβ

代数はに対して簡単です:なのでです。これは、実際、左側の青色で塗りつぶされたファセットプロットの唯一の列です。同様に、場合は(左側の列は赤)、場合は(列以降、左側は緑)です。K - 1αk12=1α < 1 K < 3 、K = 2 α > 1 K > 3 、K = 4k=3α<1k<3k=2α>1k>3k=4

ため我々は、従って。これらのケース(青色の右側でマークされている)がファセットプロットを斜めに切断していることに注意してください。以下のために我々が得(斜線の左側に緑色の左側位置とのグラフ)。以下のために我々は、必要がで:、私のグラフ上の唯一の一番右の例を伴う我々は持っていると分布が縮退しているが、どこがプロットされます(右側が赤)。n kβ=1nk2=1k=n2β>1k<n2β<1k>n2n=kβ=0n=k1β=12

PDFはであるため、if(およびif )その後、 as。我々は、グラフでこれを見ることができます:左側が赤斜線されたときに、0に動作を観察同様とき次いでような。右側が赤いところを見てください!f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

対称性

グラフの最も人目を引く特徴の1つは対称性のレベルですが、ベータ分布が関係する場合、これは驚くべきことではありません!

場合、ベータ分布自体は対称です。これは、パネルを正しく識別する、、、および。分布が全体で対称である範囲は、そのサンプルサイズのモデルに含める回帰変数の数によって異なります。もしの分布約0.5完全に対称です。含める変数の数がそれよりも非対称になり、確率質量の大部分が近づくと、α=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9)R2=0.5k=n+12R2R2=0; さらに変数を含めると、近づきます。それを忘れないでくださいその数の切片を含み、そして私たちがnullの下で働いているので、回帰変数が正しく指定されたモデルに係数ゼロを持つべきであるということ。R2=1k

明らかに対称性もある、所与のいずれかの分布すなわちファセットグリッド内の任意の行、。たとえば、と比較します。これは何が原因ですか?の分布は、わたるの鏡像であることを思い出してください。今、我々は持っていたおよび。を考えてみてください:n(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)x=0.5αk,n=k12βk,n=nk2k=nk+1

αk,n=(nk+1)12=nk2=βk,n
βk,n=n(nk+1)2=k12=αk,n

したがって、これは、固定されたサンプルサイズに対してモデル内のリグレッサの数を変化させるときの対称性を説明します。また、特別な場合としてそれ自体が対称である分布についても説明します。それらについては、なので、それらはそれ自体と対称である必要があります。k=k

与えられたサンプルサイズのために:これは、私たちは重回帰について推測していない可能性があります何かを伝えと本物の関係していると、何の説明変数がないと仮定すると、使用モデルの説明変数を加えた切片が同じ分布を有します持つモデルの場合との残りの自由度の残留nYR2k11R2k1

特別な配布

とき我々は持っている有効なパラメータではありません。ただし、、分布はようなスパイクで縮退します。これは、データポイントと同じ数のパラメーターを持つモデルについて私たちが知っていることと一致しており、完全に適合しています。グラフに縮退分布を描画していませんが、平均、モード、標準偏差を含めました。k=nβ=0β0P(R2=1)=1

および場合、アークサイン分布であるを取得します。これは対称()およびバイモーダル(0および1)です。これはと両方(両側に赤でマーク)の唯一のケースであるため、サポートの両端で無限大になる唯一の分布です。k=2n=3Beta(12,12)α=βα<1β<1

分布で唯一のベータ分布である矩形(均一)。0から1までの値はすべて同様に可能性があります。組み合わせのみ及びのための発生は、及び(両側青マーク)。Beta(1,1)R2knα=β=1k=3n=5

これまでの特別なケースの適用範囲は限られていましたが、および(左が緑、右が青)が重要です。今、我々は持っているので[0、1]のべき乗分布。もちろん、およびで回帰を実行することはまずありません。これは、この状況が発生したときです。しかしおよび場合、前の対称性の引数、またはPDFのいくつかの自明な代数によって、これは2つの回帰変数と非自明なサンプルサイズ切片を使用した重回帰の頻繁な手順ですα>1β=1f(x;α,β)xα1(1x)β1=xα1k=n2k>3k=3n>5R2下の[0、1]の反射べき乗則分布にます。H0これはおよび対応するため、左に青、右に緑でマークされます。α=1β>1

また、での三角分布とその反射気づいたかもしれません。我々は彼らから認識することができとこれらはべき乗則とパワーがある反射電力則分布の単なる特殊な例であることを。(k=5,n=7)(k=3,n=7)αβ21=1

モード

もし及び、プロット内のすべての緑、有する凹面である、およびベータ分布固有モードます。モードをと、これらをとでと、条件はおよびになります。α>1β>1f(x;α,β)f(0)=f(1)=0α1α+β2knk>3n>k+2k3n5

他のすべてのケースは上記で処理されました。不等式を緩和してを許可する場合、および(同様に)の(緑-青)べき法則分布を含めます。これらのケースには明らかにモード1があり、ため、実際には前の式と一致します。代わりにを許可したが、まだ要求した場合、およびの(青緑)べき乗則分布が見つかります。モードは0で、これはと一致し。ただし、両方の不等式を同時に緩和して、を許可する場合β=1k=n2k>3n>5(n2)3n5=1α=1β>1k=3n>533n5=0α=β=1、一意のモードを持たないおよびの(すべて青)均一分布を見つけます。さらに、この場合、前の式は不定形を返すため、適用できません。k=3n=53355=00

場合、モード1の縮退分布が得られます。(回帰項では、ため、自由度は1つしかありません)、 as、および(回帰項ではため、切片と1つのリグレッサーを含む単純な線形モデル)、 as。これらは、0と1で2峰性であると(単純な線形モデルを3つの点に当てはめる)の異常な場合を除いて、ユニークなモードです。 n=kβ<1n=k1f(x)x1α<1k=2f(x)x0k=2n=3

平均

質問はモードについて尋ねましたが、ヌルの下の平均も興味深いです-それは非常に単純な形式持っています。サンプルサイズが固定されている場合、場合に平均値が1になるまで、より多くのリグレッサがモデルに追加されるにつれて、算術の進行が増加します。ベータ分布の平均はため、を固定した、合計は一定であるがは0.5モデルに追加された各リグレッサに対して。R2k1n1k=nαα+βnα+βα

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

プロットのコード

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
本当に視覚化を照らします。+1
ハシャー14

すばらしい追加、+ 1、ありがとう。分布がとき(および他のどこにも)ときにをモードと呼ぶことに気付きました-上記の@Alecos(コメント内)がしたくないことです。私はあなたに同意します:それは便利です。0+x0
アメーバは2014

1
「0付近の値が最も可能性が高い」(または1)と言いたいグラフの@amoebaです。しかし、Alecosの答えは、一貫性があり、多くの当局と一致しています(モードとしてカウントできるかどうかは言うまでもなく、0と1のフルストップの処理方法は異なります)。モードへの私のアプローチは、アルファとベータの条件を使用して公式を適用できる場所を決定するため、Alecosとはほとんど異なります。開始点を公式として、どのkとnが賢明な答えを与えるかを見るのではありません。
シルバーフィッシュ14

1
(+1)、これは非常に肉な答えです。保つことによりあまりにも近い、小さな、質問が詳細に研究し、その決定的に、比較的あまりにも多くの無関係な説明変数と本当に小さなサンプルの場合の両方。kn
アレコスパパドプロ14

@amoebaこの答えが、が十分に大きい、では分布のモードが0であるがでは正である理由について代数的な答えを提供することにおそらく気づいたでしょう。以来、次にために我々は明らかに0でモードを持っているのためのに対し、我々はその最大値は、計算によって引用モードの式であることがわかります。上昇、のパワー 0.5ずつ上昇します。これですnk=3k>3f(x)x(k3)/2(1x)(nk2)/2k=3f(x)(1x)(n5)/2n>5k=4 K X X α - 1、F 0 = 0f(x)x1/2(1x)(n6)/2kxxα1係数によりなるため、0でモードが強制終了されますf(0)=0
Silverfish
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.