R 2乗の条件付き期待値


16

単純な線形モデルを考えます:

yy=Xββ+ϵ

ここで、および 、およびには列が含まれます定数の。ϵii.i.d.N(0,σ2)XRn×pp2X

私の質問は、、および与えられた場合、 *の非自明な上限の式はありますか?(モデルがOLSによって推定されたと仮定)。E(XX)βσE(R2)

*これを書いて、E R 2を取得すると仮定したE(R2)自体ことは不可能だと。

EDIT1

StéphaneLaurentによって導出された解(下記参照)を使用して、E(R2)。いくつかの数値シミュレーション(下記)は、この限界が実際にはかなり厳しいことを示しています。

ステファンローランは、次の派生:BP - 1 N - P λは非中心性パラメーターを有する非中心ベータ分布であるとR2B(p1,np,λ)B(p1,np,λ)λとし

λ=||XβE(X)β1n||2σ2

そう

E(R2)=E(χp12(λ)χp12(λ)+χnp2)E(χp12(λ))E(χp12(λ))+E(χnp2)

ここで、χk2(λ)非中心であるχ2パラメーターとλk自由度。したがって、非自明な上限E(R2)

λ+p1λ+n1

それは非常にタイトです(予想していたよりもずっとタイトです):

たとえば、次を使用します。

rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)

1000回のシミュレーションでの平均R20.960819です。上記の理論上の上限はを与え0.9609081ます。境界は、Rの多くの値にわたって等しく正確であるようですです。本当に驚いた!R2

EDIT2:

さらなる研究の後に、表示さに上限近似の品質ことをとして良くなるλ + p個の増加(および他のすべて等しく、λと共に増加するn個)。E(R2)λ+pλn


は、 n pのみに依存するパラメーターを持つベータ分布があります。番号 ?R2np
ステファンローラン

1
申し訳ありませんが、私の以前の主張は、「nullモデル」(切片のみ)の仮説の下でのみ真実です。それ以外の場合、の分布は、未知のパラメーターを含む非心度パラメーターを持つ非心ベータ分布のようなものでなければなりません。R2
ステファンローラン

@StéphaneLaurent:ありがとう。未知のパラメーターとベータのパラメーターとの関係についてもっと知りたいですか?私が立ち往生しているので、任意のポインターを歓迎します
...-user603

絶対に対処する必要がありますか?おそらく、E [ R 2 /1 R 2]の単純で正確な公式があります。E[R2]E[R2/(1R2)]
ステファンローラン

1
私の答えの表記法では、いくつかのスカラーkのおよび非心F分布の最初のモーメントは単純です。R2/(1R2)=kFkF
ステファンローラン

回答:


12

任意の線形モデルを書くことができる Gは、上に標準正規分布持つRを Nμが線形部分空間に属していると仮定されるWR N。あなたの場合、W = Im X Y=μ+σGGRnμWRnW=Im(X)です。

ましょうベクターによって生成一次元の線形部分空間である1 1 ... 1 。服用U = [ 1 ]以下、R 2は非常に古典的なフィッシャー統計に関連している F = P Z Y 2 /M - [1]W(1,1,,1)U=[1]R2 の仮説検定のためのH0{μU}UWは、線形部分空間であり、そしてにより表す Z=UWの直交補UWと表すM=DIMW=DIMU

F=PZY2/(m)PWY2/(nm),
H0:{μU}UWZ=UWUWm=dim(W)=dim(U)(次いで= 1あなたの状況で)。m=p=1

実際、 の定義ので、R2は、であり 、R2=P Z Y 2

PZY2PWY2=R21R2
R2
R2=PZY2PUY2=1PWY2PUY2.

明らかおよび P W Y = σ P W GPZY=PZμ+σPZGPWY=σPWG

場合H0:{μU}次いで、したがって、 F = P Z G 2 /M - PZμ=0 フィッシャー有するFのM-ℓをN-m個の分布。従って、フィッシャー分布とベータ分布の間の古典的な関係から、R2BM-N-M

F=PZG2/(m)PWG2/(nm)Fm,nm
Fm,nmR2B(m,nm)

一般的な状況では、我々は対処しなければならないP Zは、 μ 0を。この一般的な場合のいずれかで有するP Z Y 2σ 2 χ 2 M - λ 、非心χ 2を有する分布M - ℓの自由度と非心パラメータλ = PZY=PZμ+σPZGPZμ0PZY2σ2χm2(λ)χ2m、次いで FFのM-N-Mλ(非心フィッシャー分布)。これは、F検定の検出力の計算に使用される古典的な結果です。λ=PZμ2σ2FFm,nm(λ)F

フィッシャー分布とベータ分布の古典的な関係は、非中心的な状況でも成り立ちます。最後に「形状パラメータ」と非心ベータ分布持つM - N - Mと非心パラメータλを。瞬間は文献で入手できると思いますが、おそらく非常に複雑です。R2mnmλ

最後に、私たちがダウンして書いてみましょうP Z = P WP Uであることに注意してください。一つは有するP U μ = ˉ μ 1たときU = [ 1 ]、およびP W μ = μを。従ってP Z μ = μ - ˉ μ 1ここでμ = X β未知のパラメータベクトルのβPZμPZ=PWPUPUμ=μ¯1U=[1]PWμ=μPZμ=μμ¯1μ=Xββ


1
PZxxZP

1
PxPx2

1
Done - do you see any simplification ?
Stéphane Laurent

1
μ¯=1nμi
Stéphane Laurent

1
Type I, obviously: type II are distributed on (0,). Actually R2/(1R2) has the type II distribution. I have done the last corrections for today.
Stéphane Laurent
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.