のみを知っており、直接知らない場合の線形回帰


13

と仮定します。Xβ=Y

正確にはわかりませんが、各予測子との相関関係のみがわかります。YXtY

通常の最小二乗(OLS)解はであり、問​​題はありません。β=(XtX)1XtY

しかし、がほぼ特異(多重共線性)であり、最適なリッジパラメーターを推定する必要があるとします。すべてのメソッドは正確な値を必要とするようです。XtXY

がわかっている場合、代替方法はありますか?XtY


興味深い質問。おそらく、EMアルゴリズムのいくつかの並べ替えは...働くだろう
probabilityislogic

わかりませんが、最適なリッジパラメーターの推定に交差検定を使用できませんか?
パルディス

@Pardis:質問には損失関数が示されていないため、最適な意味はわかりません。損失関数がMSEである場合に発生する問題を確認できますか?
枢機

1
@JohnSmith:あなたは私が運転していたポイントをほのめかしています。「最適性」を測定する方法は示されていません。効果的に行っているのは、予測または適合の「品質」を測定するために、異なるメトリック(距離関数)を導入することです。非常に遠くまで到達するためには、OPからの詳細が必要だと思います。
枢機

1
@Pardis:ご指摘のとおり、推定値を見つけることは問題ではありません。:)しかし、クロスバリデーションを行うことに決めた場合、サンプル外のMSE、つまり、各反復の左アウトフォールドをどのように推定しますか?:)
枢機

回答:


8

これは興味深い質問です。驚くべきことに、特定の仮定の下で何かを行うことは可能ですが、残差分散に関する情報が失われる可能性があります。に依存します。X

のは、以下の特異値分解を考えるのと AN正規直交列を有する行列、正の特異値を持つ対角行列対角および a直交行列の次に、の列は、および の列空間の正規直交基底を形成します。 で展開されたときに、この列スペースにを投影するための係数のベクトル X U N × P D D 1D 2D P > 0 V P × P U X Z = U T Y = D - 1 V T V D U T Y = D - 1 V T X T Y Y U Z XX=UDVtXUn×pDd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
YU列ベース。式から、はと知識のみから計算可能であることがわかります。ZバツバツtY

所与のためのリッジ回帰予測のでように計算することができる 列ベースの リッジ回帰予測子の係数は ここで、は次元の平均と共分散行列があるという分布の仮定を立てます。その後、有する次元の平均および共分散行列。独立した人を想像するとY = X X T X + λ I - 1 X T Y = U D D 2 + λ I - 1 D U T Y = U D D 2 + λ I - 1 D Z U Z = D D 2 + λ I -λ

Y^=バツバツtバツ+λ1バツtY=うんDD2+λ1DうんtY=うんDD2+λ1DZ
うんYnはξ σ 2 I N ZP U T ξ σ 2 I P Y YX Z = U T Y Z E | | Y - Y | | 2
Z^=DD2+λ1DZ
Ynξσ2nZpうんtξσ2pY新着と同じ分布を有する(上の条件付きすべて対応以下、適宜から)同じを有しますとしての分布で独立しており、 ここで、3番目の等式はおよび直交性に続きますそして4番目の事実によってYバツZ新着=うんtY新着ZY-UZの新UZ-U Z UのErr0λ
E||Y新着Y^||2=E||Y新着うんZ新着+うんZ新着うんZ^||2=E||Y新着うんZ新着||2+E||うんZ新着うんZ^||2=エラー0+E||Z新着Z^||2
Y新着うんZ新着うんZ新着うんZ^うんは正規直交列があります。量は、情報を取得できないエラーが、も依存しません。左側の予測誤差を最小化するには、右側の2番目の項を最小化する必要があります。エラー0λ

標準計算による ここでは、パラメーターを使用したリッジ回帰の有効自由度として知られています。の不偏推定量は、

E||Z新着Z^||2=E||ZZ^||2+2=1pcovZZ^=E||ZZ^||2+2σ2=1pd2d2+λdfλ
dfλλE||ZZ^||2
エラーλ=||ZZ^||2==1p1d2d2+λ2Z2

我々は(公平)と組み合わせる推定 の、わかっている場合は、最小化する必要があります。私たちが知っている場合は明らかに、これはのみ行うことができますまたは合理的に推測かの推定持つ。

エラーλ+2σ2dfλ
E||Z新着Z^||2σ2σ2σ2

推定には、より問題があります。示すことが可能である したがって、二乗バイアスを無視できるほど小さいを選択できる場合は、をとして 推定することができ これが機能するかどうかは、大きく依存します。σ2

E||ZZ^||2=σ2p=1pd2d2+λ2d2d2+λdλ+バイアスλ2
λσ2
σ^2=1pdλ||ZZ^||2
バツ

詳細については、ESLのセクション3.4.1と第7章、またはGAMの第2 章をご覧ください。


0

質問のようにを定義し、をさまざまなパラメーターに設定し、サンプルラベルのを設定します。次いで、不明ので計算可能であるの両方を展開するときにドロップアウト規範。ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

これは、次のアルゴリズムにつながります。

  • トレーニングセットいくつかの選択肢についてを計算します。eλKK
  • 結果を関数としてプロットします。λ
  • プロットが最も平坦な値を受け入れます。λ
  • 使用最終推定値として。β=[バツTバツ+λ]1バツTY

1
「プロットが最も平坦な場所」は非常に小さく、およそ0のようになります:)λ
jbowman

@jbowman:これは、問題が適切に調整されており、正則化を必要としない場合にのみ発生し、が実際に適切です。悪条件の場合、外側の項目の予測は過剰適合のために貧弱になり、したがっては大きくなります。λ=0KeλK
アーノルドノイマイアー

3
@ArnoldNeumaier:は計算できません。各予測子との相関関係のみがわかっています。は、「Yドメイン」ではなく「予測子ドメイン」にあります(Nがサンプルサイズで、pが予測子の数である場合、p個の値のみがあり、予測子ごとに1つあります)。バツTYKバツTY
ジャグ

@Jag:を選択するための十分な情報がありません。しかし、は何らかの形で収集されたに違いありません。収集中にサンプルをバッチに分割し、バッチごとに個別にを組み立てた場合、相互検証のためにそれぞれ1つのバッチを予約できます。λバツTYkバツTY
アーノルドノイマイアー

@ArnoldNeumaier:は外部から与えられ、収集されません。バツTY
ジャグ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.