リッジ回帰の仮定とそれらをテストする方法は何ですか?


21

多重回帰のための標準的なモデル検討、全ての保留正常、等分散性及びエラーのuncorrelatednessので。ε N0 σ 2 I N

Y=Xβ+ε
εN(0,σ2In)

の対角のすべての要素に同じ少量を追加することにより、リッジ回帰を実行するとします。X

βridge=[XX+kI]1XY

はバイアス推定器ですが、リッジ係数の平均二乗誤差がOLSによって得られる値よりも小さい値がいくつかあります。実際には、は相互検証によって取得されます。β R I D G E β Kkβridgeβk

ここに私の質問があります:リッジモデルの基礎となる仮定は何ですか?具体的には、

  1. リッジ回帰では、通常の最小二乗(OLS)の仮定はすべて有効ですか?

  2. 質問1が「はい」の場合、偏った推定量して、等分散性と自己相関の欠如をどのようにテストしますか?β

  3. リッジ回帰の下で他のOLS仮定(同相性と自己相関の欠如)をテストする作業はありますか?


6
OLSでは、予測変数が独立しているとは想定していないことに注意してください。このような仮定を行うのは、特定の特定の解決方法または式のみです。重要なのは、リッジ回帰乗数の選択方法であり、の推定値にバイアスがかかる可能性があるということではありません。リッジトレースを目で見てその乗数を選択した場合、実際には不確実性を定量化する方法がなく、線形回帰理論の正式な診断テストのほとんどに疑問が生じます。これは、「リッジ回帰」が実際に何を意味するのかを尋ねます。そのパラメーターをどのくらい正確に推定していますか?β
whuber

おそらく、私は間違っているが、複数の回帰の標準モデルを考慮。IFおよびXがフルランクではない、非正則行列にこのリードX " Xは、特にXの高次元の場合には、私は私の質問を編集しました。ありがとう。βOLS=(XX)1XYXXX
akyves

1
「大きすぎない」限り、線形回帰は共線性を完全に処理できます。
ジョナ

3
これは、重回帰のモデルではありません。最小二乗推定値を表現する唯一の方法です。とき可逆ではない、通常の方程式は、まだ解決策を持っているし、(通常は)モデルはまだ独自の持っているフィット、それはユニークな予測を作る意味します、。XX
whuber

回答:


21

統計的手順の前提は何ですか?

私は統計学者ではないので、これは間違っているかもしれませんが、「仮定」という言葉はしばしば非常に非公式に使用され、さまざまなものを指すことができると思います。私にとって、「仮定」とは、厳密に言えば、理論的な結果(定理)のみが持つことができるものです。

人々が線形回帰の仮定について話すとき(詳細な議論についてはこちら参照)、彼らは通常、無相関、等分散、ゼロ平均誤差の仮定下で、OLS推定は青であると言うガウス・マルコフの定理を参照していますすなわち、不偏であり、最小の分散を持ちます。ガウス-マルコフの定理の文脈以外では、「回帰の仮定」が何を意味するのかさえ明確ではありません。

同様に、たとえば1サンプルt検定の仮定は、統計がt分布であり、したがって推論が有効であるという仮定を参照します。「定理」と呼ばれていませんが、それは明確な数学的な結果である:場合は、n個のサンプルが正常に配布され、その後、T -statisticスチューデント続くのtと-distributionをN - 1自由度。ttnttn1

ペナルティ付き回帰手法の仮定

ここで、正規化された回帰手法を考えてみましょう:リッジ回帰、なげなわ、エラスティックネット、主成分回帰、部分最小二乗回帰など。これらの方法のポイントは、回帰パラメーターの偏った推定を行い、期待値を減らすことですバイアスと分散のトレードオフを利用した損失。

これらのメソッドにはすべて、1つまたは複数の正則化パラメーターが含まれており、これらのパラメーターの値を選択するための明確なルールはありません。通常、最適な値はある種の相互検証手順を介して検出されますが、さまざまな相互検証方法があり、多少異なる結果が得られる可能性があります。さらに、相互検証に加えて、いくつかの追加の経験則を呼び出すことも珍しくありません。その結果、実際の結果のβこれらのペナルティ回帰法のいずれかのは、実際には完全に法で規定されていないが、アナリストの選択に依存することができます。β^

したがってについての理論的な最適性のステートメントがあることができる方法私に明確ではないβ、と私はわからないので、このようなリッジ回帰として罰せ方法の「仮定」(その存在または不在)の話をすることはまったく理にかなっていること。β^

しかし、リッジ回帰が常にOLSに勝るという数学的な結果はどうでしょうか?

Hoerl&Kennard(1970)の「リッジ回帰:非直交問題のバイアス推定」ではβのリッジ回帰推定値がOLS推定値よりも厳密に小さい予想損失を持つように、正則化パラメーターλの値が常に存在することが証明されました。これは驚くべき結果です。議論についてはこちらご覧ください。ただし、データセットに依存するλの存在を証明するだけです。λβλ

この結果は実際には仮定を必要とせず、常に真実ですが、リッジ回帰に仮定がないと主張するのは奇妙です。

わかりましたが、リッジ回帰を適用できるかどうかはどうすればわかりますか?

仮定について話せなくても、経験則について話せます。相関回帰を使用した多重回帰の場合、リッジ回帰が最も役立つ傾向があることはよく知られています。多くの場合、大きなマージンでOLSを上回る傾向があることはよく知られています。不均一分散、相関エラー、その他の場合でも、パフォーマンスを上回る傾向があります。したがって、単純な経験則では、多重共線データがある場合は、リッジ回帰と交差検証が良いアイデアであると言います。

恐らく他の有用な経験則と取引のトリックがあるでしょう(例えば、グロス異常値をどうするかなど)。しかし、それらは仮定ではありません。

pp


何らかの手順に関連して推論のプロパティを導出している状況では、たとえば、回帰勾配の仮説検定のプロパティであるか、信頼区間または予測区間のプロパティであるかにかかわらず、検定自体は、ある条件下で導出されます仮定のセット。多くのサブジェクト領域では、回帰を使用する最も一般的な目的は何らかの推論を実行することであるため(実際、一部のアプリケーション領域では他の理由でめったに行われません)、推論手順に対して行われる仮定は自然に関連付けられますwith ... ctd
Glen_b -Reinstate Monica

ctd ...使用されているもの。したがって、回帰係数をテストするためのt検定、または平均または予測区間の部分F検定またはCIのt検定を導出するためにいくつかの仮定が必要な場合、通常の推論形式はすべて同じまたはほぼ仮定の同じコレクション、それらはその事を使用して推論を実行することに関連する仮定と合理的に考えられます。リッジ回帰を使用した推論(予測間隔など)を実行し、そうするために仮定を行う場合、それらは同様に仮定であると言われるかもしれません... ctd
Glen_b -Reinstate Monica

リッジ回帰に関する特定の種類の推論を導き出すことができる必要があります(そして、おそらく、それを使用するために)。
Glen_b -Reinstateモニカ

R2

1
遅すぎることなく、@ amoebaに感謝したいと思います。素晴らしい答えです!
-akyves

1

統計の観点からいくつかの入力を提供したいと思います。Y〜N(Xb、sigma2 * In)の場合、b ^の平均二乗誤差は

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

XT Xがほぼゼロの場合、inv(XT X)は非常に大きくなります。そのため、bのパラメーター推定は安定せず、次の問題が発生する可能性があります。

  1. パラメーター推定値の絶対値が非常に大きい
  2. bは、予想とは反対の正または負の符号を持ちます。
  3. 変数または観測値を追加または削除すると、パラメーター推定値が劇的に変化します。

bの順序最小二乗推定を安定させるために、を推定するb^(k)=inv(X.T*X+kI)*X.T*Y.ことによりリッジ回帰を導入します。そして、

MSE(b^(k)) < MSE(b^).

機械学習では、リッジ回帰はL2正則化と呼ばれ、多くの機能によって引き起こされる過剰適合問題に対処します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.