リッジ回帰を使用するときに係数標準誤差を推定するにはどうすればよいですか?


18

非常に多重共線性のデータでリッジ回帰を使用しています。OLSを使用すると、多重共線性のために係数に大きな標準誤差が生じます。私はリッジ回帰がこの問題に対処する方法であることを知っていますが、私が見たリッジ回帰のすべての実装では、係数について報告された標準エラーはありません。特定の係数の標準誤差がどれだけ減少するかを見ることで、リッジ回帰がどれだけ役立つかを推定する何らかの方法が欲しいです。リッジ回帰でそれらを推定する方法はありますか?

回答:


19

堅牢なSEを取得するには、boostrapが最適な選択肢だと思います。これは、ペナルティ付きロジスティック回帰アプローチを使用した北米関節リウマチコンソーシアムデータの分析など、収縮法を使用したいくつかの応用作業で行われました(BMC Proceedings 2009)。また、罰則付きモデル、罰則付き回帰、標準誤差、およびベイジアンラッソを使用したSE計算に関するCasellaの素晴らしい論文もあります(Bayesian Analysis 2010 5(2))。しかし、彼らは投げ縄Elasticnetのペナルティに関心があります。

私はいつも、リッジ回帰は、モデルが一般に簡潔ではない標準的なOLSよりも良い予測を得る方法として考えていました。変数選択のために、投げ縄またはelasticnet基準がより適切であるが、選択された変数は、他の1つのサンプルから変化するので、(ブートストラップ手順を適用することは困難であり、さらに内側に倍ループを最適化するために使用 /パラメーター); 常にすべての変数を考慮するため、これはリッジ回帰の場合ではありません。1 2k12

この情報を提供するRパッケージについてはわかりません。glmnetパッケージには含まれていないようです(JSSのFriedmanの論文、Coordinate Descentによる一般化線形モデルの正則化パスを参照)。ただし、罰せられたパッケージを作成したJelle Goeman もこの点について議論しています。ウェブ上で元のPDFが見つからないため、彼の言葉を引用するだけです。

回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。

それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差があまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスはその平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。

残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。バイアスの信頼できる推定値は、信頼できる不偏の推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。

したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。偏りによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。


2
この引用を提供してくれてありがとう。オリジナルの引用を見つけることができ、ここで 18ページ
サンフランシスコArceo

8

データ生成プロセスがOLSの背後にある標準的な仮定に従うと仮定すると、リッジ回帰の標準誤差は次のようになります。

σ2(ATA+ΓTΓ)1ATA(ATA+ΓTΓ)1

上記の表記は、リッジ回帰の wiki表記に従います。具体的には、

Aはcovraiateマトリックス、

σ2は誤差分散です。

Γは、リッジ回帰で適切に選択されたTikhonov行列です。


1
実際の計算では、直接形成しないでください。これには、のQRまたは特異値分解を利用します。AATAA
JMは

1

リッジ回帰は、平滑化係数を正規化するTikhonov正則化(Tk)のサブセットです。より一般的な正規化用語は、リッジ回帰でに置き換えられ。ここで、は単位行列で、 はラグランジュ(つまり、制約)乗数です。 、一般に平滑化、収縮、チホノフまたは減衰係数とも呼ばれます。Tkとリッジ回帰の両方を使用して、不適切なポーズを解決しますλ I I λΓTΓλIIλ積分およびその他の逆問題。「科学の逆問題とは、観測のセットからそれらを生み出した因果要因を計算するプロセスです。たとえば、コンピューター断層撮影で画像を計算したり、音響学でソースを再構成したり、重力の測定から地球の密度を計算したりすることですここ。「SPSSにはすべてのパラメーターの標準偏差を与える補足コードが含まれており、このペーパーの付録のようにエラー伝播を使用して追加パラメーターを導出できます。

チホノフ正則化について一般的に誤解されているのは、スムージングの量がカーブのフィッティングとはほとんど関係がないことです。スムージング係数を使用して、目的のパラメーターの誤差を最小限に抑える必要があります。いくつかの有効な逆問題のコンテキストでリッジ回帰を適切に使用するために解決しようとしている特定の問題についてさらに詳しく説明する必要があります。また、平滑化係数の選択に関する論文の多く、およびTikhonov正則化の公開された使用の多くは少し発見的です。

さらに、ティホノフ正則化は、多くの中で唯一の逆問題処理です。ジャーナルInverse Problemsへのリンクをたどってください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.