回答:
2つの予測子が応答に強い影響を与えるが、モデルの作成元のサンプルでは高い相関があると仮定します。モデルから1つを削除すると、予測子が高度に相関されていない類似した母集団からのサンプルをうまく予測できなくなります。
多重共線性が存在する場合に係数推定の精度を向上させたい場合は、少しのバイアスを導入し、分散の大幅な削減によってそれを相殺する必要があります。1つの方法は、予測子を完全に削除することです。LASSOを使用するか、昔はステップワイズ法を使用して、係数の推定値をゼロに設定します。もう1つは、すべての推定値に少しバイアスをかけることです。つまり、リッジ回帰を使用するか、昔は最初のいくつかの主成分に回帰します。かつての欠点は、予測因子は、彼らが多くの使用ではないだからだけ除外取得する傾向があるように、モデルは、離れて元のサンプルで発生したものから、予測パターンに対する応答を予測するために使用されるならば、それは非常に危険なことだ一緒に他のと、ほぼ同一線上の予測子。(その外挿が完全に安全であるというわけではありません。)@ user12436が説明するように、エラスティックネットは2つを組み合わせたものであり、相関する予測子のグループをモデルに保持する傾向があります。
しかし、これは私たちが望んでいることではありません。つまり、多重共線性の問題から私たちを救ってくれるのではありませんか。
はい!そして、いいえ。エラスティックネットは、L2正則化(リッジ回帰で使用)とL1正則化(LASSOで使用)の2つの正則化手法を組み合わせたものです。
Lassoは自然にスパースモデルを生成します。つまり、ほとんどの変数係数は0に縮小され、モデルから効果的に除外されます。したがって、すべての変数が実際に0に縮小されるのではなく、すべての変数が縮小されるリッジとは異なり、最下位の変数は他を縮小する前に縮小されます。
Elastic netは、これら両方のアプローチの線形結合を使用します。メソッドについて説明するときにHastieによって言及された特定のケースは、大きなp、小さなnの場合でした。つまり、観測が比較的少ない高次元データです。この場合、LASSOは(報告によると)最大でn個の変数のみを選択し、残りはすべて削除します。Hastieの論文を参照してください。
これは常に実際のデータセットに依存しますが、モデル内の変数の数の上限を観測値の数以下にする必要がないことはよく想像できます。
LassoとElastic Netはどちらも、高次元のデータ設定で変数または機能の選択を実行する効率的な方法です(患者やサンプルよりもはるかに多くの変数、たとえば20,000の遺伝子と500の腫瘍サンプル)。
データが高度に相関している場合、Elastic NetがLassoよりも優れたパフォーマンスを発揮できることが示されています(Hastie氏など)。Lassoは相関変数の1つを選択するだけで、どちらが選択されるかは関係ありません。これは、独立したデータセットで選択された変数を検証したい場合に問題になる可能性があります。Lassoによって選択された変数は、すべての相関変数の中で最良の予測子とは限りません。Elastic Netは、相関性の高い変数を平均化することでこの問題を解決します。