これらの方法-なげなわとエラスティックネット-は、特徴の選択と予測の両方の問題から生まれました。説明が見つかると思うのは、これらの2つのレンズを通してです。
Matthew Gunnは、これらの2つの目標は明確であり、多くの場合異なる人々によって取り上げられると、返信でうまく説明しています。しかし、幸いなことに、私たちが興味を持っている方法は両方の分野でうまく機能します。
機能の選択
まず、機能の選択について説明しましょう。まず、投げ縄の観点からエラスティックネットを動機付ける必要があります。つまり、HastieとZouを引用すると、「ペアワイズ相関が非常に高い変数のグループがある場合、投げ縄はグループから1つの変数のみを選択する傾向があり、どちらが選択されるかを気にしません。」これは、たとえば、投げ縄を使用して真のサポートの要素を見つける可能性が低いことを意味するため、問題です。(この論文は、これはLARS論文で証明されていると述べていますが、これはまだ読んでいません。)相関がある場合のサポート回復の困難さは、Wainwrightによっても指摘されています。0.5真のサポートとそれを補完するものとの間に高い相関がある場合は。
現在、エラスティックネットのl2ペナルティは、損失とl1ペナルティだけで区別できないものとして扱われる係数を持つフィーチャが、推定係数が等しいことを推奨しています。我々は緩くその着目し、これを見ることができますは満たす 。このため、エラスティックネットはそれを作成するため、真にサポートされている係数推定値を「誤って」消失させる可能性が低くなります。つまり、真のサポートは、推定サポートに含まれる可能性が高くなります。それは良い!それはより多くの誤った発見があることを意味しますが、それはほとんどの人が喜んで支払う価格です。| a | = | b |(a 、b )= arg分a′、b′:c = | a′| + | b′|(a′)2+ (b′)2|a|=|b|
余談ですが、相関性の高い特徴が非常に類似した係数推定値を持つ傾向があるという事実は、同様に応答に影響する推定サポート内の特徴のグループ化を検出できることを指摘する価値があります。
予測
次に、予測に進みます。Matthew Gunnが指摘しているように、相互検証を通じてチューニングパラメーターを選択すると、予測誤差が最小のモデルを選択するという目的が生まれます。投げ縄で選択されたモデルはすべて(を取ることで)エラスティックネットで選択できるため、弾性ネットは投げ縄よりも優れた予測モデルを見つけることができるという意味があります。α=1
Lederer、Yu、およびGaynanovaは、特徴に関する仮定を一切立てずに、投げ縄とエラスティックネットの両方が同じ量に制限されたl2予測エラーを持つことができることを示しています。それらの境界がきついことは必ずしも真実ではありませんが、オラクルの不等式は、推定値の予測パフォーマンスを定量化する統計文献の標準的な方法であるように見えるため、興味深いことに注意する必要があります。また、Lederer (1)(2)には、相関する特徴がある場合のなげなわ予測に関するいくつかの論文があります。
概要
要約すると、関心のある問題は、推定されたサポートと予測内にある真のサポートです。サポートの回復については、真のサポートとそれを補完するものとの相関が低いという仮定の下で、投げ縄がモデルに含まれる正しい機能を選択するという厳密に証明された保証があります(Wainwrightを通じて)。ただし、相関関係がある場合は、エラスティックネットにフォールバックして、真のサポートで選択するすべてのフィーチャを選択する可能性が高くなります。(ここでチューニングパラメーターを慎重に選択する必要があることに注意してください。)また、クロス検証を通じてチューニングパラメーターを選択するときの予測のために、特に相関がある場合、エラスティックネットは投げ縄よりも優れたパフォーマンスを発揮する必要があることを直感的に理解できます。
予測と何らかの形式を別にして、何を学びましたか?真のサポートについて学びました。
信頼区間
投げ縄の有効な推論に関して、過去2年間で多くの変化があったことを指摘する価値があります。特に、Lee、Sun、Sun、Taylorの研究は、選択されている特定のモデルを条件とする投げ縄の係数の正確な推論を提供します。(真の係数のなげなわの推論の結果は、OPの投稿の時点であり、それらはリンクされた論文で十分に要約されています。)