ペナルティのあるRパッケージを使用して、予測子が多く、どの予測子が重要であるかに関する知識がほとんどないデータセットの係数の短縮推定値を取得しています。チューニングパラメーターL1とL2を選択し、係数に満足した後、R二乗のようなモデルの適合を要約する統計的に健全な方法はありますか?
さらに、モデルの全体的な重要性をテストすることに興味があります(つまり、R²= 0を実行するか、すべてを= 0にします)。
ここで尋ねられた同様の質問の回答を読みましたが、私の質問にはまったく答えていませんでした。ここで使用しているRパッケージに関する優れたチュートリアルがあります。著者のJelle Goemanが、チュートリアルの最後に、ペナルティ付き回帰モデルからの信頼区間に関する次のメモを示しました。
回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。
それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差はあまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスは平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。
残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。信頼できるバイアスの推定値は、信頼できるバイアスのない推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。
したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。バイアスによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。