この質問を2つの部分に分けたいと思います。両方とも一般化線形モデルを扱いますが、最初はモデル選択を扱い、他は正則化を扱います。
背景:予測と説明の両方にGLM(線形、ロジスティック、ガンマ回帰)モデルを利用しています。「回帰で行う通常のこと」を参照するとき、主に(i)係数の信頼区間、(ii)予測の信頼区間、(iii)のような係数の線形結合に関する仮説検定の説明を意味する治療Aと治療Bの間に違いがありますか?」
以下のそれぞれのもとで通常の理論を使用してこれらのことを行う能力を合法的に失いますか?もしそうなら、これらは本当に純粋な予測に使用されるモデルにのみ適していますか?
I. GLMが何らかのモデル選択プロセスを介して適合した場合(具体的には、AICに基づく段階的な手順と言います)。
II。GLMが正則化方法(Rでglmnetを使用するなど)によって適合されたとき。
私の考えでは、私にとっては、答えは技術的には「リグレッションで行う通常のこと」にブートストラップを使用する必要があるということですが、実際にそれを遵守している人はいません。
追加:
いくつかの回答を得て、他の場所で読んだ後、これについての私の見解を示します(他の人にとっても、訂正を受けるためにも)。
I.
A)RE:エラーの一般化。新しいデータのエラー率を一般化するために、保持セットがない場合、クロス検証は機能しますが、折り畳みごとにプロセスを完全に繰り返す必要があります-ネストされたループを使用するため、機能の選択、パラメーターの調整などが必要です毎回独立して行われます。この考え方は、モデリング作業(ペナルティ化された方法を含む)に当てはまるはずです。
B)RE:GLMの仮説検定と信頼区間。一般化線形モデルにモデル選択(機能選択、パラメーター調整、変数選択)を使用し、ホールドアウトセットが存在する場合、パーティションでモデルをトレーニングし、残りのデータまたは完全なデータセットにモデルを適合させることができますそのモデル/データを使用して仮説検定などを実行します。ホールドアウトセットが存在しない場合、各ブートストラップサンプルに対して完全なプロセスが繰り返される限り、ブートストラップを使用できます。これは、おそらく変数が常に選択されるとは限らないため、実行できる仮説検定を制限します。
C)RE:将来のデータセットの予測を実行しない、理論といくつかの仮説検定によって導かれた目的のあるモデルに適合し、(HosmerとLemeshowの線に沿って)モデル内のすべての変数を残すことを考慮します。これは、小さな変数セットの古典的なタイプの回帰モデリングであり、CIおよび仮説検定の使用を可能にします。
D)RE:ペナルティ付き回帰。アドバイスはありません、おそらくこれは予測のみに適していると考えてください(または、上記のBのように別のデータセットに適用する特徴選択のタイプとして)、導入されたバイアスはCIと仮説テストをブートストラップでも不適切にするため