モデル選択または正則化後のGLM


12

この質問を2つの部分に分けたいと思います。両方とも一般化線形モデルを扱いますが、最初はモデル選択を扱い、他は正則化を扱います。

背景:予測と説明の両方にGLM(線形、ロジスティック、ガンマ回帰)モデルを利用しています。「回帰で行う通常のこと」を参照するとき、主に(i)係数の信頼区間、(ii)予測の信頼区間、(iii)のような係数の線形結合に関する仮説検定の説明を意味する治療Aと治療Bの間に違いがありますか?」

以下のそれぞれのもとで通常の理論を使用してこれらのことを行う能力を合法的に失いますか?もしそうなら、これらは本当に純粋な予測に使用されるモデルにのみ適していますか?

I. GLMが何らかのモデル選択プロセスを介して適合した場合(具体的には、AICに基づく段階的な手順と言います)。

II。GLMが正則化方法(Rでglmnetを使用するなど)によって適合されたとき。

私の考えでは、私にとっては、答えは技術的には「リグレッションで行う通常のこと」にブートストラップを使用する必要があるということですが、実際にそれを遵守している人はいません。

追加:
いくつかの回答を得て、他の場所で読んだ後、これについての私の見解を示します(他の人にとっても、訂正を受けるためにも)。

I.
A)RE:エラーの一般化。新しいデータのエラー率を一般化するために、保持セットがない場合、クロス検証は機能しますが、折り畳みごとにプロセスを完全に繰り返す必要があります-ネストされたループを使用するため、機能の選択、パラメーターの調整などが必要です毎回独立して行われます。この考え方は、モデリング作業(ペナルティ化された方法を含む)に当てはまるはずです。

B)RE:GLMの仮説検定と信頼区間。一般化線形モデルにモデル選択(機能選択、パラメーター調整、変数選択)を使用し、ホールドアウトセットが存在する場合、パーティションでモデルをトレーニングし、残りのデータまたは完全なデータセットにモデルを適合させることができますそのモデル/データを使用して仮説検定などを実行します。ホールドアウトセットが存在しない場合、各ブートストラップサンプルに対して完全なプロセスが繰り返される限り、ブートストラップを使用できます。これは、おそらく変数が常に選択されるとは限らないため、実行できる仮説検定を制限します。

C)RE:将来のデータセットの予測を実行しない、理論といくつかの仮説検定によって導かれた目的のあるモデルに適合し、(HosmerとLemeshowの線に沿って)モデル内のすべての変数を残すことを考慮します。これは、小さな変数セットの古典的なタイプの回帰モデリングであり、CIおよび仮説検定の使用を可能にします。

D)RE:ペナルティ付き回帰。アドバイスはありません、おそらくこれは予測のみに適していると考えてください(または、上記のBのように別のデータセットに適用する特徴選択のタイプとして)、導入されたバイアスはCIと仮説テストをブートストラップでも不適切にするため


1
人々は時々これを行います-無意識のうちに(つまり、所望の結果を得るために統計を誤用します)そして、故意に(彼らはブートストラップを行い、結果に実質的に影響しませんでした)。あなたの主張は有効であり、Harrell教授は彼の本の序文でブートストラップが有益であることを指摘しています。
suncoolsu

1
ポイント(II)に「はい」のようなものがあります:arxiv.org/abs/1001.0188
アレックス

回答:


5

デビッド・フリードマンの論文「回帰回帰式のスクリーニングに関するメモ」をご覧ください

彼は、シミュレーションで完全に無相関のデータを使用して、観測数に対して多くの予測変数がある場合、標準のスクリーニング手順により、多くの(偶然よりも)重要な予測変数と非常に重要なF統計。最終モデルは、結果を予測するのに効果的であることを示唆していますが、この成功は誤っています。彼はまた、漸近計算を使用してこれらの結果を示しています。推奨される解決策には、サンプルのスクリーニング、完全なデータセットでのモデルの評価、予測子より少なくとも1桁以上多くの観測値の使用が含まれます。


注:ブートストラップを効果的なソリューションにするためには、スクリーニングが行われる前に開始して手順全体をブートストラップし、ブートストラップされたサンプルをスクリーニングし、係数を計算する必要があります。しかし、各回帰の予測子には異なるセットがあり、それらのいずれかの分布を計算する方法はもはや明確ではありません。ただし、結果の予測値の信頼区間のブートストラップは効果的です。
チャーリー

@charlie:[あなたはあなただけがI.(モデル選択)ではなくIIと話していることを正しく読みますか。(ペナルティ)]予測間隔については、モデル選択を使用してからそのモデルから予測をブートストラップすることが有効であると言っていますが、それ以外の場合はプロセス全体をブートストラップする必要がありますか?
B_Miner

@charlieサンプルのスクリーニングの提案された解決策について。データを分割し、(ab)1つのセット(モデル選択など)を使用して、残りのデータにそのモデルを適用し、仮説テストの従来の理論を使用して適合したモデルをそのデータに適用します。等?
B_Miner

私はモデルの選択だけを考えていましたが、それは主にペナルティ回帰についてあまり知らないからです。モデルから予測の推論を得るためには、プロセス全体をブートストラップする必要があると思います。問題は、いずれかのサンプルで、一部の変数を含めて他の変数を除外すると拡大される偽の相関を見つける可能性が高いことです。これを回避する唯一の方法は、複数のサンプル、つまりブートストラップを調べることです。もちろん、実際にこれを行う人はいません。
チャーリー

右、サンプル選択パーティションを使用してモデル選択手順を使用してモデルを作成し、他のパーティションまたは完全なサンプルのいずれかで推論を行います。
チャーリー

2

1)に関して、はい、あなたはこれを失います。たとえば、Harrell Regression Modeling Strategies、Wileyから出版された本、またはDavid Stopに提示した「Stopping Stepwise」という論文(www.nesug.org/proceedings/nesug07/sa/sa07.pdfなど)を参照してください。


私はこの論文を見ました-非常に興味深いです。2つの質問。1)ロジスティック回帰を見てみましょう。CIまたは仮説テストを実施する唯一の方法は、hosmerおよびlemeshowのスタイルでモデルを構築することであるように聞こえます(大きなpを持つデータセットを除外します)?それでは、ポイント推定のみにモデルを「使用」することになりますか?2)あなたの論文では、他の選択肢の中から投げ縄について議論しています。これにより、後の仮説検定が可能になりますか、またはモデル選択のより良いオプションとして「単純に」与えられますか?
B_Miner
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.