予測モデルを構築するときの正則化の利点(バイアスと分散、過剰適合の防止)について知っています。しかし、回帰モデルの主な目的が係数の推論であるときに正則化(投げ縄、リッジ、エラスティックネット)を行うことも良い考えかと思います(統計的に重要な予測子を参照)。私は、人々の考えや、これを扱っている学術雑誌や非学術記事へのリンクを聞きたいです。
予測モデルを構築するときの正則化の利点(バイアスと分散、過剰適合の防止)について知っています。しかし、回帰モデルの主な目的が係数の推論であるときに正則化(投げ縄、リッジ、エラスティックネット)を行うことも良い考えかと思います(統計的に重要な予測子を参照)。私は、人々の考えや、これを扱っている学術雑誌や非学術記事へのリンクを聞きたいです。
回答:
「正規化」という用語は、非常に幅広い方法を対象としています。この答えの目的のために、「ペナルティ化された最適化」、つまり最適化問題にまたはL 2ペナルティを追加することを意味します。
その場合、答えは決定的な「はい!まあまあ」です。
この理由は、添加することである又はL 2の尤度関数のリードにペナルティを正確に事前分布が不確実性を説明:事後分布(エレベータピッチを得るために事前尤度にラプラスまたはガウスのいずれかを添加することと同じ数学関数をデータを見る前のパラメーターの場合、事後分布はデータを見た後のパラメーターの不確実性を表します)、これはベイジアン統計101につながります。
それが「はい」でした。部。「ちょっと」とは、事後分布の最適化が行われることであり、「最大事後」(MAP)推定と呼ばれます。しかし、ほとんどのベイジアンはMAP推定を使用せず、MCMCアルゴリズムを使用して事後分布からサンプリングします!これにはいくつかの利点があります。1つは、分散成分の下方バイアスが小さくなる傾向があることです。
簡潔にするために、ベイジアン統計の詳細には触れないようにしましたが、もし興味があれば、そこから調べてみましょう。
リッジタイプのペナルティと投げ縄タイプのペナルティを使用した推定の実行には大きな違いがあります。リッジ型推定器は、すべての回帰係数をゼロに縮小する傾向があり、偏りがありますが、変数を正確にゼロに縮小しないため、漸近分布を簡単に導出できます。リッジ推定値のバイアスは、その後の仮説検定の実行で問題になる可能性がありますが、私はそれに関する専門家ではありません。一方、Lasso / elastic-netタイプのペナルティーは、多くの回帰係数をゼロに縮小するため、モデル選択手法と見なすことができます。データに基づいて選択されたモデルで推論を実行する問題は、通常、選択的推論問題または選択後推論と呼ばれます。この分野では、近年多くの開発が行われています。
同様に、Lasso(またはElastic Net)は、選択されたモデルが選択されていることを保証するようにサンプル空間を制限します。この切り捨てはより複雑ですが、分析的に説明できます。
この洞察に基づいて、データの切り捨てられた分布に基づいて推論を実行し、有効なテスト統計を取得できます。信頼区間とテスト統計については、リーらの研究を参照してください:http : //projecteuclid.org/euclid.aos/1460381681
それらのメソッドは、RパッケージのselectedInferenceに実装されています。
モデル選択後の最適な推定(およびテスト)については、(投げ縄について)https://arxiv.org/abs/1705.09417で説明してい ます。
また、(はるかに包括的ではない)ソフトウェアパッケージは、https://github.com/ammeir2/selectiveMLEで入手でき ます。
「どの予測変数が統計的に有意であるか」に基づいて推論に回帰を使用しようとする場合、LASSOを特にお勧めしますが、予想される理由ではありません。
実際には、モデル内の予測変数は相関する傾向があります。実質的な多重共線性がなくても、相関予測子のセットの中から「重要な」予測子の回帰の選択は、サンプルごとに大幅に異なります。
はい、先に進み、回帰のためにLASSOを実行します。次に、元のデータから複数のブートストラップサンプル(数百程度)で完全なモデル構築プロセス(LASSOペナルティを選択するための相互検証を含む)を繰り返します。この方法で選択された「重要な」予測子のセットがどの程度変動するかを確認してください。
予測子が互いに高度に直交しない限り、このプロセスでは、どの予測子が「有意に」重要であるかという点で、回帰のp値を解釈することについて考え直す必要があります。