統計的推論を行うときに正則化を使用する


17

予測モデルを構築するときの正則化の利点(バイアスと分散、過剰適合の防止)について知っています。しかし、回帰モデルの主な目的が係数の推論であるときに正則化(投げ縄、リッジ、エラスティックネット)を行うことも良い考えかと思います(統計的に重要な予測子を参照)。私は、人々の考えや、これを扱っている学術雑誌や非学術記事へのリンクを聞きたいです。


3
正則化はベイジアンアイで見ることができます。たとえば、なげなわは、いくつかの二重指数事前分布に対応します(スケールは相互検証によって選択されます)。そのため、可能性の1つは満杯になることです。
kjetil bハルヴォルセン

1
どの予測変数がゼロ以外であるかを判断することが、投げ縄のすべてです!ゼロから統計的に有意に区別されるものを判断する場合は、投げ縄
-user795305

回答:


8

「正規化」という用語は、非常に幅広い方法を対象としています。この答えの目的のために、「ペナルティ化された最適化」、つまり最適化問題にまたはL 2ペナルティを追加することを意味します。L1L2

その場合、答えは決定的な「はい!まあまあ」です。

この理由は、添加することである又はL 2の尤度関数のリードにペナルティを正確に事前分布が不確実性を説明:事後分布(エレベータピッチを得るために事前尤度にラプラスまたはガウスのいずれかを添加することと同じ数学関数をデータを見る前のパラメーターの場合、事後分布はデータを見た後のパラメーターの不確実性を表します)、これはベイジアン統計101につながります。L1L2

それが「はい」でした。部。「ちょっと」とは、事後分布の最適化が行われることであり、「最大事後」(MAP)推定と呼ばれます。しかし、ほとんどのベイジアンはMAP推定を使用せず、MCMCアルゴリズムを使用して事後分布からサンプリングします!これにはいくつかの利点があります。1つは、分散成分の下方バイアスが小さくなる傾向があることです。

簡潔にするために、ベイジアン統計の詳細には触れないようにしましたが、もし興味があれば、そこから調べてみましょう。


2
(+1)しかし、もしそれらが良い予測を与えるという理由だけでそれらの事前分布を使用したなら-実際、私はその目的のためにそれらを調整したかもしれない-それから私はMAP推定または事後分布から何を作ろうか?(もちろん、データを見る前にパラメータについての知識を表すために
事前分布

1
@Scortchi:それは非常に良い点です:クロスバリデーションを使用してペナルティーを選択すると、古典的なベイジアンフレームワークから十分に離れます(私の知る限り)。CVを使用してモデルを作成して正則化パラメーターを選択することはこの答えと一致しませんが、専門家の情報に基づいて選択される固定ペナルティーを使用して正則化を使用します。
クリフAB

2
注意事項:従来の+ MCMCアプローチは、すべての潜在的な係数の事後因子が検査および報告された場合にのみ有効な結果を提供します。そうでない場合、選択的推論の設定になり、ほとんどの単純な推論方法は無効になります。
user3903581

(+1)良い答えです!ただし、「ほとんどのベイジアンはMAP推定を使用せず、MCMCアルゴリズムを使用して事後分布からサンプリングします!」という文を明確にする価値があると思います。ほとんどのベイジアンが推定量を選択する際に完全な事後を使用していると言っているようです。問題を確認するには、事後分布のサンプルからMAPの推定値を作成できることに注意してください。
user795305

8

リッジタイプのペナルティと投げ縄タイプのペナルティを使用した推定の実行には大きな違いがあります。リッジ型推定器は、すべての回帰係数をゼロに縮小する傾向があり、偏りがありますが、変数を正確にゼロに縮小しないため、漸近分布を簡単に導出できます。リッジ推定値のバイアスは、その後の仮説検定の実行で問題になる可能性がありますが、私はそれに関する専門家ではありません。一方、Lasso / elastic-netタイプのペナルティーは、多くの回帰係数をゼロに縮小するため、モデル選択手法と見なすことができます。データに基づいて選択されたモデルで推論を実行する問題は、通常、選択的推論問題または選択後推論と呼ばれます。この分野では、近年多くの開発が行われています。

yNμ1μμ|y|>c>0cycy

同様に、Lasso(またはElastic Net)は、選択されたモデルが選択されていることを保証するようにサンプル空間を制限します。この切り捨てはより複雑ですが、分析的に説明できます。

この洞察に基づいて、データの切り捨てられた分布に基づいて推論を実行し、有効なテスト統計を取得できます。信頼区間とテスト統計については、リーらの研究を参照してください:http : //projecteuclid.org/euclid.aos/1460381681

それらのメソッドは、RパッケージのselectedInferenceに実装されています。

モデル選択後の最適な推定(およびテスト)については、(投げ縄について)https://arxiv.org/abs/1705.09417で説明してい ます。

また、(はるかに包括的ではない)ソフトウェアパッケージは、https//github.com/ammeir2/selectiveMLEで入手でき ます。


4

「どの予測変数が統計的に有意であるか」に基づいて推論に回帰を使用しようとする場合、LASSOを特にお勧めしますが、予想される理由ではありません。

実際には、モデル内の予測変数は相関する傾向があります。実質的な多重共線性がなくても、相関予測子のセットの中から「重要な」予測子の回帰の選択は、サンプルごとに大幅に異なります。

はい、先に進み、回帰のためにLASSOを実行します。次に、元のデータから複数のブートストラップサンプル(数百程度)で完全なモデル構築プロセス(LASSOペナルティを選択するための相互検証を含む)を繰り返します。この方法で選択された「重要な」予測子のセットがどの程度変動するかを確認してください。

予測子が互いに高度に直交しない限り、このプロセスでは、どの予測子が「有意に」重要であるかという点で、回帰のp値を解釈することについて考え直す必要があります。


1
+1書かれたすべての非常に実用的な答えに同意しますが、なぜLASSOの代わりにElastic Netを使用しないのですか?(OPもそれについて言及している場合)リッジの正則化は、予測子間の相関をもう少し顕著に制御します。
usεr11852は回復モニック言う

実際には、投げ縄またはエラスティックネットを介して選択されたモデルの有効なp値、推定値、および信頼区間を計算することができます。
user3903581

@ user3903581真の帰無仮説が、たとえば5%の複製サンプルよりも非常に大きな係数をもたらすという意味で、有効な頻度論者のLASSO p値を取得できることに異議を唱えません。問題は、相関予測子によって提起された問題を考慮せずに、「有意」とみなされる予測子のみに因果推論を帰属させるというあまりにも頻繁な試みにあります。
-EdM
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.