変数選択になげなわを使用した後の推論


17

比較的低次元の設定(n >> p)でフィーチャの選択にLassoを使用しています。Lassoモデルを近似した後、ペナルティなしでモデルを近似するために、非ゼロ係数の共変量を使用します。ラッソが私に与えることのできない公平な推定値が欲しいので、私はこれをしています。また、不偏推定値のp値と信頼区間も必要です。

このトピックに関する文献を見つけることができません。私が見つけた文献のほとんどは、適合モデルではなく、Lasso推定に信頼区間を置くことに関するものです。

私が読んだことから、データセット全体を使用してモデルを再フィットすると、非現実的に小さなp値/ stdエラーが発生します。現時点では、サンプル分割(Wasserman and Roeder(2014)またはMeinshausen et al。(2009)のスタイル)は適切な対応策のようですが、私はさらに提案を探しています。

誰もこの問題に遭遇しましたか?もしそうなら、いくつかの提案を提供してください。


信頼区間に(少なくとも漸近的に)正しいカバレッジがある限り、なげなわ推定器にバイアスをかける必要があるのはなぜかを理解すべきではありません。これが、投げ縄によって回復されたサポートにOLS推定値を適合させたい唯一の理由ですか?
user795305

読んだものを誤解したかもしれませんが、漸近的に正しいカバレッジは、偏りのある推定ではなく、真の疎だが不偏の推定ではありませんか?
EliK

1
「真の疎だが偏りのない」推定値の意味がわかりませんが、投げ縄推定値が漸近的に正しいカバレッジの信頼区間を持っていることがわかっている場合、それ以上のことはありません。Greenparker(+1)によってリンクされたばかりの論文は、(部分的に)投げ縄でols係数の漸近的に正しい信頼区間を開発する方法を(部分的に)議論する非常に興味深い(そしてこのトピックで私が知っている最新の)論文です。不偏性は問題にならないため、不偏係数を得るためにOLSを当てはめる必要がないことを指摘しようとしています。
-user795305

私は誤解してきたと思います。参照している漸近的に正しいカバレッジは、真のパラメーターに関するものです。ラッソがバイアス係数を与えたとしても、真のパラメーターに対して正しいカバレッジをもつ信頼区間を構築できますか?
EliK

2
モデルを選択してから、なげなわなしで推定する場合、ベースに基づいていない推定値はありません。select-variables-then-fit-via-OLSの後のモデル内の項の係数は、実際には0から遠ざかります(変数選択の他の形式と同様)。わずかな収縮は、実際にバイアスを減らすことがあります。
-Glen_b

回答:


12

前の応答に追加します。Tibshiraniと同僚による最近の研究をぜひチェックしてください。彼らは、投げ縄タイプのメソッドの選択修正p値と信頼区間を推測するための厳密なフレームワークを開発し、Rパッケージも提供しています。

見る:

リー、ジェイソンD.、他 「投げ縄への適用による正確な選択後推論。」The Annals of Statistics 44.3(2016):907-927。(https://projecteuclid.org/euclid.aos/1460381681

テイラー、ジョナサン、ロバートJ.ティブシラニ。「統計的学習と選択的推論」米国科学アカデミー論文集112.25(2015):7629-7634。

Rパッケージ:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

一般に、Lassoを介して変数を選択した後にペナルティを使用せずに再入力することは「不正」と見なされます。これは、すでにデータを確認しており、結果のp値と信頼区間は通常の意味では有効ではないためです。

このごく最近の論文では、まさにあなたがやりたいことを見て、投げ縄の当てはめ、重要な変数の選択、投げ縄ペナルティなしでの再フィットが有効な値と信頼区間をもたらす条件について説明しています。彼らの直感的な推論はp

なげなわによって選択される変数のセットは、決定論的であり、高い確率でデータに依存しません。

したがって、データを2回覗くのは問題ではありません。あなたの問題について、紙に記載されている条件が成立するかどうかを確認する必要があります。

(論文には多くの有用な参考文献もあります)


参照:

Zhao、S.、Shojaie、A.、&Witten、D.(2017)。防御できないものを守るために:高次元推論への非常に素朴なアプローチ。から取得:https : //arxiv.org/pdf/1705.05543.pdf


9
+1ただし、著者は「非常に大きなデータ設定」以外のアプローチを明示的に推奨しないことは注目に値します。「ほとんどの実用的なデータ分析設定で上記のアプローチを適用することは推奨しません。実際には...サンプルサイズが小さいか中程度である場合、および/または仮定が満たされない場合、このアプローチはパフォーマンスが低下します」(27ページ)。記録のために、この論文はZhao、Shojaie、およびWitten、Indefensible:A Very Naive Approach to High-Dimensional Inference(2017年5月16日)です。
whuber

@whuberまた、このペーパーはarxiv.orgに掲載されていることを念頭に置いてください。ピアレビューされているかどうかわからないため、著者の方法論に他の問題がある可能性があります。
ロバートF

0

Applied Econometricsの文献で一般的になりつつある直交/二重機械学習の文献から論文をいくつか追加したかったのです。

  • ベローニ、アレクサンドル、ビクターチェルノシュコフ、クリスチャンハンセン。「高次元コントロールから選択した後の治療効果の推論。」Review of Economic Studies 81.2(2014):608-650。

    このペーパーでは、LASSOを使用して「その他」のコントロールを選択した後、変数の効果のOLS推定値の理論的特性について説明します。

  • Victor Chernozhukov、Denis Chetverikov、Mert Demirer、Esther Duflo、Christian Hansen、Whitney Newey、James Robins、治療および構造パラメーターのダブル/デバイアス機械学習、The Econometrics Journal、Volume 21、Issue 1、2018年2月1日、C1–C68ページ、https://doi.org/10.1111/ectj.12097

    これにより、多数のノンパラメトリック法(MLアルゴリズム)を使用して高次元の迷惑パラメーター(コンファウンダー)を非線形に制御し、特定の共変量が結果に与える影響を調べる包括的な理論が開発されました。それらは、部分的に線形のフレームワークと完全にパラメトリックなフレームワークを扱います。また、関心のある変数が混同される状況も考慮します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.