Lassoロジスティック回帰における係数の有意性のテスト


10

[同様の質問がここで行われ、回答はありませんでした]

L1正則化(Lassoロジスティック回帰)を使用ロジスティック回帰モデルを適合させ、適合した係数の有意性をテストし、p値を取得したいと考えています。Waldのテスト(たとえば)が正則化なしの完全回帰で個々の係数の有意性をテストするオプションであることは知っていますが、Lassoでは、通常のWaldの公式を適用できない問題がさらに発生すると思います。たとえば、検定に必要な分散推定は、通常の式に従いません。元のなげなわ紙

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

係数の分散を推定するためのブートストラップベースの手順を提案します。これも(やはり、私は)テストに必要になる可能性があります(セクション2.5、ページ272の最後の段落と273の最初):

1つのアプローチは、ブートストラップを使用することですを修正するか、ブートストラップサンプルごとにを最適化することができます。修正することは、(機能の)最良のサブセットを選択し、そのサブセットの最小二乗標準誤差を使用することに類似していますt tttt

私が理解していることは、正則化パラメーターの最適値(これはブートストラップの一部ではない)が見つかるまでLasso回帰をデータセット全体に繰り返し当てはめ、次にLassoによって選択された機能のみを使用してOLS回帰をサブサンプルに当てはめるデータの計算を行い、通常の式を適用して、それらの各回帰からの分散を計算します。(そして、各係数の最終的な分散の推定値を取得するために、各係数のそれらすべての分散をどうすればよいですか?)

さらに、通常の有意性検定(たとえば、推定されたベータと分散を使用するWaldの検定)を、係数のLasso推定とブートストラップ推定の分散で使用することは正しいですか?私はそれがそうではないと確信していますが、どんな助け(別のテストを使うか、もっと簡単なアプローチを使うか、何でも...)は歓迎以上のものです。

ここでの回答によると、推論とp値が得られないのではないかと思います。私の場合、p値は外部要件です(ただし、L1正則化の使用が私の選択でした)。

どうもありがとう

編集 以前のLassoロジスティック回帰の実行で選択された変数のみを使用してOLSロジスティック回帰を近似するとどうなりますか?どうやら(こちらをご覧ください)、

交差検証を行った後、モデルを再度実行する必要はありません(cv.glmnetの出力から係数を取得するだけです)。実際、ペナルティなしで新しいロジスティック回帰モデルを当てはめると、使用する目的が無効になります。なげなわ

しかし、変数の数を低く抑えながらp値を計算できるようにすることを唯一の目的としてこれを行うとどうなりますか?それは非常に汚いアプローチですか?:-)


LASSOモデルの推論を行うには、高次元モデルの推論を提供するCRANパッケージhdiをチェックすることもできますこれを確認することをお勧めします...
Tom Wenseleers

完全な方法はよくこのホワイトペーパーで説明されていますprojecteuclid.org/euclid.ss/1449670857
トムWenseleers

そしてまた、そこにパッケージのcran.r-project.org/web/packages/selectiveInference/index.html LASSOのための推論を提供するために有用である可能性がある...
トムWenseleers

これは、質問するのに良い重要な質問です。
金華王

回答:


5

通常の有意性検定を使用する場合の問題は、結果変数とは関係がない確率変数があるというヌルを仮定することです。ただし、なげなわで得られるものは、なげなわで最高の変数を選択するランダム変数の束であり、ベータも縮小されます。したがって、それを使用することはできません。結果は偏ります。

私の知る限りでは、ブートストラップは分散の推定値を取得するためではなく、変数が選択される確率を取得するために使用されます。そして、それらはあなたのp値です。Hasieの無料の本「スパースシティを使った統計学習」を確認してください。第6章でも同じことが話されています。http://web.stanford.edu/~hastie/StatLearnSparsity/

lassoからp値を取得する他のいくつかの方法についてもこのペーパーを確認してくださいhttps://arxiv.org/pdf/1408.4026.pdfおそらくもっとあります


4

モデル選択後に推論を実行する場合の問題は、最も予測可能な変数を選択してから、データとは無関係に選択されたかのように推論を実行することです。投げ縄(またはその他のモデル選択方法)を使用してモデル選択を行った後で回帰モデルを再フィットすると、偏った推定が生じる可能性があることを示すことができます(これは、単純なガウス近似が失敗することが多い理由の1つです)信頼区間)n

幸いなことに、ポストセレクションを考慮した推論方法の開発は近年非常に進歩しています。あなたのケースに関連するいくつかの参照は次のとおりです:http : //projecteuclid.org/euclid.aos/1460381681 および https://arxiv.org/pdf/1602.07358.pdf。これらのリファレンスで説明されている手法は、RパッケージのselectiveInference- https://cran.r-project.org/web/packages/selectiveInference/index.htmlに実装されています。selectiveInferenceパッケージは、必要な有効な信頼区間を生成する必要があります。


1
大学によるCourseraの機械学習専門分野。ワシントン州のコース2(回帰)の教師は、ラッソ回帰に1週間専念しました。スライドの1つで、私が説明した手順(ラッソを使用して特徴を選択し、LS回帰をそれらの変数のみで近似する)はデバイアス呼ばれ、正しいと見なされ、マリオフィゲイレドの論文のグラフで示されています。ここでチェックスライド105: github.com/MaxPoon/coursera-Machine-Learning-specialization/...
パブロ

投げ縄のバイアスを解除することを推奨していますが、仮説検定についてはまったく触れていません。また、モデルの再フィッティングはなげなわによって引き起こされた下向きのバイアスを取り除きますが、勝者の呪いによって引き起こされた上向きのバイアスには役立たないため、デバイアスという用語は誤解を招きます。私の知る限り、選択したモデルの回帰係数推定値を真にバイアス解除する唯一の方法は、条件付き最尤推定値を計算することです。arxiv.org/abs/1705.09417
user3903581 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.