[同様の質問がここで行われ、回答はありませんでした]
L1正則化(Lassoロジスティック回帰)を使用してロジスティック回帰モデルを適合させ、適合した係数の有意性をテストし、p値を取得したいと考えています。Waldのテスト(たとえば)が正則化なしの完全回帰で個々の係数の有意性をテストするオプションであることは知っていますが、Lassoでは、通常のWaldの公式を適用できない問題がさらに発生すると思います。たとえば、検定に必要な分散推定は、通常の式に従いません。元のなげなわ紙
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
係数の分散を推定するためのブートストラップベースの手順を提案します。これも(やはり、私は)テストに必要になる可能性があります(セクション2.5、ページ272の最後の段落と273の最初):
1つのアプローチは、ブートストラップを使用することですを修正するか、ブートストラップサンプルごとにを最適化することができます。修正することは、(機能の)最良のサブセットを選択し、そのサブセットの最小二乗標準誤差を使用することに類似していますt t
私が理解していることは、正則化パラメーターの最適値(これはブートストラップの一部ではない)が見つかるまでLasso回帰をデータセット全体に繰り返し当てはめ、次にLassoによって選択された機能のみを使用してOLS回帰をサブサンプルに当てはめるデータの計算を行い、通常の式を適用して、それらの各回帰からの分散を計算します。(そして、各係数の最終的な分散の推定値を取得するために、各係数のそれらすべての分散をどうすればよいですか?)
さらに、通常の有意性検定(たとえば、推定されたベータと分散を使用するWaldの検定)を、係数のLasso推定とブートストラップ推定の分散で使用することは正しいですか?私はそれがそうではないと確信していますが、どんな助け(別のテストを使うか、もっと簡単なアプローチを使うか、何でも...)は歓迎以上のものです。
ここでの回答によると、推論とp値が得られないのではないかと思います。私の場合、p値は外部要件です(ただし、L1正則化の使用が私の選択でした)。
どうもありがとう
編集 以前のLassoロジスティック回帰の実行で選択された変数のみを使用してOLSロジスティック回帰を近似するとどうなりますか?どうやら(こちらをご覧ください)、
交差検証を行った後、モデルを再度実行する必要はありません(cv.glmnetの出力から係数を取得するだけです)。実際、ペナルティなしで新しいロジスティック回帰モデルを当てはめると、使用する目的が無効になります。なげなわ
しかし、変数の数を低く抑えながらp値を計算できるようにすることを唯一の目的としてこれを行うとどうなりますか?それは非常に汚いアプローチですか?:-)