L2正則化とランダム効果の縮小


8

変量効果回帰の基本的な特性は、ランダムな切片の推定値が、各推定値の相対分散の関数としての応答の全体的な平均に向かって「縮小」されることです。

ρJ=τ2/τ2+σ2/NJ

U^j=ρjy¯j+(1ρj)y¯
ρj=τ2/(τ2+σ2/nj).

これは、ロジスティック回帰などの一般化線形混合モデル(GLMM)にも当てはまります。

その収縮は、ID変数のワンホットエンコーディングによる固定効果ロジスティック回帰よりも、またはL2正則化による収縮よりどのように優れていますか?

固定効果モデルでは、L2正規化のペナルティ変更することで収縮量を制御できますが、変量効果モデルでは、収縮量を制御できません。「目標が推論である場合は変量効果モデルを使用し、目標が予測である場合は固定効果モデルを使用する」というのは正しいでしょうか?λ

回答:


8

これは少し単純化されすぎています。混合効果回帰の収縮は、変量効果構造の「クラス」/「グループ」間の全体的なバランスによって重み付けされるので、選択することができないということではなく、グループのサイズと強度が証拠が選択します。(加重総平均のようなものと考えてください)。さらに、混合効果モデルは、複数のグループがあり、各グループのデータが非常に少ない場合に非常に役立ちます。全体的な構造と部分的なプーリングにより、各グループ内でもより良い推論が可能になります。

混合モデルのLASSO(L1正規化)、尾根(L2正規化)、およびエラスティックネット(L1とL2の正規化の組み合わせ)バリアントもあります。つまり、これらは直交しています。ベイジアンの用語では、階層/マルチレベルモデル構造による混合効果の縮小と、モデル係数の分布の事前選択からの正則化が得られます。

おそらく混乱は、「機械学習」(予測が目標)での正則化の頻繁な使用から生じますが、「統計」(推論が目標)での混合効果の頻繁な使用から生じますが、それは他の副作用です。このような領域の一般的なデータセットの側面(サイズなど)と計算上の問題。混合効果モデルは一般に適合が難しいため、データの一部の構造を無視する正則化固定効果モデルが必要な予測に十分適している場合は、混合効果モデルを適合させる価値がない場合があります。しかし、データを推論する必要がある場合、その構造を無視するのは悪い考えです。


正確かつ的確な答え。
Subhash C. Davar

リビウスに感謝します。変量効果の縮小は、経験的なベイズを行うことと同様ですか?はいの場合、L2正規化/ベイジアンを上に配置した変量効果モデルをさらに縮小することには意味がありますか?私の目標は、BLUPでグループをランク付けし、そのランクを次の段階の予測モデルで使用することです。
Paman Gujral 2017年

メンバーIDごとに複数の病院エピソードを含むエピソードレベルのヘルスケアデータセットに予測モデルを構築しています。ほとんどのメンバーのエピソードは5つ未満です。私は、これは、両方の投げ縄や尾根回帰は固定効果に適用される場合、だと思うプラス適切であろう、会員IDフィールドのランダム効果。
RobertF 2017

1
@PamanGujralは、Ten HaveとLocalioによる「混合効果ロジスティック回帰モデルのランダム効果パラメータの経験的ベイズ推定」を参照することをお勧めします
AdamO

「一般的に、混合効果モデルはフィットが難しい...」目的が同じIDを共有するレコード間の相関を説明することであり、一意のIDが数千または数百万ある場合、OPの質問にリストされた式を使用して回帰式に単純なランダムインターセプト項を追加すると、合理的でかなり単純なように見えます最初の一歩。一意のIDから1を引いたすべての固定効果項ではなく、2つのパラメーターのみを推定しているため、自由度が大幅に節約されます。
RobertF 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.