機械学習にタグを付けたので、推論ではなく予測に興味があると思います(@Glen_bの答えに同調していると思いますが、このコンテキスト/ボキャブラリーに翻訳しているだけです)。
この場合、それは流行語です。グループ変数を持つ正則化線形モデルは情報を借用します。個々のレベルでの予測は、グループ平均と個々の効果の組み合わせになります。l1 / l2正則化について考える1つの方法は、グループエラーが個々の変数よりも多くのサンプルに影響を与えるため、グループエラーを削減するための係数コストを割り当てることです。個々の変数に対するグループ効果。
十分なデータのある個々のポイントの場合、個々の効果は「強力」になり、データの少ないポイントの場合、効果は弱くなります。
これを確認する最も簡単な方法は、L1正則化と、同じ効果を持つ同じグループの3人の個人を検討することです。正則化されていない問題には無限の数の解がありますが、正則化は一意の解を与えます。
3つの個体をカバーするには1つの値しか必要ないため、すべての効果をグループ係数に割り当てると、l1ノルムが最も低くなります。逆に、すべての効果を個々の係数に割り当てると、最悪、つまり、効果をグループ係数に割り当てるl1ノルムの3倍になります。
階層は必要な数だけ持つことができ、相互作用は同様に影響されます。正則化は、まれな相互作用ではなく、主変数に効果をプッシュします。
ブログ tjmahr.com/plotting-partial-pooling-in-mixed-effects-models。– @IsabellaGhementによってリンクされた借用力の見積もりを提供します
「この効果は、収縮と呼ばれることもあります。収縮がより極端な値であるほど、より合理的で平均的な値に引き寄せられるためです。lme4ブックでは、Douglas Batesが収縮[name]の代替手段を提供しています。」
「収縮」という用語は、否定的な意味合いを持つ場合があります。John Tukeyは、このプロセスを、個々の被験者の互いからの「借用力」の推定値と呼ぶことを好んだ。これは、混合効果モデルの基礎となるモデルと厳密に固定された効果モデルの根本的な違いです。混合効果モデルでは、グループ化因子のレベルは母集団からの選択であり、結果として、ある程度特性を共有することが期待できると想定しています。その結果、混合効果モデルからの予測は、厳密に固定効果モデルからの予測に比べて減衰します。