カテゴリカルデータのペナルティ付き方法:因子のレベルを組み合わせる


9

ペナルティモデルは、パラメーターの数がサンプルサイズ以上のモデルを推定するために使用できます。この状況は、カテゴリデータまたはカウントデータの大きなスパーステーブルの対数線形モデルで発生する可能性があります。これらの設定では、他の因子との相互作用の観点からそれらのレベルが区別できない因子のレベルを組み合わせることにより、テーブルを折りたたむことが望ましいまたは役立つこともよくあります。2つの質問:

  1. LASSOやエラスティックネットなどのペナルティモデルを使用して、各要素内のレベルの折りたたみ性をテストする方法はありますか?
  2. 最初の質問に対する答えが「はい」の場合、レベルの崩壊とモデル係数の推定が1つのステップで発生するように設定できますか?

1
このペーパーdoi.org/10.1177/1471082X16642560は、過去10年間にこの分野で行われたことの概要を説明しています。
ジョーンビクラー

1
注:以下で説明するペナルティは、@ JorneBicclerのリンクの方程式3.4です。(この質問が以前に検討されたことを確認するのは興味深いことです!)
user795305


これに先行する質問の複製をどのように呼び出すことができますか?
Michael R. Chernick

回答:


3

可能です。これを達成するために、融合された投げ縄のバリアントを使用できます。

私たちは、推定使用することができβ = 引数β - 1

β^=argβ1Σ=1yβTバツeβTバツ+ΣファクターgλgΣjg|βj|+12Σjkg|βjβk|

なお、対数線形モデルのある損失関数を。1Σ=1yβTバツeβTバツ

これにより、グループ内の係数が等しくなります。係数のこの等式は崩壊に相当するKのT 時間と共に因子のレベル。ときの場合のβ J = 0は、それが崩壊と同等だjはTの時間基準レベルとレベル。チューニングパラメータλ gが定数として扱うことができるが、これだけでいくつかの要因がありますならば、別個のものとしてそれらを治療するためのより良いかもしれません。jthkthβ^j=0jthλg

推定器は凸関数の最小化子であるため、任意のソルバーを介して効率的に計算できます。因子に多くの、多くのレベルがある場合、これらのペアごとの違いが手に負えなくなる可能性があります-この場合、崩壊の可能なパターンについてより多くの構造を知る必要があります。

これはすべて1つのステップで完了します。これは、なげなわ型の推定量がとてもクールになる理由の一部です!


[11][ββj]1[ββj]

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.