なげなわの代わりにグループなげなわを使用する理由


13

私は、グループのなげなわが変数のグループの変数選択とスパース性に使用されることを読みました。この主張の背後にある直感を知りたい。

  • グループ投げ縄が投げ縄よりも優先されるのはなぜですか?
  • なぜグループラッソソリューションパスが区分的に線形ではないのですか?

1
Yuan and Lin(2006)から、投げ縄は因子選択ではなく個々の変数を選択するために設計されていることを理解しています。したがって、投げ縄は、変数グループの選択に相当する正確な予測のために重要な主効果と相互作用を選択することが目標であるANOVA問題に対処します。もう1つの例は、各コンポーネントが元の測定変数の基底関数の線形結合として表される多項式を持つ加算モデルです。
Vendetta

回答:


11

直観的に言えば、グループ投げ縄は、(特定の種類の)追加情報を真の係数推定値に組み込む手段を提供するため、投げ縄よりも優先される可能性があります。極端なシナリオとして、次のことを考慮してください。β

、置くS = { J β * J0 }の支持体としてβ *。"オラクル"を考える推定β = argをβY - X β 2 2 + λ | S | 1 / 2β S yN(Xβ,σ2I)S={j:βj0}β- 1真支持一補数2個の基で投げ縄基です。ましょう λ M A xは、の最小値であるλなり β =0。グループ投げ縄ペナルティの性質により、私たちはその時に知ってλから移動 λ M A X λ M A X -ε

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵ(いくつかの小さなための)、正確に一つのグループは、サポートに入るβ広くための推定値として考えられている、S。高い確率でグループ化を行うため、選択されたグループはSになり、完璧な仕事をしました。ϵ>0β^SS

実際には、グループをこれほどうまく選択しません。ただし、上記の極端なシナリオよりも優れているにも関わらず、グループは引き続き役立ちます。真の共変量のグループと真の共変量のグループの間で選択が行われます。まだ力を借りています。

これはここで形式化されます。彼らは、いくつかの条件下で、グループ投げ縄の予測誤差の上限がプレーンな投げ縄の予測誤差の下限より低いことを示しています。つまり、彼らはグループ化が私たちの推定をより良くすることを証明した。

L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J

2
今ではとても意味があります。ご回答ありがとうございました。
ヴェンデッタ

4

ベンの答えは最も一般的な結果です。しかし、OPに対する直感的な答えは、通常、カテゴリごとに1つの複数のダミー変数としてエンコードされるカテゴリカル予測子の場合に基づいています。多くの分析では、これらのダミー変数(1つのカテゴリー予測子を表す)を個別にではなく一緒に考慮することが理にかなっています。

たとえば、5つのレベルのカテゴリ変数がある場合、まっすぐな投げ縄では2つと3つが残されることがあります。これを原則的にどのように処理しますか?投票することを決めますか?文字通り、より意味のあるカテゴリーの代わりにダミー変数を使用しますか?ダミーエンコーディングは選択にどのように影響しますか?

彼らがロジスティック回帰のためのグループ投げ縄の紹介で言うように、それは言及しています:

連続回帰だけでなくカテゴリカル予測因子(因子)も存在する場合の線形回帰の特殊なケースでは、因子全体ではなく個別のダミー変数のみを選択するため、投げ縄解法は満足のいくものではありません。さらに、投げ縄ソリューションは、ダミー変数のエンコード方法に依存します。カテゴリカル予測子に対して異なるコントラストを選択すると、一般に異なるソリューションが生成されます。

ベンが指摘しているように、予測子の間にはさらに微妙なリンクがあり、それらが一緒に出入りする必要があることを示している可能性があります。ただし、カテゴリ変数はグループ投げ縄の子です。


@ベン:うーん...私は本当にOPの最初のコメントを理解することはできません、それは今削除されたコメントへの応答のように見えますか?質問自体とそのタイトル(ほとんどの視聴者が読むもの)は、一般的な質問のようです。質問とタイトルが「カテゴリ変数の場合を超えてグループ化された投げ縄にどんな非自明なアプリケーションがあるのか​​」について何かに変更された場合、私は間違いなく答えを削除します。
ウェイン

はい。ファクターで(プレーン)なげなわを使用すると、推定値がファクターのコーディングに依存するようになる方法についてのあなたのポイントが好きです!私が以前にちょうど投げ縄私たちの代わりに「パラメータスパース性」の「測定スパース性」のようなものを与えるように、グループの考え(我々が要因かどうか測定する必要があります-すなわち。すべてのレベルを選択すべきか、どれを)
user795305
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.