スパース線形回帰0ノルムと1ノルム


8

応答と予測子YRnX=(x1,x2,,xm)TRn×m

私たちが解決したい問題は

argminkRm(YXk22+λk0)k0

ただし、これはNPハードであるため、代わりに\ text {argmin} _ {k \ in \ Bbb R ^ {m}}を解き

argminkRm(YXk22+λk1)k1

この論文 「圧縮センシングによる材料科学の物理記述子の学習」では、

高度に相関機能と、λk1良好な近似ではないかもしれないためλk0

私の質問:

λk0λk1は両方とも、ベクトルkの非ゼロ成分の数に制約を課しますk。しかし、特徴が相関している場合、\ lambda \ Vert k \ Vert_0によって検出されるkの利点は何ですか?kλk0

さらに、私が上記で引用したポイントを示す直感的な例はありますか?

回答:


2
  1. 機能が相関している場合は、投げ縄ではなくエラスティックネットを使用する必要があります。
  2. おおまかに、2つの特徴が相関している場合、lassoは損失関数に対してより良い報酬がある場合、も特徴を選択します。これは、絶対値が小さいことを意味します予測係数適切な減少とともに、回帰係数をます。ij|βi|||yXβ||2
  3. 一方、ノルムベースのペナルティは、予測誤差のみの大幅な減少につながる場合、係数のサイズが重要ではないため、ゼロとは異なる場合でも、もを選択します(覚えておいてください)。 、l0ij||β||0=#{βk0})。
  4. さて、私の直感はそれだろう -との特徴が相関している場合ノルム罰則が正しい回帰係数の予測でも同様に悪いです。このホワイトペーパーの定理2の証明は、これが実際に当てはまる理由を示しているはずです。しかし、これはあなたが引用した論文の声明や例とは矛盾します。l1l0
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.