確率行列のスパース性を誘発する正則化


10

L1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

ただし、エントリが正で合計がになるという条件に従ってを最小化すると、項は効果がありません( by fiat)。結果のがスパースであることを促進するためにこの場合に機能する類似のタイプの正規化はありますか?fA,bx1L1x1=1L1x


L1項は効果がない(||x||1=1 by fiatであるため)」について詳しく説明していただけますか?
Cam.Davidson.Pilon 2012

2
@ Cam.Davidson.Pilon:xi0および\ sum_i x_i = 1は\ | x \ | _1 = 1をixi=1意味します。:)x1=1
枢機卿

1
ジャスティン:もう少し詳しく説明すると、役に立つ回答が得られる可能性が高くなります。説明を読んだときにすぐに発生するいくつかの質問を次に示します。(1)これらすべての「確率行列」はどこにありますか?あなたは、確率ベクトルを含む状況を説明しているように見えます。これらは、確率行列の個々の行である可能性があります。または、詳細が表示されると、他の構造が明らかになる可能性があります。(2確率自体をまばらにしたい、またはおそらく適切な基準でまばらにしたいですか?最初の場合、なぜですか?(これは、重み付けされた(スパース)グラフ上でのランダムウォークですか?)
枢機卿

エントリがである必要があるのはなぜですか?代わりに、それらが非負であることを要求する必要がありますか?また、制約を排除するために再パラメーター化を検討しましたか(負でないことを意味すると仮定して)?つまり、xxi=exp(wi)jexp(wj)
試してください

1
@jrennie:コンテキストを考えると、正のジャスティンは確かに負でないことを意味しました。
枢機卿

回答:


2

スパースソリューションを作成する一般的な方法は、未知の分散を伴うゼロ平均法線を使用したMAP推定です。

p(xi|σi2)N(0,σi2)

次に、ゼロのモードを持つ前を割り当てると、通常、事後モードはスパースになります。指数混合分布をとることによって、このアプローチから生じます。σi2L1

p(σi2|λ)Expo(λ22)

その後、あなたは得る

log[p(xi|λ)]=λ|xi|+log[λ2]

いくつかの代替案は、一般化されたダブルパレート、ハーフコーシー、逆ベータです。ある意味では、これらは大きな値を縮小しないため、なげなわよりも優れています。実際、一般化されたダブルパレートは、指数の混合として記述できると確信しています。つまり、と記述してから、ガンマの前に ます。我々が得る:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

良いグローバルパラメータを選択するのに役立つように、定数を正規化しました。範囲制限を適用すると、シンプレックスで正規化する必要があるため、より複雑な問題が発生します。

スパース性を誘発するペナルティのもう1つの一般的な特徴は、ゼロでは区別できないことです。通常、これは左と右の制限が反対の符号であるためです。

これは、ニコラスポルソンとジェームズスコットによるTIRLS(非常に大きなクラスの損失ペナルティの組み合わせへの最小二乗の大規模な拡張)の開発に使用される分散平均混合表現に関する素晴らしい研究に基づいています。

別の方法として、シンプレックスで定義された事前分布を使用することもできますが、周辺分布にゼロのモードがあります。1つの例は、すべてのパラメーターが0〜1のディリクレ分布です。暗黙のペナルティは次のようになります。

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

ここで、です。ただし、ペナルティには特異点があるため、数値的に最適化する場合は注意が必要です。より堅牢な推定プロセスは、事後平均を使用することです。正確なスパース性は失われますが、ゼロに近い多くの事後平均が得られます。0<ai<1


詳細を理解するための準備が整っていませんが、これは非常に興味深いアイデアのようです。私が正しく理解している場合、事前分布は、変数が0に関する指数分布に従うという仮定に基づいているという考えです。したがって、0を中心とする分布が、変数に対してより効果的に機能する必要があります。しかし、明確な勝者はありませんよね?「合計が1になる正の変数」の分布はありますか?ご協力いただきありがとうございます!L1
ジャスティンソロモン

スパース性を得るには、モードがゼロの分布が必要です。そしてディリクレ分布はシンプレックス上にあり、これは正確に合計が1になる分布です。別の一般的なクラスは、ロジスティック正規またはロジスティックtで、正規/ t分布がありlog[xixn]
確率論的

ああ、あなたが言うように、ディリクレは私たちが興味を持っているシンプレックスにあるという点で非常に興味深いようです!あなたが言及している他の2つは、に非対称性を導入しているようですよね?私の共同研究者と私は、明日ディリクレによって暗示されるエネルギー関数を通して働き、また報告します!これまでの患者の支援に感謝します-これは私たちの通常の分野からは程遠いですが、うまくいくことができれば、結果はジオメトリ処理にかなりの前進をもたらすかもしれません![もちろん当然のクレジットを提供します!]xn
Justin Solomon

1

2つのオプション:

  1. ペナルティを使用します。明らかな欠点は、これが凸面ではないため、最適化が難しいことです。L0x
  2. 再パラメータ化、と新しい(天然の)パラメータベクトルにペナルティを使用して、。これにより、イベントが発生しない正当な理由がない限り、イベントも同様に発生する可能性が高くなります。xi=exp(wi)jexp(wj)w

再パラメーター化がスパース性をどのように促進するか説明できますか?それはむしろ正反対を保証するようです。
枢機卿

これは、異なるエントリが同じ値を持つように促すことに対応するスパース性を促進します。wx
jrennie

はい、わかりました。ただし、これらの値はゼロにはなりません。OPを文字通り使用すると、これは役に立たず、実際に(ある意味で)傷つきます。ただし、OPが他の基準に関してスパース性に関心を持っている可能性があります。その場合、これはそれらの1つになります。:)
枢機卿

そのため、私の回答では2つのオプションを提供しました---ゼロを奨励するには非凸ペナルティが必要になると思います。あなたが指摘したように、ジャスティンはおそらく彼が言ったことを文字通り意味するものではありません。x
jrennie

はい、残念ながら、私たちはアイデンティティの基礎に希薄さが必要です。したがって、この場合は、できるだけ多くのます。wi
ジャスティンソロモン

1

質問の前提は部分的にしか正しくありません。ノルムが制約の下では単なる定数であることは事実ですが、制約の最適化問題はまばらな解を持つ可能性があります。L1

ただし、ソリューションはの選択による影響を受けないため、スパースなソリューションがあるかどうかはわかりません。別の質問は、実際に解決策を見つける方法です。もちろん、線形制約の下での標準の2次オプティマイザーを使用できますが、一般的な座標降下アルゴリズムをそのまま使用することはできません。λ

1つの提案は、異なるに対して、正の制約​​の下でのみ最適化し、解をノルム1 を持つように正規化することです。制約。λL1


0

3つの方法が考えられます。

  • ベイズ法:ゼロ平均事前分布を導入し、タイプIIの尤度を使用してパラメーターとハイパーパラメーターを推定します。

  • 代わりに、正規化としてを使用してください。ただし、これは区別できません。高次ノルムを使用して近似できます。

  • 使用。i=1logxi

実際、1番目と3番目の方法は同じです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.