反復的に再重み付けされた最小二乗の定義と収束


16

次の形式の関数を最小化するために、反復的に再重み付けされた最小二乗(IRLS)を使用しています。

J(m)=i=1Nρ(|xim|)

ここで、はのインスタンスの数、は必要な堅牢な推定値、は適切な堅牢なペナルティ関数です。今は凸であり(必ずしも厳密ではないが)微分可能であるとしましょう。そのような良い例は、フーバー損失関数です。NxiRmRρρ

私がやってきたことは、をに関して微分し(そして操作して)、J(m)m

dJdm=i=1Nρ(|xim|)|xim|(xim)

0に設定し、繰り返し重みを(x_i = m {(k)}で知覚される特異点は、気になるすべての\ rhoで実際に除去可能な特異点であることに注意してください)。その後、私は取得し、kwi(k)=ρ(|xim(k)|)|xim(k)|xi=m(k)ρ

i=1Nwi(k)(xim(k+1))=0

そして解くと、m(k+1)=i=1Nwi(k)xii=1Nwi(k)

「収束」までこの固定小数点アルゴリズムを繰り返します。微分が0で凸関数であるため、固定小数点に到達する場合は最適であることに注意してください。

この手順について2つの質問があります。

  1. これは標準のIRLSアルゴリズムですか?このトピックに関するいくつかの論文を読んだ後(そしてそれらは非常に散らばっていて、IRLSとは曖昧でした)、これは私が見つけることができるアルゴリズムの最も一貫した定義です。人々が望むなら、私は論文を投稿することができます、しかし、私は実際にここで誰にも偏りたくありませんでした。もちろん、この基本的な手法は、ベクトルxi\ left | x_i-m {(k)} \ right |以外の引数を含む他の多くのタイプの問題に一般化できます|xim(k)|、引数を提供することは、パラメータのアフィン関数の標準です。どんな助けや洞察もこれで素晴らしいでしょう。
  2. 収束は実際には機能しているように見えますが、私はそれについていくつか懸念を持っています。私はまだその証拠を見ていません。いくつかの単純なMatlabシミュレーションの後、この1回の反復は収縮マッピングでないことがわかります( 2つのランダムインスタンスを生成し、を計算しますと、これがときどき1より大きいことがました。また、複数の連続した反復によって定義されるマッピングは厳密には収縮マッピングではありませんが、リプシッツ定数が1を超える確率は非常に低くなります。それでは、確率の収縮マッピングの概念はありますか?これが収束することを証明するために使用する機械は何ですか?それも収束しますか?| m 1k + 1 m 2k + 1 |m|m1(k+1)m2(k+1)||m1(k)m2(k)|

すべてのガイダンスが役立ちます。

編集:Daubechies et alによるスパースリカバリ/圧縮センシングに関するIRLSに関する論文が好きです。arXivの2008年「スパースリカバリのための反復再重み付け最小二乗最小化」。しかし、非凸問題の重みに主に焦点を当てているようです。私の場合はかなり簡単です。


IRWLSのwikiページを見ると、説明した手順とIRWLSの違いに苦労しています(特定の関数としてを使用するだけです)。提案するアルゴリズムがIRWLS とどのように異なると思いますか? ρ|yixxiββ|2ρ
user603

私はそれが違うとは言いませんでしたし、もしそれを暗示しても、そうするつもりはありませんでした。
クリスA.

回答:


10

最初の質問については、「標準」を定義するか、「標準モデル」が徐々に確立されたことを確認する必要があります。コメントに示されているように、少なくともIRWLSの使用方法はかなり標準的なようです。

2番目の質問については、「確率の収縮マッピング」は(ただし非公式に)「再帰的な確率的アルゴリズム」の収束にリンクできます。私が読んだことから、主に工学の主題に関する膨大な文献があります。経済学では、特にレナート・リュングの独創的な作品を使用します。最初の論文はリュング(1977)でした。これは、再帰的確率アルゴリズムの収束(または非収束)が安定性(またはない)関連する常微分方程式の。

(コメント内のOPとの実り多い議論の後に、以下の内容が書き直されました)

収束

参照としてSabre Elaydiの「差分方程式の紹介」、2005、3d edを使用します。 分析は特定のデータサンプルを条件としているため、は固定として扱われます。 xs

目的関数の最小化の1次条件再帰関数と見なされます、 m k + 1 = N i = 1 v i [ m k ] x im

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

固定小数点(目的関数のargmin)があります。Elaydiの定理1.13 pp 27-28により、固定点で評価された RHSのに関する1次導関数が、、絶対値の場合、は漸近的に安定(AS)です。定理4.3 p.179でさらに説明すると、これは固定小数点が一様に AS(UAS)であることも意味します。 「漸近的に安定」とは、固定点の周囲の値の範囲、近隣、必ずしもサイズが小さいとは限らないことを意味します。m[1]mA(m)m
(m±γ)、アルゴリズムがこの近傍の値を提供する場合、収束します。プロパティが「均一」であるということは、この近傍の境界、したがってそのサイズがアルゴリズムの初期値に依存しないことを意味します。場合、固定小数点はグローバルに UASになります。 私たちの場合、それを証明するならγ=

|A(m)||i=1Nvi(m)mxi|<1[2]

UASプロパティを証明しましたが、グローバルな収束はありません。次に、アトラクションの近傍が実際に拡張された実数全体であること、またはコメントで述べられているようにOPが使用する特定の開始値(およびIRLS方法論の標準)、つまりサンプル平均であることを確立しようとしますさん、ˉ X、常に固定小数点の魅力の近くに属しています。xx¯

当社は、デリバティブ計算

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

そして

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

そして

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

我々は持っています

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

[3]

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

If ρ(|xim|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

and

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Since we do not know how many of the |xim|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.

What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m.


Thanks for the response. Give me some time to analyze this answer.
Chris A.

Certainly. After all, the question waited 20 months.
Alecos Papadopoulos

Yeah, I was reminded of the problem and decided to put up a bounty. :)
Chris A.

Lucky me. I wasn't there 20 months ago - I would have taken up this question, bounty or not.
Alecos Papadopoulos

Thanks so much for this response. It's looking like, so far, that you've earned the bounty. BTW, your indexing on the derivative of vi w.r.t m is notationally weird. Couldn't the summations on the second line of this use another variable, such as j?
Chris A.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.