最初の質問については、「標準」を定義するか、「標準モデル」が徐々に確立されたことを確認する必要があります。コメントに示されているように、少なくともIRWLSの使用方法はかなり標準的なようです。
2番目の質問については、「確率の収縮マッピング」は(ただし非公式に)「再帰的な確率的アルゴリズム」の収束にリンクできます。私が読んだことから、主に工学の主題に関する膨大な文献があります。経済学では、特にレナート・リュングの独創的な作品を使用します。最初の論文はリュング(1977)でした。これは、再帰的確率アルゴリズムの収束(または非収束)が安定性(またはない)関連する常微分方程式の。
(コメント内のOPとの実り多い議論の後に、以下の内容が書き直されました)
収束
参照としてSabre Elaydiの「差分方程式の紹介」、2005、3d edを使用します。
分析は特定のデータサンプルを条件としているため、は固定として扱われます。 x′s
目的関数の最小化の1次条件再帰関数と見なされます、
m (k + 1 )= N ∑ i = 1 v i [ m (k )] x i、m
m(k+1)=∑i=1Nvi[ m(k)]xi,vi[ m (k )] ≡wi[ m (k )]∑Ni=1wi[m(k)][1]
固定小数点(目的関数のargmin)があります。Elaydiの定理1.13 pp 27-28により、固定点で評価された RHSのに関する1次導関数が、、絶対値の場合、は漸近的に安定(AS)です。定理4.3 p.179でさらに説明すると、これは固定小数点が一様に AS(UAS)であることも意味します。
「漸近的に安定」とは、固定点の周囲の値の範囲、近隣、必ずしもサイズが小さいとは限らないことを意味します。m[1]m∗A′(m∗)m∗
(m∗±γ)、アルゴリズムがこの近傍の値を提供する場合、収束します。プロパティが「均一」であるということは、この近傍の境界、したがってそのサイズがアルゴリズムの初期値に依存しないことを意味します。場合、固定小数点はグローバルに UASになります。
私たちの場合、それを証明するならγ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
UASプロパティを証明しましたが、グローバルな収束はありません。次に、アトラクションの近傍が実際に拡張された実数全体であること、またはコメントで述べられているようにOPが使用する特定の開始値(およびIRLS方法論の標準)、つまりサンプル平均であることを確立しようとしますさん、ˉ X、常に固定小数点の魅力の近くに属しています。xx¯
当社は、デリバティブ計算
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
そして
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
そして
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
我々は持っています
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
[3]
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
If ρ(|xi−m|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
and
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Since we do not know how many of the |xi−m∗|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.
What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m∗.