私が使用する表記では、は設計変数の数(定数項を含む)、はの観測数です(この最後の条件が満たされない場合、パッケージは近似を返しませんでした)しかしエラーなので、それは満たされていると思います)。Iにより表すであろう FLTSにより推定された係数のベクトル()及び MMによって推定された係数()。私も書きます:N N ≥ 2 のp + 1pnn≥2p+1β^FLTSltsReg
β^MMlmrob
r2i(β^)=(yi−x⊤iβ^)2
(これらは二乗残差であり、標準化されたものではありません!)
rlm
関数は、フィット回帰の「M」見積りをあなたの質問にコメントで作られた@Frankハレルの提案のように、それは設計空間上の外れ値に対してロバストではない、と。順序回帰には、本質的にブレークダウンポイント(外れ値で置き換えて任意の値に置き換える必要があるデータの割合)があり、1つの外れ値(関係なく)で適合を無意味にするのに十分であることを意味します。回帰M推定(例:Huber M回帰)の場合、分解ポイントは基本的にです。これは多少高くなりますが、実際にはまだ不快に0に近くなります(が大きくなることが多いため)。から導き出せる唯一の結論1/nn1/(p+1)prlm
他の2つの方法とは異なる近似を見つけることは、それが設計の外れ値に左右されており、データセット内にこれらの以上が存在する必要があることです。p+1
対照的に、他の2つのアルゴリズムははるかに堅牢です。それらのブレークダウンポイントは以下であり、さらに重要なことに、が大きくなっても縮小しません。ロバストな方法を使用して線形モデルを近似する場合、データ内の少なくとも観測が汚染されていないことを前提とします。これらの2つのアルゴリズムのタスクは、それらの観測を見つけ て、可能な限り適合させることです。より正確に言うと、1/2ph=⌊(n+p+1)/2⌋+1
HFLTSHMM={i:r2i(β^FLTS)≤qh/n(r2i(β^FLTS))}={i:r2i(β^MM)≤qh/n(r2i(β^MM))}
(ここで、は、ベクトルの分位数です。)qh/n(r2i(β^MM))h/nr2i(β^MM)
次に、()は、()のインデックスを使用して観測値を適合させようとします。β^MMβ^FLTSHMMHFLTS
と間に大きな違いがあるという事実は、2つのアルゴリズムが同じ観測値のセットを異常値として識別していないことを示しています。これは、それらの少なくとも1つが異常値に左右されることを意味します。この場合、(調整された)または2つの近似のいずれかからの統計を使用してどちらを使用するかを決定することは直感的ですが、ひどい考えです:汚染された近似は通常、きれいな近似よりも残差が小さくなります(ただし、これが、最初にロバスト統計を使用する理由です。OPはこの事実をよく認識しており、これを拡張する必要がないと思います)。β^FLTSβ^MMR2
2つのロバストな近似は矛盾する結果をもたらし、問題はどちらが正しいですか?これを解決する1つの方法は、セットを検討することです。
H+=HMM∩HFLTS
なぜなら、。さらに、またはいずれかに外れ値がない場合、も外れ値があり。私が提案するソリューションは、この事実を利用しています。計算:h≥[n/2]#{H+}≥pHMMHFLTSH+
D(H+,β^FLTS,β^MM)=∑i∈H+(r2i(β^FLTS)−r2i(β^MM))
たとえば、場合、
は、よりも良い観測値に適しているため、方が信頼できます。およびその逆。D(H+,β^FLTS,β^MM)<0β^FLTSβ^MMβ^FLTS