Rの異なるロバスト回帰の間の選択

私は不動産を評価するためのプログラムを書いており、いくつかの堅牢な回帰モデルの違いを本当に理解していません。そのため、どちらを選択するかわかりません。

私が試したlmrob、ltsRegとrlm。同じデータセットの場合、3つの方法すべてで係数の値が異なります。

私はそれが使用するのが最善であると考えltsReg、ためsummary(ltsReg())の情報を提供R-squaredしてp-values、これは私がモデルを受け入れるか却下するとどうかを判断するのに役立ちます。

それltsRegは良い選択だと思いますか？

編集：私はちょうど適合 R 統計を読んだところですが、調整されたR二乗は一般的に品質適合の最良の指標です

r regression p-value r-squared

— ポール
ソース

p値とはどちらも誤解を招く可能性があるため、それらを出力するという事実に基づいてパッケージを選択することは、そのような選択にとって実際には適切な基準ではありません...

R^{2}

$R^2$

— Tim

次に、モデルをプロットせずに有効なモデルかどうかをどのように判断できますか？

— Paul

また、順序回帰は、より堅牢で解釈可能であり、より強力になる可能性があるため、考慮してください。

— フランクハレル2015年

@ user603：確認しました。不動産の評価のために、さまざまな特性を含むいくつかのモデルを作成します（例：1.価格〜livingArea + floorNumber + age + ...）。

— Paul

誰かがこの質問を閉じたいと思っています！私はそれが正しいとは思いません、たとえ表面上はR関数を選択することについてであっても、それは実際にどのようにそしてなぜロバストな回帰法、つまりオントピックを選択するのかについてです。

— kjetil b halvorsen 2015年

私が使用する表記では、は設計変数の数（定数項を含む）、はの観測数です（この最後の条件が満たされない場合、パッケージは近似を返しませんでした）しかしエラーなので、それは満たされていると思います）。Iにより表すであろう FLTSにより推定された係数のベクトル（）及び MMによって推定された係数（）。私も書きます： $p$ $n$ $n\geq2p+1$ $\hat{\boldsymbol\beta}_{FLTS}$ ltsReg $\hat{\boldsymbol\beta}_{MM}$ lmrob

r_{i}^{2} (\hat{β}) = (y_{i} - x_{i}^{⊤} \hat{β})^{2}

$r^2_i(\hat{\boldsymbol\beta})=(y_i-\boldsymbol x_i^\top\hat{\boldsymbol\beta})^2$

（これらは二乗残差であり、標準化されたものではありません！）

rlm関数は、フィット回帰の「M」見積りをあなたの質問にコメントで作られた@Frankハレルの提案のように、それは設計空間上の外れ値に対してロバストではない、と。順序回帰には、本質的にブレークダウンポイント（外れ値で置き換えて任意の値に置き換える必要があるデータの割合）があり、1つの外れ値（関係なく）で適合を無意味にするのに十分であることを意味します。回帰M推定（例：Huber M回帰）の場合、分解ポイントは基本的にです。これは多少高くなりますが、実際にはまだ不快に0に近くなります（が大きくなることが多いため）。から導き出せる唯一の結論 $1/n$ $n$ $1/(p+1)$ $p$ rlm他の2つの方法とは異なる近似を見つけることは、それが設計の外れ値に左右されており、データセット内にこれらの以上が存在する必要があることです。 $p+1$

対照的に、他の2つのアルゴリズムははるかに堅牢です。それらのブレークダウンポイントは以下であり、さらに重要なことに、が大きくなっても縮小しません。ロバストな方法を使用して線形モデルを近似する場合、データ内の少なくとも観測が汚染されていないことを前提とします。これらの2つのアルゴリズムのタスクは、それらの観測を見つけて、可能な限り適合させることです。より正確に言うと、 $1/2$ $p$ $h=\lfloor(n+p+1)/2\rfloor+1$

\begin{aligned} H_{F L T S} & = {i : r_{i}^{2} ({\hat{β}}_{F L T S}) \leq q_{h / n} (r_{i}^{2} ({\hat{β}}_{F L T S}))} \\ H_{M M} & = {i : r_{i}^{2} ({\hat{β}}_{M M}) \leq q_{h / n} (r_{i}^{2} ({\hat{β}}_{M M}))} \end{aligned}

$\begin{align} H_{FLTS} &= \{i:r^2_i(\hat{\boldsymbol\beta}_{FLTS})\leq q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{FLTS}))\} \\ H_{MM} &= \{i:r^2_i(\hat{\boldsymbol\beta}_{MM})\leq q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{MM}))\} \end{align}$

（ここで、は、ベクトルの分位数です。） $q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{MM}))$ $h/n$ $r^2_i(\hat{\boldsymbol\beta}_{MM})$

次に、（）は、（）のインデックスを使用して観測値を適合させようとします。 $\hat{\boldsymbol\beta}_{MM}$ $\hat{\boldsymbol\beta}_{FLTS}$ $H_{MM}$ $H_{FLTS}$

と間に大きな違いがあるという事実は、2つのアルゴリズムが同じ観測値のセットを異常値として識別していないことを示しています。これは、それらの少なくとも1つが異常値に左右されることを意味します。この場合、（調整された）または2つの近似のいずれかからの統計を使用してどちらを使用するかを決定することは直感的ですが、ひどい考えです：汚染された近似は通常、きれいな近似よりも残差が小さくなります（ただし、これが、最初にロバスト統計を使用する理由です。OPはこの事実をよく認識しており、これを拡張する必要がないと思います）。 $\hat{\boldsymbol\beta}_{FLTS}$ $\hat{\boldsymbol\beta}_{MM}$ $R^2$

2つのロバストな近似は矛盾する結果をもたらし、問題はどちらが正しいですか？これを解決する1つの方法は、セットを検討することです。

H^{+} = H_{M M} \cap H_{F L T S}

$H^+=H_{MM}\cap H_{FLTS}$

なぜなら、。さらに、またはいずれかに外れ値がない場合、も外れ値があり。私が提案するソリューションは、この事実を利用しています。計算： $h\geq[n/2]$ $\#\{H^+\}\geq p$ $H_{MM}$ $H_{FLTS}$ $H^+$

D (H^{+}, {\hat{β}}_{F L T S}, {\hat{β}}_{M M}) = \sum_{i \in H^{+}} (r_{i}^{2} ({\hat{β}}_{F L T S}) - r_{i}^{2} ({\hat{β}}_{M M}))

$D(H^+,\hat{\boldsymbol\beta}_{FLTS},\hat{\boldsymbol\beta}_{MM})=\sum_{i\in H^+}\left(r^2_i(\hat{\boldsymbol\beta}_{FLTS})-r^2_i(\hat{\boldsymbol\beta}_{MM})\right)$

たとえば、場合、は、よりも良い観測値に適しているため、方が信頼できます。およびその逆。 $D(H^+,\hat{\boldsymbol\beta}_{FLTS},\hat{\boldsymbol\beta}_{MM})<0$ $\hat{\boldsymbol\beta}_{FLTS}$ $\hat{\boldsymbol\beta}_{MM}$ $\hat{\boldsymbol\beta}_{FLTS}$

— user603
ソース

+1。を使用して整数またはフロア関数ことを意味していると思います。後者の表記の方が明確だと思います。整数の丸めの表記法を初めて使用する読者にとって、角括弧は単なる括弧であると想定するのは簡単です。

[]

$[\ \ ]$

⌊ ⌋

$\lfloor\ \ \rfloor$

— Nick Cox