最小二乗法はいつ悪い考えですか？

回帰モデルがある場合： where and、

Y = X β + ε

$Y = X\beta + \varepsilon$

V [ε] = I d \in R^{n \times n}

$\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}$

E [ε] = (0, \dots, 0)

$\mathbb{E}[\varepsilon]=(0, \ldots , 0)$

使用するだろうというとき、通常の最小二乗推定量、推定のための貧しい人々の選択では？ $\beta_{\text{OLS}}$ $\beta$

最小二乗法がうまく機能しない例を理解しようとしています。したがって、私は以前の仮説を満たしているが悪い結果をもたらすエラーの分布を探しています。分布のファミリーが平均と分散によって決定されるとしたら、それは素晴らしいことです。そうでなければ、それも大丈夫です。

「悪い結果」は少し漠然としていることは知っていますが、理にかなっていると思います。

混乱を避けるために、私は最小二乗法が最適ではなく、リッジ回帰のようなより良い推定量があることを知っています。しかし、それは私が目指していることではありません。最小二乗が不自然な例を挙げたいです。

エラーベクトルは非凸領域にあると想像できますが、それについてはよくわかりません。 $\epsilon$ $\mathbb{R}^n$

編集1：回答を助けるためのアイデアとして（これをさらに進める方法がわからない）。は青です。したがって、線形不偏推定量が適切でない場合を考えると役立つ場合があります。 $\beta_{\text{OLS}}$

編集2：ブライアンが指摘したように、条件が悪い場合、分散が大きすぎるためは悪い考えであり、代わりにリッジ回帰を使用する必要があります。私は、最小二乗法をうまく機能させないために、どの分布がであるべきかを知ることに興味があります。 $XX'$ $\beta_{\text{OLS}}$ $\varepsilon$

$\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilon$ この推定器を非効率にするゼロ平均と恒等分散行列のある分布はありますか？ $\varepsilon$

regression distributions least-squares

— マヌエル
ソース

耳障りになりたくないのですが、あなたが何を望んでいるかは完全にはわかりません。何かが悪い選択になる可能性のある方法はたくさんあります。通常、バイアス、分散、ロバスト性、効率などの観点から推定量を評価します。たとえば、お気づきのように、OLS推定量はBLUEです。

— ガン-モニカを元に戻す

OTOH、分散が役に立たないほど大きくなる可能性があるため、分散は低くなりますが、尾根のようなバイアスのある推定量が望ましいです。別の例として、OLSはデータ内のすべての情報を最大限に使用しますが、これにより異常値の影響を受けやすくなります。効率を維持しようとしながら、より堅牢な代替損失関数がたくさんあります。このような用語で質問を再構成できれば、より明確になる可能性があります。推定者が「不自然」であることの意味がわかりません。

— ガン-モニカの復活

あなたのコメントをありがとう、それは私に質問の曖昧さを理解させました。私はそれが今より明確であることを望みます

— マヌエル

この回答の回帰を参照してください。つまり、影響力のある外れ値が問題になる可能性があります。

— Glen_b-2015

回答:

Brian Borchersの回答は非常に優れています。奇妙な外れ値を含むデータは、多くの場合、OLSで十分に分析されていません。写真、モンテカルロ、およびいくつかのRコードを追加して、これをさらに拡張します。

非常に単純な回帰モデルを考えてみましょう：

\begin{aligned} Y_{i} & = β_{1} x_{i} + ϵ_{i} \\ ϵ_{i} & = {\begin{array}{rcl} N (0, 0.04) & w . p . & 0.999 \\ 31 & w . p . & 0.0005 \\ - 31 & w . p . & 0.0005 \end{array} \end{aligned}

$\begin{align} Y_i &= \beta_1 x_i + \epsilon_i\\~\\ \epsilon_i &= \left\{\begin{array}{rcl} N(0,0.04) &w.p. &0.999\\ 31 &w.p. &0.0005\\ -31 &w.p. &0.0005 \end{array} \right. \end{align}$

このモデルは、勾配係数1の設定に準拠しています。

添付のプロットは、このモデルの100個の観測からなるデータセットを示し、x変数は0から1まで実行されます。プロットされたデータセットでは、異常値（この場合は+31）になるエラーが1回描画されます。。また、青のOLS回帰線と赤の最小絶対偏差回帰線もプロットされています。LLSではなくOLSが外れ値によってどのように歪められるかに注意してください。

外れ値のあるOLSとLAD

モンテカルロを行うことでこれを確認できます。モンテカルロで、同じとして、上記の分布で10,000回、100観測のデータセットを生成します。これらの10,000の複製では、大多数で異常値は発生しません。しかし、いくつかは異常値を取得し、それは毎回LLSを台無しにしますが、LADを台無しにします。以下のコードはモンテカルロを実行します。勾配係数の結果は次のとおりです。 $x$ $\epsilon$ R

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

OLSとLADはどちらも不偏推定量を生成します（勾配は両方とも、10,000の複製に対して平均1.00です）。OLSでは、標準偏差が0.34対0.09のはるかに高い推定量が生成されます。したがって、ここでは、OLSは不偏推定量の中で最も効率的ではありません。もちろん、まだ青ですが、LADは線形ではないため、矛盾はありません。OLSがMin列とMax列で発生する可能性のあるワイルドエラーに注意してください。それほどLADではありません。

以下は、グラフとモンテカルロの両方のRコードです。

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

— ビル
ソース

@Manuelありがとう。Rプログラムでエラーを検出しました--- sqrt（0.04）があったはずのところに0.04がありました。それは答えの推力を変えませんでした。それは結果に小さな違いをもたらしました。ただし、以前にコードをコピーした場合は、ここでもう一度コピーする必要があります。

— Bill

1つの例は、平均を推定したくない場合です。これは、HIV / AIDSの蔓延をモデル化する一環として、人々が持っているセックスパートナーの数を推定していたところ、私が以前行っていた作業で生じました。ディストリビューションのテールにもっと興味がありました：多くの多くのパートナーを持っている人は誰ですか？

この場合、変位値回帰が必要になる可能性があります。私の意見では、十分に活用されていない方法です。

— ピーターフロム-モニカの回復
ソース

平均を推定したくないのはどういう意味ですか？は、あなたが話していることであるならば、頻繁なアプローチの固定パラメータとして考えています。

β

$\beta$

— マヌエル

または、の平均を意味しましたか？

Y

$Y$

— マヌエル

はい、私はYの平均を意味しました。それがOLS回帰が行うことです。

— ピーターフロム-モニカの回復

素晴らしい点、+ 1。式を検討し、その最小値を計算してください。aとbの中間点です。これは、エラー関数、別名ロバスト回帰とは対照的です

(x - a)^{2} + (x - b)^{2}

$(x-a)^{2}+(x-b)^{2}$

L_{1}

$L_{1}$

— jpmuc

場合ひどく条件マトリックスまたは完全に特異で、その後、あなたの最小二乗推定量は、実際には非常に不安定で、無用になります。 $X$

の分布に注意を限定する場合、ガウスマルコフの定理が最小二乗解が最小分散の不偏推定量になることを保証することに留意してください。 $\epsilon$

ただし、の分布が十分に極端である場合、推定値の分布が悪い特性（特に、確率は低いものの、で非常に大きなエラーが発生する可能性があります）が最小であっても、例を構築できます。分散。 $\epsilon$ $\beta$

— ブライアン・ボーチャーズ
ソース

極端な分布はどうなりますか？同一性共分散行列があることに注意してください。

ε

$\varepsilon$

— マヌエル

さらに、ガウス-マルコフは、最小二乗が線形間の最小分散不偏推定量であることを保証します。線形推定器は、ある種の分布では再割り当てできない場合があります。それが私が理解したいことです。

— マヌエル

確率0.9999 で、確率0.00005で、確率で分布をます。ここで、（yは未知のパラメーター直接的な測定値です）で、約100の観測値があるとします。推定は完全である可能性が最も高いですが、まれな不良な値の1つを含み、結果としてオフになる推定の可能性がかなりあります。

ϵ_{i} = 0

$\epsilon_{i}=0$

ϵ_{i} = 100

$\epsilon_{i}=100$

0.00005

$0.00005$

ϵ_{i} = - 100

$\epsilon_{i}=-100$

0.00005

$0.00005$

X = I

$X=I$

β

$\beta$

ϵ

$\epsilon$

— ブライアンボーチャーズ

本当に奇妙なものが必要な場合は、4自由度の適切にスケーリングされたスチューデントのt分布の使用を検討してください。これは、有限の平均と分散を備えたよく知られた分布ですが、無限の4次モーメントがあります。ここで、で観測値が1つあるとします。の分布は、平均と分散が有限ですが、四次モーメントに制限はありません。

X = 1

$X=1$

β = 0

$\beta=0$

\hat{β}

$\hat{\beta}$

— ブライアンボーチャーズ

私はあなたの2番目のコメントが私が探しているものであることを信じています。発生する可能性が低いことだけが気になります。また、その例から、エラーの分布を知っているときに、より良い推定器を構築する方法はかなり明確です。

— マヌエル