分位点回帰がOLSより悪いのはいつですか？

22

条件付き平均関係を絶対に理解しなければならないいくつかのユニークな状況とは別に、研究者が分位点回帰よりもOLSを選択すべき状況は何ですか？

OLSの代替として中央値回帰を使用することができるため、「テール関係を理解するのに役に立たない場合」と答えたくありません。

4

ほとんどの研究者はOLSと分位点回帰の両方を楽しませると思います。方法の違いは、モデル化しようとしているものに光を当てます。OLSに関しては、正常性の仮定をたたくと、ほとんどの統計パッケージで利用可能な、かなり十分に文書化された徹底的なテスト手法がたくさん得られます。

— ジョナサンリシック

18

平均に関心がある場合はOLSを使用し、中央値にある場合は分位を使用します。

大きな違いの1つは、平均値が外れ値やその他の極端なデータの影響を受けやすいことです。時々、それはあなたが望むものです。1つの例は、従属変数が近隣のソーシャルキャピタルである場合です。たくさんのソーシャルキャピタルを持つ一人の人の存在は、近所全体にとって非常に重要かもしれません。

— ピーター・フロム-モニカの復職
ソース

6

最初の文に挑戦しましょう。OLSと変位値回帰（QR）は、データ生成プロセスを推定しています。エラー分布の裾が重い場合、はよりも効率的です。条件付き分布のどの時点に関心があるかに関係なく、より効率的なおよびを使用する必要があります。

β

$\beta$

y = X β + ε

$y=X\beta+\varepsilon$

{\hat{β}}^{Q R}

$\hat\beta^{QR}$

{\hat{β}}^{O L S}

$\hat\beta^{OLS}$

P (y | X)

$P(y|X)$

{\hat{β}}^{O L S}

$\hat\beta^{OLS}$

{\hat{β}}^{Q R}

$\hat\beta^{QR}$

— リチャードハーディ

この応答に対する@RichardHardyの批判に続いて、中央値は推定可能な変位値の1つにすぎません。このHyndmanの論文では、彼は、付加的な分位回帰をブーストすることにより、電気スマートメーターデータの不確実性を予測するすべての変位値を探索する、付加的なクォンタイル回帰のブーストと呼ばれるアプローチを紹介します（ieeexplore.ieee.org/document/7423794）。

— マイクハンター

15

質問の前提には混乱があるようです。2番目の段落では、「OLSの代替として中央値回帰を使用できます」とあります。Xの条件付き中央値を回帰することは（形式）変位値回帰であることに注意してください。

基になるデータ生成プロセスのエラーが正規分布している場合（残差が正常かどうかを確認することで評価できます）、条件付き平均は条件付き中央値に等しくなります。さらに、興味のある分位点（95パーセンタイル、37パーセンタイルなど）は、標準OLSメソッドを使用してX次元の特定のポイントについて決定できます。分位点回帰の主な魅力は、OLSよりも堅牢であることです。欠点は、すべての前提条件が満たされている場合、効率が低下することです（つまり、同じ検出力を実現するためにより大きなサンプルサイズが必要になり、推定の精度が低下します）。

— gung-モニカの回復
ソース

12

両方OLSおよび分位回帰（QR）は係数ベクトル推定する推定技術である線形回帰モデルに（QRの場合についてKoenker（1978）、P。33、第二段落を参照のこと）。 $\beta$

y = バツ β + ε

$y = X\beta + \varepsilon$

特定の誤差分布（例えば、重質テールを有するもの）のために、QR推定 OLS推定量よりも効率的です。ことをリコール唯一の線形不偏推定量のクラスに効率的です。これがKoenker（1978）の主な動機であり、さまざまな設定でOLSの代わりにQRを使用することを提案しています。私は条件付き分布の任意の瞬間のためにと思って、我々はのいずれかを使用する必要がありし、 $\hat\beta_{QR}$ $\hat\beta_{OLS}$ $\hat\beta_{OLS}$ $P_Y(y|X)$ $\hat\beta_{OLS}$ より効率的です（私が間違っているなら、私を修正してください）。 $\hat\beta_{QR}$

今、直接あなたの質問に答えるために、QRがOLSよりも「より悪い」である（したがって好まれるべき）ときより効率的である。そのような例の1つは、エラー分布が正規である場合です。 $\hat\beta_{OLS}$ $\hat\beta_{QR}$ $\hat\beta_{OLS}$ $\hat\beta_{QR}$

参照：

Koenker、Roger、およびGilbert Bassett Jr.「回帰分位点」Econometrica：Journal of the Econometric Society（1978）：33-50。

— リチャード・ハーディ
ソース

3

Peter Flomには素晴らしく簡潔な答えがありました。私はそれを拡大したいだけです。質問の最も重要な部分は、「悪い」を定義する方法です。

さらに悪いことを定義するには、いくつかのメトリックと、フィッティングが損失関数と呼ばれる良いか悪いかを計算する関数が必要です。

損失関数の定義を変えることができ、各定義に正誤はありませんが、異なる定義は異なるニーズを満たします。2つのよく知られている損失関数は、2乗損失と絶対値損失です。

L_{s q} （ y 、 \hat{y} ） = \sum_{私} （ y_{私} - {\hat{y}}_{私} ）^{2}

$L_{sq}(y,\hat y)=\sum_i (y_i-\hat y_i)^2$

L_{a b s} （ y 、 \hat{y} ） = \sum_{私} | y_{私} - {\hat{y}}_{私} |

$L_{abs}(y,\hat y)=\sum_i |y_i-\hat y_i|$

成功の尺度として損失の二乗を使用すると、分位点回帰はOLSよりも悪化します。一方、絶対値の損失を使用する場合、分位点回帰の方が優れています。

ピーターフォルムの答えは次のとおりです。

平均に関心がある場合はOLSを使用し、中央値にある場合は分位を使用します。

— ハイタオドゥ
ソース

あなたの例は、新しい観測（目標が予測である場合）またはパラメータベクトルの推定の損失（目標が説明の場合）。詳細については、Peter Flomの回答と私の回答の下にコメントがあります。

— リチャードハーディ

3

$Y$ $\frac{2}{\pi}$

平均を推定したい場合、分位点回帰からそれを取得することはできません。

最小の仮定（ただし、変位値回帰よりも多くの仮定）で平均と変位値を推定したいが、効率が高い場合は、セミパラメトリック順序回帰を使用します。これにより、超過確率も得られます。詳細なケーススタディは、RMSコースノートにあり、1つのデータセットで、いくつかのパラメーター（分位点と平均）の平均絶対推定誤差が順序回帰によって達成されることが示されています。ただし、平均値を推定するためにはOLSが最適であり、変位値を推定するためには変位値回帰が最適でした。

$Y$

— フランク・ハレル
ソース