回答:
平均に関心がある場合はOLSを使用し、中央値にある場合は分位を使用します。
大きな違いの1つは、平均値が外れ値やその他の極端なデータの影響を受けやすいことです。時々、それはあなたが望むものです。1つの例は、従属変数が近隣のソーシャルキャピタルである場合です。たくさんのソーシャルキャピタルを持つ一人の人の存在は、近所全体にとって非常に重要かもしれません。
質問の前提には混乱があるようです。2番目の段落では、「OLSの代替として中央値回帰を使用できます」とあります。Xの条件付き中央値を回帰することは(形式)変位値回帰であることに注意してください。
基になるデータ生成プロセスのエラーが正規分布している場合(残差が正常かどうかを確認することで評価できます)、条件付き平均は条件付き中央値に等しくなります。さらに、興味のある分位点(95パーセンタイル、37パーセンタイルなど)は、標準OLSメソッドを使用してX次元の特定のポイントについて決定できます。分位点回帰の主な魅力は、OLSよりも堅牢であることです。欠点は、すべての前提条件が満たされている場合、効率が低下することです(つまり、同じ検出力を実現するためにより大きなサンプルサイズが必要になり、推定の精度が低下します)。
両方OLSおよび分位回帰(QR)は係数ベクトル推定する推定技術である線形回帰モデルに Y = X β + ε (QRの場合についてKoenker(1978)、P。33、第二段落を参照のこと)。
特定の誤差分布(例えば、重質テールを有するもの)のために、QR推定β Q Rは、 OLS推定量よりも効率的ですβ O L S。ことをリコールβ O L Sが唯一の線形不偏推定量のクラスに効率的です。これがKoenker(1978)の主な動機であり、さまざまな設定でOLSの代わりにQRを使用することを提案しています。私は条件付き分布の任意の瞬間のためにと思ってP Y(Y | X ) 、我々はのいずれかを使用する必要がありβ O L Sをし、より効率的です(私が間違っているなら、私を修正してください)。
今、直接あなたの質問に答えるために、QRがOLSよりも「より悪い」である(したがってβ O L Sが好まれるべきβ Q R)ときβ O L Sは、より効率的であるβ Q R。そのような例の1つは、エラー分布が正規である場合です。
参照:
Peter Flomには素晴らしく簡潔な答えがありました。私はそれを拡大したいだけです。質問の最も重要な部分は、「悪い」を定義する方法です。
さらに悪いことを定義するには、いくつかのメトリックと、フィッティングが損失関数と呼ばれる良いか悪いかを計算する関数が必要です。
損失関数の定義を変えることができ、各定義に正誤はありませんが、異なる定義は異なるニーズを満たします。2つのよく知られている損失関数は、2乗損失と絶対値損失です。
成功の尺度として損失の二乗を使用すると、分位点回帰はOLSよりも悪化します。一方、絶対値の損失を使用する場合、分位点回帰の方が優れています。
ピーターフォルムの答えは次のとおりです。
平均に関心がある場合はOLSを使用し、中央値にある場合は分位を使用します。
平均を推定したい場合、分位点回帰からそれを取得することはできません。
最小の仮定(ただし、変位値回帰よりも多くの仮定)で平均と変位値を推定したいが、効率が高い場合は、セミパラメトリック順序回帰を使用します。これにより、超過確率も得られます。詳細なケーススタディは、RMSコースノートにあり、1つのデータセットで、いくつかのパラメーター(分位点と平均)の平均絶対推定誤差が順序回帰によって達成されることが示されています。ただし、平均値を推定するためにはOLSが最適であり、変位値を推定するためには変位値回帰が最適でした。