分位点回帰はどのように「機能」しますか?


25

クォンタイル回帰の直感的でアクセス可能な説明を得たいと思っています。

結果単純なデータセットと、予測子ます。YX1,X2

たとえば、.25、.5、.75で変位値回帰を実行し、。β0,.25,β1,.25...β2,.75

されている値は、単に注文した値を、与えられた分位の近くに/にある例に基づいて線形回帰を実行しますか?βy

または、すべてのサンプルは、分位点からの距離が増加するにつれて重みが降順になり、推定値に寄与しますか?β

それともまったく違うものですか?わかりやすい説明はまだ見つけていません。


3
数学に関しては、次の2つの答えが役立つ場合があります。stats.stackexchange.com / questions
Andy

回答:


21

Koenker&Hallock(2001、Journal of Economic Perspectives)とKoenkerの同名の教科書をお勧めします。

  1. 出発点は、データセットの中央値が絶対誤差の合計を最小化するという観察です。つまり、50%変位値は、特定の最適化問題の解決策です(絶対誤差の合計を最小化する値を見つけるため)。
  2. このことから、任意の位数が特定の最小化問題の解決策である、つまり、依存する重みで非対称的に重み付けされた絶対誤差の合計を最小化することが簡単にわかります。τττ
  3. 最後に、回帰へのステップを行うために、この最小化問題の解を予測変数の線形結合としてモデル化します。そのため、問題は単一の値ではなく、回帰パラメーターのセットを見つけることです。

したがって、あなたの直感は非常に正しいです。すべてのサンプルは、目標とする変位値依存する非対称の重みで、推定値に寄与します。τβτ


あなたのポイント1)に関して、これはYが対称的に分布していると仮定した場合にのみ真実ではないでしょうか?Yが{1、1、2、4、10}のように歪んでいる場合、中央値2は絶対誤差を最小化しないでしょう。分位点回帰では、常にYが対称的に分布していると想定されますか?ありがとう!
ベン

1
@Ben:いいえ、対称性は必要ありません。重要な点は、中央値が予想される絶対誤差を最小化することです。値が1、2、4、10、確率が0.4、0.2、0.2、0.2の離散分布がある場合、2のポイントサマリーは実際に予想される絶対誤差を最小化します。:シミュレーションは、Rのわずか数行のコードであるfoo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa -復活モニカ

(そして、はい、「合計」について議論するのではなく、答えをもっと明確にしておくべきでした。)
S.コラッサ-モニカの復活

Derp。私が考えていたことは何でしょう。これは今、理にかなっています、ありがとう。
ベン

19

分位点回帰の基本的な考え方は、分析者が単なるデータの平均ではなくデータの分布に関心があるという事実に基づいています。平均から始めましょう。

y=XβE(Y|X=x)=xβargβyバツβyバツβ

一方、中央値回帰では、データの半分が両側にあると予想される線を探します。この場合、ターゲット関数はここで最初の標準です。| |argβ|yバツβ|||

中央値の概念を分位値に拡張すると、分位点回帰の結果が得られます。背後にある考え方は、データのパーセントがそれを超える行を見つけることです。α

ここで小さな間違いを犯しました。Q回帰は、データの分位数を見つけてそのサブセット(またはより困難な境界線)に線を合わせるようなものではありません。

Q回帰は、データをqroup、分位、および残りに分割する行を探します。ターゲット関数、Q回帰のチェック関数は β α = argをβ { α | Y - X β | I Y > X β + 1 - α | Y - X β | I Y < X β }α

β^α=argβ{α|yバツβ|y>バツβ+1α|yバツβ|y<バツβ}

この賢いターゲット関数は、分位値を最適化問題に変換する以上のものではありません。

さらに、ご覧のように、Q回帰は特定の量()に対して定義され、すべての分位を見つけるために拡張できます。言い換えれば、Q回帰は応答の(条件付き)分布を再現できます。βα


この答えは素晴らしいです。
金華王
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.