クォンタイル回帰の直感的でアクセス可能な説明を得たいと思っています。
結果単純なデータセットと、予測子ます。
たとえば、.25、.5、.75で変位値回帰を実行し、。
されている値は、単に注文した値を、与えられた分位の近くに/にある例に基づいて線形回帰を実行しますか?
または、すべてのサンプルは、分位点からの距離が増加するにつれて重みが降順になり、推定値に寄与しますか?
それともまったく違うものですか?わかりやすい説明はまだ見つけていません。
クォンタイル回帰の直感的でアクセス可能な説明を得たいと思っています。
結果単純なデータセットと、予測子ます。
たとえば、.25、.5、.75で変位値回帰を実行し、。
されている値は、単に注文した値を、与えられた分位の近くに/にある例に基づいて線形回帰を実行しますか?
または、すべてのサンプルは、分位点からの距離が増加するにつれて重みが降順になり、推定値に寄与しますか?
それともまったく違うものですか?わかりやすい説明はまだ見つけていません。
回答:
Koenker&Hallock(2001、Journal of Economic Perspectives)とKoenkerの同名の教科書をお勧めします。
したがって、あなたの直感は非常に正しいです。すべてのサンプルは、目標とする変位値依存する非対称の重みで、推定値に寄与します。τ
foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
分位点回帰の基本的な考え方は、分析者が単なるデータの平均ではなくデータの分布に関心があるという事実に基づいています。平均から始めましょう。
一方、中央値回帰では、データの半分が両側にあると予想される線を探します。この場合、ターゲット関数はここで最初の標準です。| 。|
中央値の概念を分位値に拡張すると、分位点回帰の結果が得られます。背後にある考え方は、データのパーセントがそれを超える行を見つけることです。
ここで小さな間違いを犯しました。Q回帰は、データの分位数を見つけてそのサブセット(またはより困難な境界線)に線を合わせるようなものではありません。
Q回帰は、データをqroup、分位、および残りに分割する行を探します。ターゲット関数、Q回帰のチェック関数は β α = argを分β { α | Y - X β | I (Y > X β )+ (1 - α )| Y - X β | I (Y < X β )}。
この賢いターゲット関数は、分位値を最適化問題に変換する以上のものではありません。
さらに、ご覧のように、Q回帰は特定の量()に対して定義され、すべての分位を見つけるために拡張できます。言い換えれば、Q回帰は応答の(条件付き)分布を再現できます。