異なる分位点で異なる関係を明らかにする分位点回帰:どのように?


8

変位値回帰(QR)は、分布の異なる変位値での変数間の異なる関係を明らかにすると言われることがあります。例えば、Le Cook et al。「平均を超えて考える:保健サービス研究のための分位回帰法を使用するための実用的なガイド」は、QRが変数の異なる値にわたって関心のある結果と説明変数間の関係を非一定にすることを可能にすることを意味します。

ただし、私が知る限り、標準の線形回帰モデルでは、 、はiidであり、から独立しています。勾配 QR推定量

y=β0+βバツ+ε
εバツβ母集団の勾配に対して一貫しています(これは固有であり、分位点間で変化しません)。つまり、分位数に関係なく、推定されるオブジェクトは常に同じです。確かに、QRインターセプト推定器はエラー分布の特定の分位数を推定することを目的としているため、これはインターセプトには当てはまりません。まとめると、変数間のさまざまな関係がQRを介してさまざまな分位点でどのように明らかにされることになっているのかわかりません。これは私の理解の誤りではなく、標準の線形回帰モデルの特性だと思いますが、私にはわかりません。

標準の線形モデルのいくつかの仮定に違反すると、状況が異なります。次に、QRスロープ推定器は、線形モデルの真のスロープ以外のものに収束し、どういうわけか、さまざまな分位点でさまざまな関係を明らかにします。

何がいけないのですか?分位点回帰が異なる分位点での変数間の異なる関係を明らかにするという主張を適切に理解/解釈するにはどうすればよいですか?


1
QRについて考える方法はたくさんあります。1つは、カーネルが分位点であるカーネル回帰の一種であることです。このように、それは線形解を仮定できないノンパラメトリックでロバストなアプローチです。Hyndmanらは、QRベースのモデリングのグローバルなフレームワークとして、ブースト適応分位点回帰を提案しています。ここにゲートなしのコピー... robjhyndman.com/papers/sig-alternate.pdf
マイクハンター

1
@DJohnson、ありがとう。私は元の論文Koenker and Bassett(1978)の影響を受けすぎていると思います。動機付けは、さまざまな分位点でさまざまな関係を引き出すのではなく、標準線形モデルでロバスト勾配推定器を見つけることだけです。
Richard Hardy

疑いの余地はありませんが、KoenkerやBassettのような論文は、将来のアナリストが質問をどのように構成するかに影響を与えます。分位回帰法」を使用するための実用的なガイド...非ゲートコピーここに...:QR上のもう一つの良い紙は平均を超えて*思考ル・クックとマニングの2013年、あるdash.harvard.edu/bitstream/handle/1/12406692/ … FWIW ...しかし彼らの焦点はヘルスケアです...
マイク・ハンター

回答:


8

通常の線形モデルの「真の勾配」は、xの 1ポイントの増加により平均応答がどの程度変化するかを示します。正規性と等分散性を仮定することにより、応答の条件付き分布のすべての分位数はそれに沿って移動します。時には、これらの仮定は、非常に非現実的です:条件付分布の分散や歪度は依存Xと増加したときので、その分位は、自分の速度で移動のxをバツバツバツ。QRでは、非常に異なる勾配推定からこれがすぐにわかります。OLSは平均(つまり、平均分位点)のみを考慮するため、各分位点を個別にモデル化することはできません。そこでは、分位数についてステートメントを作成するときに、条件付き分布の固定形状の仮定に完全に依存しています。

編集:コメントを埋め込み、説明する

条件付き平均と固定分散を介して条件付き分位数を常に計算できるため、そのような強い仮定をしたい場合は、QRを実行してもあまり意味がありません。すべての変位値の「真の」勾配は、平均の真の勾配と等しくなります。もちろん、特定のサンプルでは、​​ランダムな変動があります。または、あなたの厳密な仮定が間違っていたことに気付くかもしれません...

y=バツ+バツεεN01 iid
yバツここに画像の説明を入力してください
  • 対称的な条件付き分布のため、平均と中央値の回帰直線は本質的に同じです。勾配は1です。
  • 80%分位点の回帰直線はより急勾配(勾配1.9)ですが、20%分位点の回帰線はほぼ一定(勾配0.3)です。これは、極端に不平等な分散に適しています。
  • バツ

画像を生成するコード:

library(quantreg)

set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)

plot(y~x)

(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858 
abline(fit_lm, lwd = 3)

# quantile cuts
taus <- c(0.2, 0.5, 0.8)

(fit_rq <- rq(y~x, tau = taus))
#               tau= 0.2      tau= 0.5    tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x           0.29960652  1.0954521888 1.918622442

lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))

2
バツ

2
丁度。条件付き平均と固定分散を介して条件付き分位数を常に計算できるため、そのような強い仮定をしたい場合は、QRを実行してもあまり意味がありません。すべての変位値の「真の」勾配は、平均の真の勾配と等しくなります。サンプルでは、​​ランダムな変動があります。または、あなたの厳密な仮定が間違っていたことに気付くかもしれません... ;-)
Michael M

それは理にかなっている。サンプルでは、​​異なる分位点のQRスロープ推定は、分位点に沿っていくぶん広がっていくと思います。これは、最小化されている損失関数が、推定量を非対称に片側にドラッグするためです(分位点に応じて、ドラッグの方向と大きさ)。漸近的にこの効果はさらに小さくなります。
Richard Hardy

1
これは良い答えです。ありがとうございましたが、標準的な仮定(ホモスケダスティシティなど)の一部が成り立たない場合に、QRがさまざまな分位点でさまざまな関係を明らかにする簡単な例で説明できますか。
Richard Hardy

バツバツy=バツ+バツεεN01
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.