タグ付けされた質問 「quantile-regression」

変位値回帰により、結果変数または特定の変位値の分布全体にわたる一連の予測変数の効果を推定できます。

1
分位数の関数としての期待値?
RV用の期待値と同じRVの変位値の関数として連続確率変数の期待値に関連する一般的な式がある場合、私は思っていた:として定義される および変位値は次のように定義されます: for。XXX E(X)=∫xdFX(x)E(X)=∫xdFX(x)E(X) = \int x dF_X(x) QpX={x:FX(x)=p}=F−1X(p)QXp={x:FX(x)=p}=FX−1(p)Q^p_X = \{x : F_X(x) = p \} =F_X^{-1}(p) p∈(0,1)p∈(0,1)p\in(0,1) たとえば、次のような関数があります: GGGE(X)=∫p∈(0,1)G(QpX)dpE(X)=∫p∈(0,1)G(QXp)dpE(X) = \int_{p\in(0,1)} G(Q^p_X) dp

1
四分位回帰推定式
私は、分位点回帰推定量の2つの異なる表現を見てきました。 Q(βq)=∑i:yi≥x′iβnq∣yi−x′iβq∣+∑i:yi&lt;x′iβn(1−q)∣yi−x′iβq∣Q(βq)=∑i:yi≥xi′βnq∣yi−xi′βq∣+∑i:yi&lt;xi′βn(1−q)∣yi−xi′βq∣Q(\beta_{q}) = \sum^{n}_{i:y_{i}\geq x'_{i}\beta} q\mid y_i - x'_i \beta_q \mid + \sum^{n}_{i:y_{i}< x'_{i}\beta} (1-q)\mid y_i - x'_i \beta_q \mid および Q(βq)=∑i=1nρq(yi−x′iβq),ρq(u)=ui(q−1(ui&lt;0))Q(βq)=∑i=1nρq(yi−xi′βq),ρq(u)=ui(q−1(ui&lt;0))Q(\beta_q) = \sum^{n}_{i=1} \rho_q (y_i - x'_i \beta_q), \hspace{1cm} \rho_q(u) = u_i(q - 1(u_i < 0 )) ここで、です。これらの2つの式の同等性を示す方法を誰かに教えてもらえますか?ここでは、2番目の式から始めて、これまでに試したことを説明します。ui=yi−x′iβqui=yi−xi′βqu_i = y_i - x'_i \beta_q Q(βq)=∑i=1nui(q−1(ui&lt;0))(yi−x′iβq)=∑i=1n(yi−x′iβq)(q−1(yi−x′iβq&lt;0))(yi−x′iβq)=⎡⎣∑i:yi≥x′iβn(q(yi−x′iβq))+∑i:yi&lt;x′iβn(q(yi−x′iβq)−(yi−x′iβq))⎤⎦(yi−x′iβq)Q(βq)=∑i=1nui(q−1(ui&lt;0))(yi−xi′βq)=∑i=1n(yi−xi′βq)(q−1(yi−xi′βq&lt;0))(yi−xi′βq)=[∑i:yi≥xi′βn(q(yi−xi′βq))+∑i:yi&lt;xi′βn(q(yi−xi′βq)−(yi−xi′βq))](yi−xi′βq) \begin{align} Q(\beta_q) &= \sum^{n}_{i=1} u_i(q …

1
分位数回帰プロット(quantregパッケージ)の赤い線は何ですか?
R plot.rqのquantregパッケージで使用すると、係数推定分布をプロットして、次のような結果を得ることができます。 赤い点線は何ですか?広範囲のグーグルにより、真ん中の値は99のすべての推定値の平均であることがわかりましたが、赤い点線についてはまだわかりません。

4
分位点回帰は、分位点で変数が分割されたロジスティック回帰とどのように比較されますか?
少しググったけど、何も見つからなかった。 従属変数のq番目の分位点で分位点回帰を行うとします。 次に、DVをq番目の分位点で分割し、結果に0と1のラベルを付けます。次に、分類されたDVに対してロジスティック回帰を行います。 私はこれのモンテカルロ研究または他のものより好む理由を探しています。

1
異なる分位点で異なる関係を明らかにする分位点回帰:どのように?
変位値回帰(QR)は、分布の異なる変位値での変数間の異なる関係を明らかにすると言われることがあります。例えば、Le Cook et al。「平均を超えて考える:保健サービス研究のための分位回帰法を使用するための実用的なガイド」は、QRが変数の異なる値にわたって関心のある結果と説明変数間の関係を非一定にすることを可能にすることを意味します。 ただし、私が知る限り、標準の線形回帰モデルでは、 、はiidであり、から独立しています。勾配 QR推定量y= β0+ βバツ+ εy=β0+βバツ+ε y = \beta_0 + \beta X + \varepsilon εε\varepsilonバツバツXββ\beta母集団の勾配に対して一貫しています(これは固有であり、分位点間で変化しません)。つまり、分位数に関係なく、推定されるオブジェクトは常に同じです。確かに、QRインターセプト推定器はエラー分布の特定の分位数を推定することを目的としているため、これはインターセプトには当てはまりません。まとめると、変数間のさまざまな関係がQRを介してさまざまな分位点でどのように明らかにされることになっているのかわかりません。これは私の理解の誤りではなく、標準の線形回帰モデルの特性だと思いますが、私にはわかりません。 標準の線形モデルのいくつかの仮定に違反すると、状況が異なります。次に、QRスロープ推定器は、線形モデルの真のスロープ以外のものに収束し、どういうわけか、さまざまな分位点でさまざまな関係を明らかにします。 何がいけないのですか?分位点回帰が異なる分位点での変数間の異なる関係を明らかにするという主張を適切に理解/解釈するにはどうすればよいですか?

1
打ち切り分位回帰モデルのフィッティングのエラー
私はこのような正しい検閲の結果を持っています: y&lt;-c(rep(2.83,3), rep(3.17,4), rep(3.83,4), rep(4.17,5), rep(4.83,8), rep(5.5,3), rep(7.17,5), rep(8.17,7), rep(8.83,12), rep(9.5, 12), rep(9.83,17), rep(10.17,30), rep(10.50,100)) ここでy=10.5、右打ち切り値です。次に、quantreg::crq検閲済み分位回帰モデルを当てはめるためにを使用して、バイナリ介入変数から始めます。 set.seed(123) require(quantreg) yc&lt;-rep(10.5, length(y)) treat&lt;-rbinom(length(y), 1, 0.5) age&lt;-as.integer(rnorm(length(y), 50, 2)) モデル1 fit1&lt;-crq(Curv(y, yc, "right")~treat, taus=(1:4)/5, , method="Powell") Error in solve.default(x[h, ]) : Lapack routine dgesv: system is exactly singular: U[2,2] = 0 Error in …

2
Rの複雑な調査の分位点回帰の重み
分位点回帰モデルにサンプルの重みを含めたいのですが、これを行う方法がわかりません。 私はすでに自分の重みを定義しました。これは、調査データセット(調査パッケージで計算)ですでに指定されている複製された重みです。 w&lt;-svrepdesign(variables=data[,1:10],repweights=data[,11:30],type="BRR", combined.weights=TRUE, weights=r.weights, rho=0.5,dbname="") そして私のrqモデルは: rq(y~x,tau=c(.1,.2,.3,.4,.5,.6,.7,.8,.9),data=my.data)) withReplicates関数を使用しようとしましたが、成功しませんでした。助言がありますか?

2
分位回帰を線形計画問題として定式化しますか?
分位点回帰を線形計画問題として定式化するにはどうすればよいですか?変位値の中央値の問題を見ると、 最小化 に変形する 最小化 stΣi = 1ん|β0+バツ私β1−Y私|Σi = 1んe私e私≥β0+バツ私β1−Y私e私≥ - (β0+バツ私β1−Y私)minimize ∑i=1n|β0+Xiβ1−Yi|transforms into minimize ∑i=1neis.t.ei≥β0+Xiβ1−Yiei≥−(β0+Xiβ1−Yi)\begin{align} \text{minimize } & \sum_{i=1}^n |\beta_0 + X_i \beta_1-Y_i|\\ \text{transforms into } & \\ \text{minimize } & \sum_{i=1}^n e_i\\ \text{s.t.} & \\ & e_i\geq \beta_0 + X_i\beta_{1}-Y_i\\ & e_i\geq -(\beta_0 + X_i\beta_{1}-Y_i) \end{align} が、他の変位値の最小化をどのように変換しますか?

2
等分散性のための四分位回帰vs OLS
等分散誤差項に直面したときに、Quantile Regressionと比較したOLSの勾配係数について質問があります。人口モデルは次のようになります。 y私=β0+β1バツ私+あなた私yi=β0+β1xi+uiy_i = \beta_0 + \beta_{1}x_i + u_i と あなた私uiu_iiidエラー条件であること。推定された勾配係数はβ^1β^1\hat{\beta}_{1} 同じ値に収束する β1β1\beta_{1}OLSとQRの異なる分位点?サンプル推定β^1β^1\hat{\beta}_{1} お互いに異なるかもしれません。 QR推定量の収束を考えると、等分散性が存在する場合、異なる分位点回帰のすべての勾配パラメーターが同じ値に収束することがわかります(Koenker 2005:12に示されているように)。しかし、OLS係数の収束がどのようにβ1β1\beta_{1} QR(LAD)係数の中央値と比較します β1(0.5 )β1(0.5)\beta_{1}(0.5)例えば。両方が同じ値に収束するという証拠はありますか?私の直感は、これが事実であるべきだと私に告げています。 その答えは、おそらくOLSとQRの損失関数にあります。OLSは二乗残差を最小化し、QR(中央値)は絶対偏差を最小化します。したがって、誤差は二乗されるため、OLSはQRではなく外れ値により大きな重みを付けます。しかし、等分散性の場合、正のエラーは負のエラーと同じくらい可能性が高く、OLSと中央値のQRスロープ係数は等価(少なくとも収束に関して)であるため、外れ値は互いに打ち消し合いませんか? 更新等 分散性の場合、異なる分位点の勾配係数は同等であるという予測をテストするために、スタタでテストを実行しました。これは、前述のKoenker(2005)の結果を確認するためだけに行われます。元の質問は、QRと比較したOLSの収束に関するものです。Stataでn = 2000の観測を作成しました。 set obs 2000 set seed 98034 generate u = rnormal(0,8) generate x = runiform(0,50) generate y = 1 + x + u このサンプルでは、​​分位点(0.10、0.50、0.90)に対してQR回帰を実行し、3つの分位点の勾配係数が同一であるという共同仮説をテストしました。 H0:β1(0.1)=β1(0.5)=β1(0.9)H0:β1(0.1)=β1(0.5)=β1(0.9)H_0: \beta_1(0.1)=\beta_1(0.5)=\beta_1(0.9) これは対応するstataコードです: …

1
線形モデルにおける従属変数の異分散性と分布
私は、多変量olsモデルを実行しています。ここで、従属変数は食品消費スコアであり、特定の食品カテゴリの消費発生の加重和によって作成されたインデックスです。 モデルのさまざまな仕様を試し、予測子をスケーリングまたは対数変換しましたが、Breusch-Paganテストは常に強い不均一分散を検出します。 変数が省略される通常の原因は除外します。 特にログのスケーリングと正規化の後、外れ値は存在しません。 私はPolychoric PCAを適用して作成された3/4インデックスを使用していますが、OLSからそれらの一部またはすべてを除外しても、Breusch-Pagan出力は変更されません。 モデルで使用されるダミー変数はごくわずかです(通常)。性別、婚姻状況。 各領域のダミーを含めて制御し、ads-R ^ 2の点で異分散性領域を20%増やしても、サンプルの領域間で発生する高度の変動を検出します。 サンプルには20,000の観測があります。 問題は私の従属変数の分布にあると思います。私が確認できた限り、正規分布は私のデータの実際の分布の最も近い近似です(おそらく十分に近くないかもしれません)ここで、従属変数を正規化し、対数変換した赤の2つのqqプロットをそれぞれここに添付します通常の理論分位数)。 私の変数の分布を考えると、不均一性は従属変数の非正規性によって引き起こされる可能性があります(モデルのエラーに非正規性を引き起こしますか?) 従属変数を変換する必要がありますか?glmモデルを適用する必要がありますか?-私はglmで試しましたが、BPテストの出力に関しては何も変更されていません。 グループ間の変動を制御し、不均一分散(ランダムインターセプト混合モデル)を取り除くより効率的な方法はありますか? 前もって感謝します。 編集1: 私は食物消費スコアの技術マニュアルをチェックしましたが、通常、指標は「正規に近い」分布に従うと報告されています。実際、Shapiro-Wilk Testは、変数が正規分布であるという帰無仮説を拒否します(最初の5000 obsでテストを実行できました)。残差に対するフィッティングのプロットからわかるのは、フィッティングの値が低い場合、エラーの変動性が減少することです。以下にプロットを添付します。プロットは、線形混合モデル、正確には398の異なるグループを考慮したランダムインターセプトモデルから得られます(相互相関係数= 0.32、グループの平均解放は0.80以上)。私はグループ間の変動性を考慮に入れましたが、異分散性はまだあります。 また、さまざまな分位回帰を実行しました。私は特に0.25分位点の回帰に関心がありましたが、誤差の等分散に関しては改善がありませんでした。 私は今、ランダムな切片の分位点回帰を当てはめることによって、分位点とグループ(地理的領域)の間の多様性を同時に考慮することを考えています。良いアイデアかもしれませんか? さらに、ポアソン分布は、変数の値が低い場合でも少し(通常より少し小さい)変動しても、私のデータの傾向に従っているように見えます。ただし、問題は、ポアソンファミリのglmをフィッティングするには正の整数が必要であり、私の変数は正の値ですが、整数のみではありません。したがって、glm(またはglmm)オプションを破棄しました。 編集2: あなたの提案のほとんどは、堅牢な推定量の方向に行きます。しかし、それは解決策の1つにすぎないと思います。データの不均一性の理由を理解すると、モデル化する関係の理解が向上します。エラー分布の底部で何かが起こっていることは明らかです-OLS仕様からのこの残差のqqplotを見てください。 この問題にさらに対処する方法について何か考えが思い浮かびますか?分位点回帰でさらに調査する必要がありますか? 問題が解決しました ? あなたの提案に従って、私は最終的にランダムなインターセプトモデルトリングを実行して、技術的な問題を私の研究分野の理論に関連付けました。モデルのランダムな部分に含まれていると、誤差項が等分散性になる変数が見つかりました。ここに私は3つのプロットを投稿します: 1つ目は、34グループ(州)のランダムインターセプトモデルから計算されます。 2つ目は、34のグループ(地域)を持つランダム係数モデルからのものです。 最後に、3番目は、398個のグループ(地区)を持つランダム係数モデルの推定結果です。 前回の仕様では、不等分散性を制御していると言っていいでしょうか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.