等分散性のための四分位回帰vs OLS


8

等分散誤差項に直面したときに、Quantile Regressionと比較したOLSの勾配係数について質問があります。人口モデルは次のようになります。

yi=β0+β1xi+ui

uiiidエラー条件であること。推定された勾配係数はβ^1 同じ値に収束する β1OLSとQRの異なる分位点?サンプル推定β^1 お互いに異なるかもしれません。

QR推定量の収束を考えると、等分散性が存在する場合、異なる分位点回帰のすべての勾配パラメーターが同じ値に収束することがわかります(Koenker 2005:12に示されているように)。しかし、OLS係数の収束がどのようにβ1 QR(LAD)係数の中央値と比較します β1(0.5)例えば。両方が同じ値に収束するという証拠はありますか?私の直感は、これが事実であるべきだと私に告げています。

その答えは、おそらくOLSとQRの損失関数にあります。OLSは二乗残差を最小化し、QR(中央値)は絶対偏差を最小化します。したがって、誤差は二乗されるため、OLSはQRではなく外れ値により大きな重みを付けます。しかし、等分散性の場合、正のエラーは負のエラーと同じくらい可能性が高く、OLSと中央値のQRスロープ係数は等価(少なくとも収束に関して)であるため、外れ値は互いに打ち消し合いませんか?

更新等
分散性の場合、異なる分位点の勾配係数は同等であるという予測をテストするために、スタタでテストを実行しました。これは、前述のKoenker(2005)の結果を確認するためだけに行われます。元の質問は、QRと比較したOLSの収束に関するものです。Stataでn = 2000の観測を作成しました。

set obs 2000  
set seed 98034  
generate u = rnormal(0,8)  
generate x = runiform(0,50)
generate y = 1 + x + u

このサンプルでは、​​分位点(0.10、0.50、0.90)に対してQR回帰を実行し、3つの分位点の勾配係数が同一であるという共同仮説をテストしました。

H0:β1(0.1)=β1(0.5)=β1(0.9)

これは対応するstataコードです:

sqreg y x, quantile(.1, .5, .9) reps(400)
test [q10=q50=q90]: x

証拠は圧倒的でした、H0は非常に強く拒否することができませんでした。Waldテストの出力:

F(  2,  1998) =    0.79
Prob > F =    0.4524

これは私の考えを再確認しましたが、これが常に期待されるべきかどうかについての理論的なガイダンスは提供していません。


私はあなたの問題の定式化に混乱しています。ポイントの見積もりは、期間が異なります。ただし、推定量は一貫しているため、より大きなサンプルに収束します。さて、あなたの仮説テストにはどんな意味がありますか?推定値(サンプルデータの一部の関数)が何らかの形で区別できないかどうかをテストしています。しかし、通常、母集団パラメーターに関する仮説をテストします。サンプル内の各データポイントを観察するとき、サンプルについてはすべて知っています。私はあなたが達成しようとしていることを理解していません。
Richard Hardy

1
あなたの発言をありがとう、私の質問は本当にいくつかの明確さを欠いていた。質問に収束の強調を追加しました。
タータンの葉

しかし、仮説テストの意味はどこまで不明確ですか?異なる分位点のQRの勾配係数が同じ値に収束する必要がある場合、これは相互間の勾配パラメーターからのわずかな偏差につながるのではないですか?Waldテストで確認されたのはどれですか。ただし、私の最初の質問は、OLSの収束と比較したQRの収束に関するものであるため、これは実際にはサイドトラックにすぎないことに注意してください。
タータンの葉

少なくとも私にとって、あなたの帰無仮説は意味をなさないと言っています。はっきりと書いて頂けますか?同じ値への収束に関しては、これはすでに私の答えの中にあります。2つの異なる推定量が一致する場合、それらは同じ値に収束することに注意してください。それらが異なる値に収束した場合、それらの少なくとも1つは矛盾します。
Richard Hardy

H0を明示的に書き留めました。LADとOLSが同じ値に収束することをどの程度確信していますか?あなたは彼らがそうするであろう「あなたが推測する」とあなたの答えに書いてください
タータンの葉

回答:


5

推定された勾配係数は β1 異なる分位点のOLSとQRは常に同じですか?

いいえ、もちろん違います。最小化される経験的損失関数はこれらの異なるケースで異なるためです(異なる分位点についてのOLS対QR)。

等分散性が存在する場合、異なる分位点回帰のすべての勾配パラメーターは同じであり、QRモデルは切片のみが異なることをよく知っています。

いいえ、有限サンプルではありません。Rの「quantreg」パッケージのヘルプファイルから取得した例を次に示します。

library(quantreg)
data(stackloss)
rq(stack.loss ~ stack.x,tau=0.50) #median (l1) regression fit for the stackloss data.
rq(stack.loss ~ stack.x,tau=0.25) #the 1st quartile

ただし、漸近的にそれらはすべて同じ真の値に収束します。

しかし、等分散性の場合、正の誤差は負の誤差と同じくらいありがちであり、OLSと中央値のQR勾配係数は同等であるため、外れ値は互いに打ち消し合いませんか?

いいえ。最初に、エラーの完全な対称性は、有限サンプルでは保証されません。第2に、二乗和と絶対値を最小化すると、一般に対称誤差の場合でも異なる値になります。


私はあなたのコメントから、収束と有限サンプルのプロパティを区別することの重要性を理解しました。ただし、回答の2番目の部分について、私には不明確な点が2つあります。まず、等分散性のもとでの異なる分位点回帰の勾配パラメーターは確かに等しいはずです。私はこの確実性を、私が提示したのとまったく同じモデルに言及しているKoenker(2005:12)から取っています。「分位関数は単に互いの垂直方向の変位であり、β^(τ) 人口パラメータを推定する (β0+F1(τ),β1)。 "
タータンの葉、

次に、QR係数とOLS係数の同等性について。等分散性がある場合、OLSとLADは漸近的に同じ真の値に収束すると思いますか?したがって、有限サンプルでは2は等しくない可能性がありますが、無限大に収束するサンプルサイズの場合、2は確かに同等です。
タータンの葉

@TartanLeaves、コメント#1に関して:同じデータセットの2つの分位点回帰を推定してみてください。ただし、異なる分位点については、結果の推定値が異なることがわかります。これは簡単です。コメントについて#2:はい。つまり、どちらも一貫していますが、有限サンプルでは異なります。
Richard Hardy

@TartanLeaves、私は例を含むように私の回答を編集しました。
Richard Hardy

元の質問を編集して、統計結果を含めました。実際、私はその実験をすでに昨日実行しました。
タータンは

1

一般的には答えは「はい」です。少なくともQRの特殊なケースであるTheilの回帰ではそうです。Theilの回帰の勾配推定量は、人口勾配の不偏推定量です。OLSのすべての要件が満たされている場合、85%の相対効率になります。相対ベースで最小二乗法よりも効率的になる特定の状況があります。

さらに、無制限の量のデータを使用せずに、サンプルが少ない場合は、多くの場所が適しています。負の値を許可しないことによるスキューと切り捨ては、OLSに強い影響を与え、Theilの方法にはほとんど影響を与えません。


相対効率はどのように定義されていますか?推定量の漸近分散の比として?エラー分布に依存していませんか(「OLSの要件」にはエラー分布が指定されていません)。(たとえば、OLSに対するQRの相対的な効率はエラー分布に依存します。)また、Theilの回帰は本当にQRの特別なケースですか?(参照がありますか?)
Richard Hardy

TheilとPranab Senによるオリジナルの記事がある場所に移動して埋め込んだところです。ノンパラメトリックで配布不要の教科書も箱に埋め込んでいます。Theilは、会議の議事録の一部である2つのスーパー記事にまとめられた4つの記事を書きました。記憶が私に役立つ場合は、デンマークまたはオランダの王立科学アカデミーで。彼も実際には出席しませんでした。欠席しなければならなかったため、誰かが彼のために出席しました。Pranab Senは、中央値に基づく推定量について一般的に書いています。Theilは1950年に、Senは1968年にいると思います。彼はJASAまたはEconometricaにいました。
Dave Harris

分位点回帰の限定的なケースであるので、それは私が配布のない方法について持っている赤い本から来ています。表紙に白いグラフがあります。それはケンドールの仕事ではありません。Sprentによるものかもしれません。85%の場合、完全な正規性を仮定します。それは上院議員によるものです異なるディストリビューションは異なる相対効率になります。私はそれが漸近的分散の比率であると信じています。
Dave Harris

申し訳ありませんが、私には奇妙な記憶があります。Senがカバーする他のノンパラメトリックメソッドの1つを伝えることもできますが、もう1つは教えません。地下室のどの箱がまだ開かれていないかはわかりません。アルバムのカバーは覚えていますが、バンドや曲の名前は覚えていません。または、歌詞は覚えていますが、誰が歌ったか覚えていません。私の箱が開梱されたら、この投稿に戻って更新することを忘れないでください。フロントページのセンの記事のJSTOR画像は覚えていますが、JSILを介していない可能性があるTheilの2つの画像は覚えていません。
Dave Harris

1
@ user25459、返信ありがとうございます!前に述べた@Richard Hardyのように、Theilの回帰(「ペアワイズスロープの中央値」法と呼んでいる)がどれほど遠いのかもわかりません。私はそれについて以前に聞いたことがなく、Koenker(2005)のモノグラフ「Quantile Regression」では、1つの文でのみ言及されています。
タータンの葉
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.