分位点回帰に対する線形回帰の利点は何ですか?


15

線形回帰モデルがあること仮定の束になりクォンタイル回帰は、線形回帰の仮定が満たされた場合、ないとし、その後、私の直感(およびいくつかの非常に限られた経験が)中央値回帰は、線形回帰とほぼ同じ結果を与えるだろうということです。

それでは、線形回帰にはどのような利点がありますか?それは確かにより馴染みがありますが、それ以外は?


3
「より馴染みのある」には「解釈可能性」と「安定性」を追加しますが、私にとって線形回帰の利点の1つは、平均とその平均がサンプル母集団をどの程度よく表しているかを示すことです(残余は非常に有益です) 。線形回帰は、その仮定が満たされている場合に大きな価値を持ち、満たされていない場合に良い値を持ちます。
JustGettin19年

5
:私は1つの重要な問題は、これら2つのスレッドで議論されていることを主張するだろうstats.stackexchange.com/questions/153348/...stats.stackexchange.com/questions/146077/...一定の下で、効率、および、おそらく、でも最適-仮定
クリストフハンク

1
さらに小さな点として、たとえばLADには利用できない明示的で閉じた形式のソリューションの利用可能性を追加することができます。
クリストフハンク

1
答えは、単一の母集団パラメーターを推定する単純なケースを比較し、最小二乗誤差がガウス誤差と最小の絶対残差(同様に仮定を使用)で優れたパフォーマンスを示すことを、さまざまなタイプの誤差で優れたパフォーマンスを示すようなものです。しかし、この質問はより複雑な線形モデルに関するものであり、問​​題はより複雑で広範なものになり始めています。単純な問題(単一の平均/中央値を推定する)の直観は、より大きなモデルで機能しますが、どれだけそれを解決する必要がありますか?そして、外れ値、分布、計算に対する堅牢性を比較する方法は?
セクストゥスエンピリカス

2
私の場合、応答変数が歪んでいる場合(顧客支出など)を非技術者に説明し、変換/リンク関数のステップを導入すると分析全体がわかりにくくなるため、分位点回帰の方がはるかに優れていることがわかりました。その意味で、「メディアン回帰は線形回帰とほぼ同一の結果を与える」という主張を少し単純化しすぎている主張します。特に、潜在的に歪んだ応答変数を処理する場合はそうではありません。
usεr11852が復活モニック言う

回答:


10

最小二乗残差を最小化することは、計算的に簡単であるという理由で、絶対残差を最小化することよりも好ましいと非常に頻繁に述べられています。しかし、それは他の理由で良いかもしれません。つまり、場合の仮定が真である(これはそれほど珍しいことではありません)それは(平均で)より正確なソリューションを提供します。

最尤法

最小二乗回帰と変位値回帰(絶対残差を最小化することにより実行される場合)は、ガウス/ラプラス分布誤差の尤度関数を最大化するものと見ることができ、この意味で非常に関連しています。

  • ガウス分布:

    f(x)=12πσ2e(xμ)22σ2

    二乗残差の合計を最小化するときに対数尤度が最大化される

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2二乗残差の合計

  • ラプラス分布:

    fバツ=12be|バツμ|b

    絶対残差の合計を最小化するときに対数尤度が最大化される

    ログLバツ=nログ2nログb1b=1n|バツμ|絶対残差の合計

注:ラプラス分布と絶対残差の合計は中央値に関連していますが、負の残差と正の残差に異なる重みを与えることにより、他の分位数に一般化できます。

既知のエラー分布

誤差分布がわかっている場合(仮定が正しいと思われる場合)、関連する尤度関数を選択することは理にかなっています。その機能を最小化することがより最適です。

多くの場合、エラーは(ほぼ)正規分布です。その場合、最小二乗を使用することが、パラメーターμ(平均と中央値の両方に関連する)を見つける最良の方法です。これは、サンプル分散が最小である(すべての不偏推定量の中で最も低い)ため、最良の方法です。または、より強く言うことができます:それは確率的に支配的である(サンプルの中央値とサンプルの平均の分布を比較するこの質問の図を参照)。

そのため、誤差が正規分布している場合、標本平均は、標本中央値よりも分布中央値の優れた推定量になります。最小二乗回帰は、分位数のより最適な推定量です。絶対残差の最小合計を使用するよりも優れています。

非常に多くの問題が通常の分散エラーを扱うため、最小二乗法の使用は非常に一般的です。他のタイプの分布を扱うには、一般化線形モデルを使用できます。また、GLMの解決に使用できる反復最小二乗法は、ラプラス分布(つまり、絶対偏差)でも機能します。これは、中央値(または一般化バージョンで他の分位数)を見つけることと同等です。

不明なエラー分布

堅牢性

中央値または他の変位値には、分布のタイプに関して非常に堅牢であるという利点があります。実際の値は重要ではなく、変位値は順序のみを考慮します。したがって、分布が何であっても、絶対残差を最小化することは(変位値を見つけることと同等です)非常にうまく機能しています。

ここでの質問は複雑で広範になり、分布関数についてどのような種類の知識を持っているか、または持っていないかに依存します。たとえば、分布はほぼ正規分布である場合がありますが、追加の外れ値がいくつかあります。これは、外側の値を削除することで対処できます。この極値の除去は、切り捨てられた平均が中央値よりも優れた推定量になる可能性があるコーシー分布の位置パラメーターを推定する際にも機能します。したがって、仮定が当てはまる理想的な状況だけでなく、いくつかの理想的でないアプリケーション(追加の外れ値など)に対しても、絶対残差の合計ではなく、何らかの形の二乗残差の合計を使用する堅牢な方法があります。

切り捨てられた残差を使用した回帰は、計算がはるかに複雑になると思います。そのため、実際には、計算的に単純である(通常の最小二乗よりも単純ではないが、切り捨てられた最小二乗よりも単純である)ために実行される回帰のタイプである分位点回帰である場合があります

バイアス/バイアスなし

別の問題は、偏りのない推定器と偏りのない推定器です。上記では、平均の最尤推定、すなわち最小二乗解法を、すべての不偏推定量の最小の分散を持っていることが多いため、良いまたは好ましい推定量として説明しました(誤差が正規分布の場合)。ただし、偏りのある推定器の方が優れている可能性があります(予想される2乗誤差の合計が小さい)。

これにより、質問は再び広く複雑になります。多くの異なる推定量とそれらを適用する多くの異なる状況があります。適応された二乗残差損失関数の合計の使用は、多くの場合エラーを減らすためにうまく機能しますが(たとえば、あらゆる種類の正則化方法)、すべての場合にうまく機能する必要はありません。直観的には、二乗残差損失関数の合計がすべての不偏推定量に対してうまく機能することが多いため、最適なバイアス推定量はおそらく二乗残差損失関数の合計に近いものだと想像することは奇妙ではありません。


エラー分布がわかっている場合、関連する尤度関数を選択するのが理にかなっています。その機能を最小化することがより最適です。これが間違っていると言うのではなく、おそらく資格があるはずです。もちろん、これは、さまざまな損失関数の下での最適な推定量に関する私の質問(あなたが答えた)に関連しています。
リチャードハーディ

サンプル分散が最も低いため、これが最良の方法です。分散はバイアスを無視するため、一般に理にかなった損失関数ではありません。賢明な対応物は、分散とバイアスの両方を考慮した予想二乗誤差(別名、平均二乗誤差)です。最小二乗回帰は、分位数のより最適な推定量です。中央値–はい、しかし他のものですか?そして、はいの場合、なぜですか?いずれにせよ、あなたの答えはとてもいいです!
リチャードハーディ

1
@RichardHardyこのトピックは広範です。実際、エラー=分散+バイアス。サンプル平均のバイアスは、サンプルの中央値と同じであると仮定しました(または、より一般的には、最小二乗残差和と最小残差絶対和は同じバイアスを持っています)。これは、さまざまなエラー分布(対称エラー分布など)を前提に当てはまりますが、実際には、他のケースでは質問がより複雑になります。(主に、エラーは通常正規分布であり、これにより最小二乗回帰が有利になるという点でした)
Sextus Empiricus

1
同じ(質問の複雑さ)は、中央値を考慮せず、代わりに他の分位数を考慮した場合に当てはまります。通常の分散エラーの場合、MLEはどのような変位値に対しても最高の結果をもたらすと信じていますが、それは直感であることに同意します。繰り返しますが、問題は非常に広範なものです(サンプル数、エラーの分布のタイプ、およびそれに関する確実性など)。
セクストゥスエンピリカス

1
壊れた時計は、私は壊れた時計MLEを呼び出すことはありません、正確に右の一日二回です。確かに、問題をよく理解している場合は、全体的なエラーを改善するために、バイアスを削減する分散を導入できます。これは必ずしも別の(分位点)タイプの回帰に移行しているわけではなく、最小二乗のパンとバターにジャムや蜂蜜を入れることもできます。MLEを壊れた時計と比較したい場合、それは私たちが最も活用している時間の周りにたまたま静止している時計です。
セクストゥスエンピリカス

2

線形回帰(LR)は、係数の計算時に最小二乗最適化に要約されます。これは、回帰モデルからの偏差の対称性を意味します。変位値回帰(QR)の適切な説明はhttps://data.library.virginia.edu/getting-started-with-quantile-regression/にあります

LRの仮定(推論に必要:p値、信頼区間など)が満たされている場合、QRとLRの予測は同様になります。ただし、前提条件に大きく違反している場合、標準のLR推論は間違っています。したがって、0.5分位(中央値)回帰はLRよりも有利です。また、他の変位値に回帰を提供する際の柔軟性が向上します。線形モデルの同等物は、LRから計算された信頼限界になります(ただし、iidが強く違反された場合、これは誤りになります)。

LRの利点は何ですか?もちろん、計算は簡単ですが、データセットが適切なサイズである場合、あまり目立たない可能性があります。しかし、もっと重要なことは、LR推論の仮定は、不確実性を下げる情報を提供します。その結果、通常、予測のLR信頼区間は狭くなります。そのため、仮定に対する強力な理論的サポートがある場合、信頼区間を狭くすることが有利になる場合があります。


2

線形回帰は、データが与えられた条件付き平均応答を推定するために使用されます、すなわち EY|バツ どこ Y 応答であり、 バツデータです。回帰により、EY|バツ=バツβ。推論が有効であるためには、特定の仮定があります(統計のテキストで見つけることができます)。これらが満たされている場合、一般的にはβ BLUE(最良の線形不偏推定量-ガウス-マルコフの定理を参照)

分位点回帰は、中央値を含む条件付き分布の分位点を推定するために使用できます。これは、条件付き分布に関する平均よりも多くの情報を潜在的に提供します。条件付き分布が対称でない場合、またはテールが太い可能性がある場合(リスク分析など)、線形回帰のすべての仮定が満たされている場合でも、変位値回帰は役立ちます。

もちろん、線形回帰と比較して変位値推定を実行することは数値的にはより集中的ですが、一般にはるかに堅牢です(たとえば、外れ値に対する平均よりも中央値が堅牢であるように)。また、線形回帰が適切でない場合(打ち切りデータなど)に適しています。分散共分散行列の直接推定は困難であるか、計算コストが高くなる可能性があるため、推論は難しい場合があります。これらの場合、ブートストラップできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.