分位点回帰:損失関数


24

分位点回帰を理解しようとしていますが、私が苦しむ1つのことは、損失関数の選択です。

ρτ(u)=u(τ1{u<0})

私はの期待の最小ことを知っているに等しいτ -quantileが、この機能をオフに開始するための直感的な理由は何ですか?この関数の最小化と変位値の関係はわかりません。誰かが私にそれを説明できますか?ρτ(yu)τ%

回答:


28

この質問は、基礎となる分布がどのようなものであっても、損失最小化として特定の分位を生成する損失関数をどのように考え出すかについての洞察を求めることとして理解しています。この特定の損失関数が機能することを示すウィキペディアまたは他の場所で 分析を繰り返すだけでは不十分です。

なじみのあるシンプルなものから始めましょう。

あなたが話しているのは、データFの分布またはセットに関連する「場所」見つけることです。それは、平均こと、例えば、よく知られているˉ xが期待二乗残差を最小化します。つまり、それは値ですxFx¯

LF(x¯)=R(xx¯)2dF(x)

可能な限り小さいです。私はそれを思い出させるために、この表記を使用している由来しているの損失それはによって決定されていることを、Fが、最も重要なことは、数に依存ˉ XLFx¯です。

ことを示すために、標準的な方法任意の関数がときに、関数の値が減少しない実証することによって始まる最小限のx *が少しだけ変化します。このような値は、関数のクリティカルポイントと呼ばれます。xx

どのような損失関数が、パーセンタイルF 1α が臨界点になるのでしょうか?その値の損失はΛF1(α)

LF(F1(α))=RΛ(xF1(α))dF(x)=01Λ(F1(u)F1(α))du.

これが重要なポイントであるためには、その導関数はゼロでなければなりません。私たちはいくつかの解決策を見つけるためにしようとしているので、私たちは、操作が正当であるかどうかを確認するために一時停止しません。我々は、(私たちは本当に区別できるかどうかなど、技術的な詳細をチェックすることを計画しますなどを最後にします)。かくしてΛ

(1)0=LF(x)=LF(F1(α))=01Λ(F1(u)F1(α))du=0αΛ(F1(u)F1(α))duα1Λ(F1(u)F1(α))du.

左側では、の引数は負ですが、右側では正です。それ以外は、Fは任意の分布関数になる可能性があるため、これらの積分の値をほとんど制御できません。 結果的に私たちの唯一の希望は作ることですΛを引数の符号にのみ依存し、それ以外の場合は一定でなければなりません。ΛFΛ

これは、が区分線形であり、潜在的にゼロの左右に異なる勾配を持つことを意味します。ゼロに近づくにつれて明らかに減少するはずです。結局のところ、それは損失であってゲインではありません。また、再スケーリングΛを我々は左側のスロープを設定して自由に感じるかもしれので、そのプロパティを変更しません定数で- 1。してみましょうτ > 0、右側の斜面こと。それから1 )に簡素化しますΛΛ1τ>0(1)

0=ατ(1α),

そこからユニークなソリューションは、正の整数倍にアップしています

Λ(x)={x, x0α1αx, x0.

1α分母をクリアするには、問題の提示損失関数を生成します。

Λ


19

ρτ(Xm)=(Xm)(τ1(Xm<0))={τ|Xm|ifXm0(1τ)|Xm|ifXm<0)

If you want to get an intuitive sense of why minimizing this loss function yields the τth quantile, it's helpful to consider a simple example. Let X be a uniform random variable between 0 and 1. Let's also choose a concrete value for τ, say, 0.25.

So now the question is why would this loss function be minimized at m=0.25? Obviously, there's three times as much mass in the uniform distribution to the right of m than there is to the left. And the loss function weights the values larger than this number at only a third of the weight given to values less than it. Thus, it's sort of intuitive that the scales are balanced when the τth quantile is used as the inflection point for the loss function.


1
Shouldn't it be the other way? Under-guessing will cost three times as much?
Edi Bice

Thanks for catching that. The formula is right but I initially worded it incorrectly in my explanation.
jjet
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.