分位点回帰：損失関数

24

分位点回帰を理解しようとしていますが、私が苦しむ1つのことは、損失関数の選択です。

$\rho_\tau(u) = u(\tau-1_{\{u<0\}})$

私はの期待の最小ことを知っているに等しい -quantileが、この機能をオフに開始するための直感的な理由は何ですか？この関数の最小化と変位値の関係はわかりません。誰かが私にそれを説明できますか？ $\rho_\tau(y-u)$ $\tau\%$

quantiles loss-functions quantile-regression

— CDO
ソース

28

この質問は、基礎となる分布がどのようなものであっても、損失最小化として特定の分位を生成する損失関数をどのように考え出すかについての洞察を求めることとして理解しています。この特定の損失関数が機能することを示すウィキペディアまたは他の場所で分析を繰り返すだけでは不十分です。

なじみのあるシンプルなものから始めましょう。

あなたが話しているのは、データ分布またはセットに関連する「場所」見つけることです。それは、平均こと、例えば、よく知られている期待二乗残差を最小化します。つまり、それは値です $x^{*}$ $F$ $\bar x$

L_{F} (\bar{x}) = \int_{R} (x - \bar{x})^{2} d F (x)

$\mathcal{L}_F(\bar x)=\int_{\mathbb{R}} (x - \bar x)^2 dF(x)$

可能な限り小さいです。私はそれを思い出させるために、この表記を使用している由来しているの損失それはによって決定されていることを、が、最も重要なことは、数に依存 $\mathcal{L}$ $F$ $\bar x$ です。

ことを示すために、標準的な方法任意の関数がときに、関数の値が減少しない実証することによって始まる最小限少しだけ変化します。このような値は、関数のクリティカルポイントと呼ばれます。 $x^{*}$ $x^{*}$

どのような損失関数が、パーセンタイルが臨界点になるのでしょうか？その値の損失は $\Lambda$ $F^{-1}(\alpha)$

L_{F} (F^{- 1} (α)) = \int_{R} Λ (x - F^{- 1} (α)) d F (x) = \int_{0}^{1} Λ (F^{- 1} (u) - F^{- 1} (α)) d u .

$\mathcal{L}_F(F^{-1}(\alpha)) = \int_{\mathbb{R}} \Lambda(x-F^{-1}(\alpha))dF(x)=\int_0^1\Lambda\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.$

これが重要なポイントであるためには、その導関数はゼロでなければなりません。私たちはいくつかの解決策を見つけるためにしようとしているので、私たちは、操作が正当であるかどうかを確認するために一時停止しません。我々は、（私たちは本当に区別できるかどうかなど、技術的な詳細をチェックすることを計画します、などを最後にします）。かくして $\Lambda$

\begin{matrix} (1) & \begin{aligned} 0 & = L_{F}^{'} (x^{*}) = L_{F}^{'} (F^{- 1} (α)) = - \int_{0}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u \\ = - \int_{0}^{α} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u - \int_{α}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u . \end{aligned} \end{matrix}

$\eqalign{0 &=\mathcal{L}_F^\prime(x^{*})= \mathcal{L}_F^\prime(F^{-1}(\alpha))= -\int_0^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du \\ &= -\int_0^{\alpha} \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du -\int_{\alpha}^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.\tag{1} }$

左側では、の引数は負ですが、右側では正です。それ以外は、は任意の分布関数になる可能性があるため、これらの積分の値をほとんど制御できません。 結果的に私たちの唯一の希望は作ることです引数の符号にのみ依存し、それ以外の場合は一定でなければなりません。 $\Lambda$ $F$ $\Lambda^\prime$

これは、が区分線形であり、潜在的にゼロの左右に異なる勾配を持つことを意味します。ゼロに近づくにつれて明らかに減少するはずです。結局のところ、それは損失であってゲインではありません。また、再スケーリング我々は左側のスロープを設定して自由に感じるかもしれので、そのプロパティを変更しません定数で。してみましょう、右側の斜面こと。それから簡素化します $\Lambda$ $\Lambda$ $-1$ $\tau \gt 0$ $(1)$

0 = α - τ (1 - α),

$0 = \alpha - \tau (1 - \alpha),$

そこからユニークなソリューションは、正の整数倍にアップしています

Λ (x) = {\begin{cases} - x, x \leq 0 \\ \frac{α}{1 - α} x, x \geq 0. \end{cases}

$\Lambda(x) = \cases{-x, \ x \le 0 \\ \frac{\alpha}{1-\alpha}x, \ x \ge 0.}$

$1-\alpha$ 分母をクリアするには、問題の提示損失関数を生成します。

$\Lambda$

— ウーバー
ソース

19

ρ_{τ} (X - m) = (X - m) (τ - 1_{(X - m < 0)}) = {\begin{cases} τ | X - m | & i f X - m \geq 0 \\ (1 - τ) | X - m | & i f X - m < 0) \end{cases}

$\rho_\tau(X-m) = (X-m)(\tau-1_{(X-m<0)}) = \begin{cases} \tau |X-m| & if \; X-m \ge 0 \\ (1 - \tau) |X-m| & if \; X-m < 0) \end{cases}$

If you want to get an intuitive sense of why minimizing this loss function yields the $\tau$ th quantile, it's helpful to consider a simple example. Let $X$ be a uniform random variable between 0 and 1. Let's also choose a concrete value for $\tau$ , say, $0.25$ .

So now the question is why would this loss function be minimized at $m=0.25$ ? Obviously, there's three times as much mass in the uniform distribution to the right of $m$ than there is to the left. And the loss function weights the values larger than this number at only a third of the weight given to values less than it. Thus, it's sort of intuitive that the scales are balanced when the $\tau$ th quantile is used as the inflection point for the loss function.

— jjet
ソース

1

Shouldn't it be the other way? Under-guessing will cost three times as much?

— Edi Bice

Thanks for catching that. The formula is right but I initially worded it incorrectly in my explanation.

— jjet