分位回帰を線形計画問題として定式化しますか？

分位点回帰を線形計画問題として定式化するにはどうすればよいですか？変位値の中央値の問題を見ると、

\begin{aligned} minimize & \sum_{i = 1}^{n} | β_{0} + X_{i} β_{1} - Y_{i} | \\ transforms into \\ minimize & \sum_{i = 1}^{n} e_{i} \\ s.t. \\ e_{i} \geq β_{0} + X_{i} β_{1} - Y_{i} \\ e_{i} \geq - (β_{0} + X_{i} β_{1} - Y_{i}) \end{aligned}

$\begin{align} \text{minimize } & \sum_{i=1}^n |\beta_0 + X_i \beta_1-Y_i|\\ \text{transforms into } & \\ \text{minimize } & \sum_{i=1}^n e_i\\ \text{s.t.} & \\ & e_i\geq \beta_0 + X_i\beta_{1}-Y_i\\ & e_i\geq -(\beta_0 + X_i\beta_{1}-Y_i) \end{align}$ が、他の変位値の最小化をどのように変換しますか？

regression quantile-regression linear-programming

— マチャズゲーマー
ソース

いくつかの関連するRコードはここにあります。

— kjetil b halvorsen 2018

回答:

変位値回帰推定量を使用する

\hat{β} (τ) := \arg min_{θ \in R^{K}} \sum_{i = 1}^{N} ρ_{τ} (y_{i} - x_{i}^{⊤} θ) .

$\hat \beta(\tau) := \arg \min_{\theta \in \mathbb R^K} \sum_{i=1}^N \rho_\tau(y_i - \mathbf x_i^\top \theta).$

ここで、 $\tau \in (0,1)$ は、推定する必要がある $\rho_\tau(.)$ 値に従って選択される定数であり、関数は次のように定義されます

ρ_{τ} (r) = r (τ - I (r < 0)) .

$\rho_\tau(r) = r(\tau - I(r<0)).$

の目的を確認するために、これらがとして定義されている場合、引数として残差を取ることを最初に考慮してください。したがって、最小化問題の合計は、次のように書き直すことができます。 $\rho_\tau(.)$ $\epsilon_i =y_i - \mathbf x_i^\top \theta$

\sum_{i = 1}^{N} ρ_{τ} (ϵ_{i}) = \sum_{i = 1}^{N} τ | ϵ_{i} | I [ϵ_{i} \geq 0] + (1 - τ) | ϵ_{i} | I [ϵ_{i} < 0]

$\sum_{i=1}^N \rho_\tau(\epsilon_i) =\sum_{i=1}^N \tau \lvert \epsilon_i \lvert I[\epsilon_i \geq 0] + (1-\tau) \lvert \epsilon_i \lvert I[\epsilon_i < 0]$

提案された分位点回帰直線より上の観測関連する正の残差にはの重みが与えられ、提案された分位回帰直線より下の観測関連する負の残差重み付けされます。 $y_i$ $\mathbf x_i^\top \theta$ $\tau$ $y_i$ $\mathbf x_i^\top \theta$ $(1-\tau)$

直感的に：

正および負の残差は、同じ重さと観察の同数と「罰」されているラインに最適の「ライン」の上および下にある中央値の回帰であります"ライン"。 $\tau=0.5$ $\mathbf x_i^\top \hat \beta$

場合、各正の残差は、重み負の残差の9倍に重み付けされるため、 "line"を超えるすべての観測に対して最適です約9ラインの下に配置されます。したがって、「線」は0.9分位数を表します。（これの正確なステートメントについては、THM 2.2およびKoenker（2005）の「コロラリ2.1」「Quantile Regression」を参照してください） $\tau=0.9$ $1-\tau= 0.1$ $\mathbf x_i^\top \hat \beta$

2つのケースがこれらのプロットに示されています。左パネルおよび右パネル。 $\tau=0.5$ $\tau=0.9$

線形プログラムは主に標準形式を使用して分析および解決されます

(1) min_{z} c^{⊤} z subject  to A z = b, z \geq 0

$(1) \ \ \min_z \ \ c^\top z \ \ \mbox{subject to } A z = b , z \geq 0$

標準形式の線形プログラムに到達するための最初の問題は、そのようなプログラム（1）では、最小化が実行されるすべての変数が正であることです。この残差を達成するには、スラック変数を使用して正と負の部分に分解します。 $z$

ϵ_{i} = u_{i} - v_{i}

$\epsilon_i = u_i - v_i$

ここで、正の部分およびは負の部分です。チェック関数によって重みが割り当てられた残差の合計は、次のようになります。 $u_i = \max(0,\epsilon_i) = \lvert \epsilon_i \lvert I[\epsilon_i \geq 0]$ $v_i = \max(0,-\epsilon_i) =\lvert \epsilon_i \lvert I[\epsilon_i < 0]$

\sum_{i = 1}^{N} ρ_{τ} (ϵ_{i}) = \sum_{i = 1}^{N} τ u_{i} + (1 - τ) v_{i} = τ 1_{N}^{⊤} u + (1 - τ) 1_{N}^{⊤} v,

$\sum_{i=1}^N \rho_\tau(\epsilon_i) = \sum_{i=1}^N \tau u_i + (1-\tau) v_i = \tau \mathbf 1_N^\top u + (1-\tau)\mathbf 1_N^\top v,$

ここで、およびおよびはベクトルすべての座標は等しい。 $u = (u_1,...,u_N)^\top$ $v=(v_1,...,v_N)^\top$ $\mathbf 1_N$ $N \times 1$ $1$

残差は、次の制約を満たさなければなりません。 $N$

y_{i} - x_{i}^{⊤} θ = ϵ_{i} = u_{i} - v_{i}

$y_i - \mathbf x_i^\top\theta = \epsilon_i = u_i - v_i$

これは、線形プログラムとしての定式化をもたらします

min_{θ \in R^{K}, u \in R_{+}^{N}, v \in R_{+}^{N}} {τ 1_{N}^{⊤} u + (1 - τ) 1_{N}^{⊤} v | y_{i} = x_{i} θ + u_{i} - v_{i}, i = 1, . . ., N},

$\min_{\theta \in \mathbb R^K,u\in \mathbb R_+^N,v\in \mathbb R_+^N}\{ \tau \mathbf 1_N^\top u + (1-\tau)\mathbf 1_N^\top v\lvert y_i= \mathbf x_i\theta + u_i - v_i, i=1,...,N\},$

Koenker（2005）の「Quantile Regression」の10ページの式（1.20）に記載されています。

ただし、は、標準形式（1）の線形計画で必要とされる正の値に制限されていないことに注目してください。したがって、再び正と負の部分への分解が使用されます $\theta\in \mathbb R$

θ = θ^{+} - θ^{-}

$\theta = \theta^+ - \theta^-$

ここでもは正の部分であり、は負の部分です。制約は次のように書くことができます $\theta^+=max(0,\theta)$ $\theta^- = \max(0,-\theta)$ $N$

y ：= [\begin{matrix} y_{1} \\ ⋮ \\ y_{N} \end{matrix}] = [\begin{matrix} {バツ}_{1}^{⊤} \\ ⋮ \\ {バツ}_{N}^{⊤} \end{matrix}] （ θ^{+} - θ^{-} ） + 私_{N} あなた - 私_{N} v 、

$\mathbf y:= \begin{bmatrix} y_1 \\ \vdots \\ y_N\end{bmatrix} = \begin{bmatrix} \mathbf x_1^\top \\ \vdots \\ \mathbf x_N^\top \end{bmatrix}(\theta^+ - \theta^-) + \mathbf I_Nu - \mathbf I_Nv ,$

ここで、です。 $\mathbf I_N = diag\{\mathbf 1_N\}$

次に、と次のように独立変数のデータを格納する計画行列を定義します。 $b:=\mathbf y$ $\mathbf X$

バツ ：= [\begin{matrix} {バツ}_{1}^{⊤} \\ ⋮ \\ {バツ}_{N}^{⊤} \end{matrix}]

$\mathbf X := \begin{bmatrix} \mathbf x_1^\top \\ \vdots \\ \mathbf x_N^\top \end{bmatrix}$

制約を書き換えるには：

b = バツ （ θ^{+} - θ^{-} ） + 私_{N} あなた - 私_{N} v = [バツ 、 - バツ 、 私_{N} 、 - 私_{N}] [\begin{matrix} θ^{+} \\ θ^{-} \\ あなた \\ v \end{matrix}]

$b= \mathbf X(\theta^+ - \theta^-) + \mathbf I_N u- \mathbf I_N v= [\mathbf X , -\mathbf X , \mathbf I_N ,\mathbf - \mathbf I_N] \begin{bmatrix} \theta^+ \\ \theta^- \\ u \\ v\end{bmatrix}$

行列を定義する $(N \times 2K + 2N )$

あ ：= [バツ 、 - バツ 、 私_{N} 、 - 私_{N}]

$A := [\mathbf X , -\mathbf X , \mathbf I_N ,\mathbf - \mathbf I_N]$ そしてとを最小化する変数として導入し、それらを最小化して一部として取得します。

θ^{+}

$\theta^+$

θ^{-}

$\theta^-$

z

$z$

b = あ [\begin{matrix} θ^{+} \\ θ^{-} \\ あなた \\ v \end{matrix}] = あ z

$b = A \begin{bmatrix} \theta^+ \\ \theta^- \\ u \\ v\end{bmatrix} = Az$

なぜならおよびのみを介して最小化問題に影響を与える制約A寸法の coeffientベクターの一部として導入されなければならない適宜ように定義することができます。 $\theta^+$ $\theta^-$ $\mathbf 0$ $2K\times 1$ $c$

c = [\begin{matrix} 0 \\ τ 1_{N} \\ （ 1 - τ ） 1_{N} \end{matrix}] 、

$c = \begin{bmatrix}\mathbf 0 \\ \tau \mathbf 1_N \\ (1-\tau) \mathbf 1_N \end{bmatrix},$

したがって、 $c^\top z = \underbrace{\mathbf 0^\top(\theta^+ - \theta^-)}_{=0}+\tau \mathbf 1_N^\top u + (1-\tau)\mathbf 1_N^\top v = \sum_{i=1}^N \rho_\tau(\epsilon_i).$

したがって、、が定義され、指定されたプログラムが完全に指定されます。 $c,A$ $b$ $(1)$

これはおそらく、例を使用して消化するのが最善です。これをRで解決するには、Roger Koenkerによるquantregパッケージを使用してください。以下は、線形プログラムを設定し、線形プログラムのソルバーで解く方法の図でもあります。

base=read.table("http://freakonometrics.free.fr/rent98_00.txt",header=TRUE)
attach(base)
library(quantreg)
library(lpSolve)
tau <- 0.3


# Problem (1) only one covariate
X <- cbind(1,base$area)
K <- ncol(X)
N <- nrow(X)

A <- cbind(X,-X,diag(N),-diag(N))
c <- c(rep(0,2*ncol(X)),tau*rep(1,N),(1-tau)*rep(1,N))
b <- base$rent_euro
const_type <- rep("=",N)

linprog <- lp("min",c,A,const_type,b)
beta <- linprog$sol[1:K] -  linprog$sol[(1:K+K)]
beta
rq(rent_euro~area, tau=tau, data=base)


# Problem (2) with 2 covariates
X <- cbind(1,base$area,base$yearc)
K <- ncol(X)
N <- nrow(X)

A <- cbind(X,-X,diag(N),-diag(N))
c <- c(rep(0,2*ncol(X)),tau*rep(1,N),(1-tau)*rep(1,N))
b <- base$rent_euro
const_type <- rep("=",N)

linprog <- lp("min",c,A,const_type,b)
beta <- linprog$sol[1:K] -  linprog$sol[(1:K+K)]
beta
rq(rent_euro~ area + yearc, tau=tau, data=base)

— Jesper for President
ソース

その最小化を言葉で説明してもらえませんか...私はそれを完全に理解できません

— machazthegamer

私は忍耐を持って展開します、編集は来ています:)

— ジェスパー大統領のために

詳細が必要な場合は、今すぐフォローアップの質問をしてください。

— ジェスパー大統領、

私はcvxoptを使用してPythonでJesper Hybelのコードを書き直しました。他の誰かがPythonでもこれを必要とする場合に備えて、ここに投稿します。

import pandas as pd
import io
import requests
import numpy as np
url="http://freakonometrics.free.fr/rent98_00.txt"
s=requests.get(url).content
base=pd.read_csv(io.StringIO(s.decode('utf-8')), sep='\t')


tau = 0.3

from cvxopt import matrix, solvers

X = pd.DataFrame(columns=[0,1])
X[1] = base["area"] #data points for independent variable area
X[2] = base["yearc"] #data points for independent variable year
X[0] = 1 #intercept

K = X.shape[1]
N = X.shape[0]

# equality constraints - left hand side

A1 = X.to_numpy() # intercepts & data points - positive weights
A2 = X.to_numpy() * - 1 # intercept & data points - negative weights
A3 = np.identity(N) # error - positive
A4 = np.identity(N)*-1 # error - negative

A = np.concatenate((A1,A2,A3,A4 ), axis= 1) #all the equality constraints 

# equality constraints - right hand side
b = base["rent_euro"].to_numpy()

#goal function - intercept & data points have 0 weights
#positive error has tau weight, negative error has 1-tau weight
c = np.concatenate((np.repeat(0,2*K), tau*np.repeat(1,N), (1-tau)*np.repeat(1,N) ))

#converting from numpy types to cvxopt matrix

Am = matrix(A)
bm = matrix(b)
cm = matrix(c)

# all variables must be greater than zero
# adding inequality constraints - left hand side
n = Am.size[1]
G = matrix(0.0, (n,n))
G[::n+1] = -1.0

# adding inequality constraints - right hand side (all zeros)
h = matrix(0.0, (n,1))

#solving the model
sol = solvers.lp(cm,G,h,Am,bm, solver='glpk')

x = sol['x']

#both negative and positive components get values above zero, this gets fixed here
beta = x[0:K] - x[K :2*K]

print(beta)
```

— メイトうずそき
ソース

ありがとう、あなたのPythonへの翻訳は私を大いに助けてくれました。 Gそしてh、元のRコードまたはジェスパーの過去記事には表示されません。これらのアーティファクトは、CVXOPTが問題の定式化を必要とする方法に関するものですか、それともLPソルバーで暗黙的なものですか？私の場合、N = 50,000で実行しようとする障害に遭遇しました。Gこの場合、巨大な正方行列になります。Sparkのような分散LPソルバーを使用することを検討していますが、LPをこのデータスケールでの分位点回帰に使用するのは扱いにくいだけかもしれません。

— peace_within_reach

以前のコメントの補足：quantreg rqルーチンを1,500万行のデータで実行できました。線形計画法に基づいた方法ならどれだけのデータを処理できるかに感銘を受けました。ただし、私の場合（非常に高い変位値を見積もる）、それよりもさらに多くのデータを使用する必要があります。rq2,000万行以上を使用すると、チョークが見つかりました。エラーはですlong vectors are not supported in .C。これは、ベクトルが長くなりすぎるためです。同じ状況にいる誰にとっても、ビッグデータの分位回帰のために私が見つけた最高のソフトウェアは、MicrosoftのLightGBM（勾配ブースト）です

— peace_within_reach

はい、GとhはCVXOPT公式化のみです。CVXOPTのドキュメントを読んでいる場合にも、それらが見つかります。CVXOPTのアプローチでは、等式制約は1つの行列（A）に格納され、不等式制約は別の行列（G）に格納されます。同じことが右側の行列（h）にも言えます。

— メイトうづき

パフォーマンスが必要な場合は、solver = 'glpk'を使用することが重要です。速度が大幅に変化します。他のソルバーを試して、より速い結果が得られるかどうかを確認することもお勧めします。

— Mate Uzsoki