なぜロジスティック回帰最適化にニュートンの方法を使用するのが反復再加重最小二乗と呼ばれるのですか？

ロジスティック損失と最小二乗損失は完全に異なるため、私には明らかではないようです。

— ハイタオドゥ
ソース

同じだとは思いません。IRLSは、観測されたヘッシアンではなく、予想されたヘッシアンを持つニュートンラプソンです。

— Dimitriy V. Masterov

@ DimitriyV.Masterovありがとう、予想されるヘッシアン対観測の詳細を教えてください。また、あなたはどう思いますこの説明

— ハイタオ・ドゥ

stats.stackexchange.com/questions/236676/…

— kjetil b halvorsen

概要：GLMは、Dimitriy V. Masterovが指摘しているように、代わりに予想されるヘッシアンを持つニュートンラプソンであるフィッシャースコアリングによって適合します（つまり、観測情報ではなくフィッシャー情報の推定値を使用します）。正準リンク関数を使用している場合、観測されたヘッシアンが予想ヘッシアンと等しいため、NRとフィッシャーのスコアリングは同じ場合になります。いずれにせよ、フィッシャーのスコアリングは実際に重み付き最小二乗線形モデルに適合しており、これからの係数推定値はロジスティック回帰尤度の最大値に収束します*。ロジスティック回帰をすでに解決済みの問題に当てはめることを減らすことの他に、ロジスティック回帰について学習するために最終的なWLS近似で線形回帰診断を使用できるという利点もあります。

私は、これはロジスティック回帰に焦点を当て続けるつもりですが、GLMSにおける最大尤度のより一般的な視点のために私はのセクション15.3をお勧めします。この章（私はそれがジョン・フォックスのからだと思い、より一般的な設定で、これと派生のIRLSを通過応用回帰分析と一般化線形モデル）。

$^*$ 最後にコメントを見る

尤度およびスコア関数

我々は、フォームの何か繰り返すことによって我々のGLMをフィッティングするここで、は対数尤度で、は対数尤度の観測されたヘッシアンまたは予想されたヘッシアンです。

b^{(m + 1)} = b^{(m)} - J_{(m)}^{- 1} \nabla ℓ (b^{(m)})

$b^{(m+1)} = b^{(m)} - J^{-1}_{(m)}\nabla \ell(b^{(m)})$

ℓ

$\ell$

J_{m}

$J_{m}$

リンク関数は、条件付き平均を線形予測子にマッピングする関数あるため、平均のモデルはです。してみましょう平均に線形予測をマッピング逆リンク関数です。 $g$ $\mu_i = E(y_i | x_i)$ $g(\mu_i) = x_i^T\beta$ $h$

ロジスティック回帰の場合、独立した観測値を持つベルヌーイ尤度があるため、デリバティブを取る、

ℓ (b; y) = \sum_{i = 1}^{n} y_{i} \log h (x_{i}^{T} b) + (1 - y_{i}) \log (1 - h (x_{i}^{T} b)) .

$\ell(b; y) = \sum_{i=1}^n y_i\log h(x_i^T b) + (1 - y_i) \log(1 - h(x_i^Tb)).$

\frac{\partial ℓ}{\partial b_{j}} = \sum_{i = 1}^{n} \frac{y_{i}}{h (x_{i}^{T} b)} h^{'} (x_{i}^{T} b) x_{i j} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)} h^{'} (x_{i}^{T} b) x_{i j}

$\frac{\partial \ell}{\partial b_j} = \sum_{i=1}^n \frac{y_i}{h(x_i^T b)} h'(x_i^T b) x_{ij} - \frac{1 - y_i}{1 - h(x_i^T b)} h'(x_i^T b) x_{ij}$

= \sum_{i = 1}^{n} x_{i j} h^{'} (x_{i}^{T} b) (\frac{y_{i}}{h (x_{i}^{T} b)} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)})

$= \sum_{i=1}^n x_{ij} h'(x_i^T b) \left(\frac{y_i}{h(x_i^T b)} - \frac{1 - y_i}{1 - h(x_i^T b)} \right)$

= \sum_{i} x_{i j} \frac{h^{'} (x_{i}^{T} b)}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} (y_{i} - h (x_{i}^{T} b)) .

$= \sum_i x_{ij} \frac{h'(x_i^T b)}{h(x_i^T b)(1 - h(x_i^T b))}(y_i - h(x_i^T b)).$

正規リンクを使用する

ここで、正規リンク関数を使用していると仮定します。次になので、これは、したがってさらに、まだを使用して、 $g_c = \text{logit}$ $g^{-1}_c(x) := h_c(x) = \frac{1}{1+e^{-x}}$ $h_c' = h_c \cdot (1-h_c)$

\frac{\partial ℓ}{\partial b_{j}} = \sum_{i} x_{i j} (y_{i} - h_{c} (x_{i}^{T} b))

$\frac{\partial \ell}{\partial b_j} = \sum_i x_{ij} (y_i - h_c(x_i^T b))$

\nabla ℓ (b; y) = X^{T} (y - \hat{y}) .

$\nabla \ell (b; y) = X^T (y - \hat y).$

h_{c}

$h_c$

\frac{\partial^{2} ℓ}{\partial b_{k} \partial b_{j}} = - \sum_{i} x_{i j} \frac{\partial}{\partial b_{k}} h_{c} (x_{i}^{T} b) = - \sum_{i} x_{i j} x_{i k} [h_{c} (x_{i}^{T} b) (1 - h_{c} (x_{i}^{T} b))] .

$\frac{\partial^2 \ell}{\partial b_k \partial b_j} = - \sum_i x_{ij} \frac{\partial}{\partial b_k} h_c(x_i^T b) = - \sum_i x_{ij}x_{ik} \left[h_c(x_i^T b) (1 - h_c(x_i^T b))\right].$

ましょう次に、あり、これにれていないことに注意してください。したがって、（これを関数として表示しているため、ランダムなものはのみです）。したがって、ロジスティック回帰で標準リンクを使用する場合、フィッシャーのスコアリングはニュートンラプソンと同等であることを示しました。また、により、は常に負の定値になりますが、数値的にはが近すぎる場合

W = diag (h_{c} (x_{1}^{T} b) (1 - h_{c} (x_{1}^{T} b)), \dots, h_{c} (x_{n}^{T} b) (1 - h_{c} (x_{n}^{T} b))) = diag ({\hat{y}}_{1} (1 - {\hat{y}}_{1}), \dots, {\hat{y}}_{n} (1 - {\hat{y}}_{n})) .

$W = \text{diag}\left(h_c(x_1^T b)(1 - h_c(x_1^T b)), \dots, h_c(x_n^T b)(1 - h_c(x_n^T b))\right) = \text{diag}\left(\hat y_1(1 - \hat y_1), \dots, \hat y_n (1 - \hat y_n)\right).$

H = - X^{T} W X

$H = -X^TWX$

y_{i}

$y_i$

E (H) = H

$E(H) = H$

b

$b$

y

$y$

{\hat{y}}_{i} \in (0, 1)

$\hat y_i \in (0,1)$

- X^{T} W X

$-X^TWX$

{\hat{y}}_{i}

$\hat y_i$

0

$0$ または場合、重みを丸めることができますこれにより、半正定になり、計算上特異になります。

1

$1$

0

$0$

H

$H$

ここで、作業応答 を作成し、ことに注意してください $z = W^{-1}(y - \hat y)$

\nabla ℓ = X^{T} (y - \hat{y}) = X^{T} W z .

$\nabla \ell = X^T(y - \hat y) = X^T W z.$

これはすべて、反復処理することで対数尤度を最適化できることを意味します。およびはまさにの加重最小二乗回帰の上の。

b^{(m + 1)} = b^{(m)} + (X^{T} W_{(m)} X)^{- 1} X^{T} W_{(m)} z_{(m)}

$b^{(m+1)} = b^{(m)} + (X^T W_{(m)} X)^{-1}X^T W_{(m)} z_{(m)}$

(X^{T} W_{(m)} X)^{- 1} X^{T} W_{(m)} z_{(m)}

$(X^T W_{(m)} X)^{-1}X^T W_{(m)} z_{(m)}$

\hat{β}

$\hat \beta$

z_{(m)}

$z_{(m)}$

X

$X$

これをチェックインするR：

set.seed(123)
p <- 5
n <- 500
x <- matrix(rnorm(n * p), n, p)
betas <- runif(p, -2, 2)
hc <- function(x) 1 /(1 + exp(-x)) # inverse canonical link
p.true <- hc(x %*% betas)
y <- rbinom(n, 1, p.true)

# fitting with our procedure
my_IRLS_canonical <- function(x, y, b.init, hc, tol=1e-8) {
  change <- Inf
  b.old <- b.init
  while(change > tol) {
    eta <- x %*% b.old  # linear predictor
    y.hat <- hc(eta)
    h.prime_eta <- y.hat * (1 - y.hat)
    z <- (y - y.hat) / h.prime_eta

    b.new <- b.old + lm(z ~ x - 1, weights = h.prime_eta)$coef  # WLS regression
    change <- sqrt(sum((b.new - b.old)^2))
    b.old <- b.new
  }
  b.new
}

my_IRLS_canonical(x, y, rep(1,p), hc)
# x1         x2         x3         x4         x5 
# -1.1149687  2.1897992  1.0271298  0.8702975 -1.2074851

glm(y ~ x - 1, family=binomial())$coef
# x1         x2         x3         x4         x5 
# -1.1149687  2.1897992  1.0271298  0.8702975 -1.2074851

彼らは同意します。

非正規リンク関数

今、私たちはの簡素化取得しない正規のリンク使用していない場合はにので、はるかに複雑になり、私たちはそれゆえ参照フィッシャースコアリングでを使用することによる顕著な違い。 $\frac{h'}{h(1-h)} = 1$ $\nabla \ell$ $H$ $E(H)$

これがどのように行われるかです：ヘッシアンが主な難題になるように、一般的なをすでに解決しました。我々は必要 $\nabla \ell$

\frac{\partial^{2} ℓ}{\partial b_{k} \partial b_{j}} = \sum_{i} x_{i j} \frac{\partial}{\partial b_{k}} h^{'} (x_{i}^{T} b) (\frac{y_{i}}{h (x_{i}^{T} b)} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)})

$\frac{\partial^2 \ell}{\partial b_k \partial b_j} = \sum_i x_{ij} \frac{\partial}{\partial b_k}h'(x_i^T b) \left(\frac{y_i}{h(x_i^T b)} - \frac{1 - y_i}{1 - h(x_i^T b)} \right)$

= \sum_{i} x_{i j} x_{i k} [h^{″} (x_{i}^{T} b) (\frac{y_{i}}{h (x_{i}^{T} b)} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)}) - h^{'} (x_{i}^{T} b)^{2} (\frac{y_{i}}{h (x_{i}^{T} b)^{2}} + \frac{1 - y_{i}}{(1 - h (x_{i}^{T} b))^{2}})]

$= \sum_i x_{ij}x_{ik} \left[h''(x_i^T b) \left(\frac{y_i}{h(x_i^T b)} - \frac{1 - y_i}{1 - h(x_i^T b)} \right) - h'(x_i^T b)^2\left(\frac{y_i}{h(x_i^T b)^2} + \frac{1-y_i}{(1-h(x_i^T b))^2} \right)\right]$

期待の線形性を介して、を取得するために必要なことは、各出現をモデルでの平均に置き換えることだけです。したがって、加数の各項には、しかし、実際に最適化を行うには、各を推定する必要があり、ステップが最良の推測です。これは、これが $E(H)$ $y_i$ $\mu_i=h(x_i^T\beta)$

h^{″} (x_{i}^{T} b) (\frac{h (x_{i}^{T} β)}{h (x_{i}^{T} b)} - \frac{1 - h (x_{i}^{T} β)}{1 - h (x_{i}^{T} b)}) - h^{'} (x_{i}^{T} b)^{2} (\frac{h (x_{i}^{T} β)}{h (x_{i}^{T} b)^{2}} + \frac{1 - h (x_{i}^{T} β)}{(1 - h (x_{i}^{T} b))^{2}}) .

$h''(x_i^T b) \left(\frac{h(x_i^T \beta)}{h(x_i^T b)} - \frac{1 - h(x_i^T \beta)}{1 - h(x_i^T b)} \right) - h'(x_i^T b)^2\left(\frac{h(x_i^T \beta)}{h(x_i^T b)^2} + \frac{1-h(x_i^T \beta)}{(1-h(x_i^T b))^2} \right).$

β

$\beta$

m

$m$

b^{(m)}

$b^{(m)}$

h^{″} (x_{i}^{T} b) (\frac{h (x_{i}^{T} b)}{h (x_{i}^{T} b)} - \frac{1 - h (x_{i}^{T} b)}{1 - h (x_{i}^{T} b)}) - h^{'} (x_{i}^{T} b)^{2} (\frac{h (x_{i}^{T} b)}{h (x_{i}^{T} b)^{2}} + \frac{1 - h (x_{i}^{T} b)}{(1 - h (x_{i}^{T} b))^{2}})

$h''(x_i^T b) \left(\frac{h(x_i^T b)}{h(x_i^T b)} - \frac{1 - h(x_i^T b)}{1 - h(x_i^T b)} \right) - h'(x_i^T b)^2\left(\frac{h(x_i^T b)}{h(x_i^T b)^2} + \frac{1-h(x_i^T b)}{(1-h(x_i^T b))^2} \right)$

= - h^{'} (x_{i}^{T} b)^{2} (\frac{1}{h (x_{i}^{T} b)} + \frac{1}{1 - h (x_{i}^{T} b)})

$= - h'(x_i^T b)^2\left(\frac{1}{h(x_i^T b)} + \frac{1}{1-h(x_i^T b)} \right)$

= - \frac{h^{'} (x_{i}^{T} b)^{2}}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} .

$= -\frac{h'(x_i^T b)^2}{h(x_i^T b)(1-h(x_i^T b))}.$ これは、を

J

$J$

J_{j k} = - \sum_{i} x_{i j} x_{i k} \frac{h^{'} (x_{i}^{T} b)^{2}}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} .

$J_{jk} = -\sum_i x_{ij}x_{ik} \frac{h'(x_i^T b)^2}{h(x_i^T b)(1-h(x_i^T b))}.$

さて、正規リンクの下では、前のセクションからを減らし。これにより、書くことができます。ただし、これは必ずしもそのものではなくであるため、Newton-Raphsonとは異なる場合があります。すべての、数値の問題は別として、は負定値になります。

W^{*} = diag (\frac{h^{'} (x_{1}^{T} b)^{2}}{h (x_{1}^{T} b) (1 - h (x_{1}^{T} b))}, \dots, \frac{h^{'} (x_{n}^{T} b)^{2}}{h (x_{n}^{T} b) (1 - h (x_{n}^{T} b))})

$W^* = \text{diag}\left(\frac{h'(x_1^T b)^2}{h(x_1^T b)(1-h(x_1^T b))} ,\dots, \frac{h'(x_n^T b)^2}{h(x_n^T b)(1-h(x_n^T b))}\right)$

h_{c}^{'} = h_{c} \cdot (1 - h_{c})

$h_c' = h_c \cdot (1-h_c)$

W^{*}

$W^*$

W

$W$

J = - X^{T} W^{*} X

$J = -X^TW^*X$

\hat{E} (H)

$\hat E(H)$

H

$H$

i

$i$

W_{i i}^{*} > 0

$W_{ii}^* > 0$

J

$J$

我々はしたがって、新しい作業応答をとし、、ます。

\frac{\partial ℓ}{\partial b_{j}} = \sum_{i} x_{i j} \frac{h^{'} (x_{i}^{T} b)}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} (y_{i} - h (x_{i}^{T} b))

$\frac{\partial \ell}{\partial b_j} = \sum_i x_{ij} \frac{h'(x_i^T b)}{h(x_i^T b)(1 - h(x_i^T b))}(y_i - h(x_i^T b))$

z^{*} = D^{- 1} (y - \hat{y})

$z^* = D^{-1}(y-\hat y)$

D = diag (h^{'} (x_{1}^{T} b), \dots, h^{'} (x_{n}^{T} b))

$D=\text{diag}\left(h'(x_1^T b), \dots, h'(x_n^T b)\right)$

\nabla ℓ = X^{T} W^{*} z^{*}

$\nabla \ell = X^TW^*z^*$

すべて一緒にを繰り返しますこれは、必ずしもニュートンラプソンである必要はないことを除いて、WLS回帰のシーケンスです。

b^{(m + 1)} = b^{(m)} + (X^{T} W_{(m)}^{*} X)^{- 1} X^{T} W_{(m)}^{*} z_{(m)}^{*}

$b^{(m+1)} = b^{(m)} + (X^T W_{(m)}^* X)^{-1}X^T W_{(m)}^* z_{(m)}^*$

Newton-Raphsonへの接続を強調するためにこのように書きましたが、多くの場合、人々は更新を考慮して、新しいポイントがそれぞれWLSソリューションではなくWLSソリューションになるようにします。現在の点。これを行うには、次のようにしますそのため、この方法で処理すると、実際の応答が表示されます。の形式を取りますが、同じものです。 $b^{(m+1)}$ $b^{(m)}$

b^{(m + 1)} = b^{(m)} + (X^{T} W_{(m)}^{*} X)^{- 1} X^{T} W_{(m)}^{*} z_{(m)}^{*}

$b^{(m+1)} = b^{(m)} + (X^T W_{(m)}^* X)^{-1}X^T W_{(m)}^* z_{(m)}^*$

= (X^{T} W_{(m)}^{*} X)^{- 1} (X^{T} W_{(m)}^{*} X b^{(m)} + X^{T} W_{(m)}^{*} z_{(m)}^{*})

$= (X^T W_{(m)}^* X)^{-1}\left(X^T W_{(m)}^* Xb^{(m)}+ X^TW^*_{(m)}z_{(m)}^* \right)$

= (X^{T} W_{(m)}^{*} X)^{- 1} X^{T} W_{(m)}^{*} (X b^{(m)} + z_{(m)}^{*})

$= (X^T W_{(m)}^* X)^{-1}X^TW_{(m)}^*\left(Xb^{(m)}+ z_{(m)}^* \right)$

η^{(m)} + D_{(m)}^{- 1} (y - {\hat{y}}^{(m)})

$\eta^{(m)} + D^{-1}_{(m)}(y - \hat y^{(m)})$

これを使用して、以前と同じシミュレートされたデータでプロビット回帰を実行することで機能することを確認しましょう（これは正準リンクではないため、このより一般的な形式のIRLSが必要です）。

my_IRLS_general <- function(x, y, b.init, h, h.prime, tol=1e-8) {
  change <- Inf
  b.old <- b.init
  while(change > tol) {
    eta <- x %*% b.old  # linear predictor
    y.hat <- h(eta)
    h.prime_eta <- h.prime(eta)
    w_star <- h.prime_eta^2 / (y.hat * (1 - y.hat))
    z_star <- (y - y.hat) / h.prime_eta

    b.new <- b.old + lm(z_star ~ x - 1, weights = w_star)$coef  # WLS

    change <- sqrt(sum((b.new - b.old)^2))
    b.old <- b.new
  }
  b.new
}

# probit inverse link and derivative
h_probit <- function(x) pnorm(x, 0, 1)
h.prime_probit <- function(x) dnorm(x, 0, 1)

my_IRLS_general(x, y, rep(0,p), h_probit, h.prime_probit)
# x1         x2         x3         x4         x5 
# -0.6456508  1.2520266  0.5820856  0.4982678 -0.6768585 

glm(y~x-1, family=binomial(link="probit"))$coef
# x1         x2         x3         x4         x5 
# -0.6456490  1.2520241  0.5820835  0.4982663 -0.6768581

そして再び2人は同意します。

収束に関するコメント

最後に、収束に関するいくつかの簡単なコメント（これは非常に長くなり、最適化の専門家でもないので、この簡潔さを保ちます）。理論的には各は負定値ですが、悪い初期条件により、このアルゴリズムの収束が妨げられる可能性があります。上記のプロビットの例では、初期条件をこれに変更すると、これは疑わしい初期条件のようには見えません。その初期化とこれらのシミュレートされたデータを使用してIRLSプロシージャを実行すると、ループを2回目までに正確に丸められるが存在するため、重みは未定義になります。与えたアルゴリズムで正規リンクを使用している場合、で割ることはありません。 $J_{(m)}$ b.init=rep(1,p) $\hat y_i$ $1$ $\hat y_i (1 - \hat y_i)$ 未定義の重みを取得しますが、完全な分離の場合など、いくつかのがまたはに近づいている状況がある場合、勾配が何も到達せずに収束するため、収束しません。 $\hat y_i$ $0$ $1$

— jld
ソース

+1。私はあなたの答えがしばしばどれほど詳細であるかが大好きです。

— アメーバは、モニカーを復活させる

「これからの係数推定値は、ロジスティック回帰尤度の最大値に収束します」と述べました。それは、初期値から必然的にそうですか？

— マークL.ストーン

@ MarkL.Stoneああ、私はあまりにもカジュアルされていた、最適化の人々を怒らせるためにそこに意味するものではありませんでした:)私はいくつかの詳細を追加します（と私はときにそれらに自分の考えをいただければ幸いです）

— JLD

私が投稿したリンクを見たことがありますか？ビデオは機械学習の観点から話しているようで、Hessainの期待については話さずに、単にロジスティック損失を最適化しますか？

— ハイタオドゥ

そのPDFの@ hxd1011にリンクされています（再度リンク：sagepub.com/sites/default/files/upm-binaries/…）その24ページで、著者は理論に入り、リンク関数が正確に標準化される理由を説明します。私が最初にこれに出会ったとき、私はそのpdfが非常に役立つことを発見しました（それを通過するのに私はしばらく時間がかかりましたが）。

— jld