ロジスティック関数のヘッセ行列

ロジスティック回帰の目的関数のヘッシアンを導き出すのは困難です。ここで、は次のとおりです $l(\theta)$ $l(\theta)$

l (θ) = \sum_{i = 1}^{m} [y_{i} \log (h_{θ} (x_{i})) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))]

$l(\theta)=\sum_{i=1}^{m} \left[y_{i} \log(h_\theta(x_{i})) + (1- y_{i}) \log (1 - h_\theta(x_{i}))\right]$

$h_\theta(x)$ はロジスティック関数です。ヘッセ行列はです。計算して導出しようとしましたが、から行列表記を取得する方法がわかりませんでした。 $X^T D X$ $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$ $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$

を導出するクリーンで簡単な方法を知っている人はいますか？ $X^T D X$

logistic

— DSKim
ソース

あなたは何を手に入れた？

\frac{\partial^{2} l}{\partial θ_{i} \partial θ_{j}}

$\frac{\partial^2 l}{\partial \theta_i \partial \theta_j}$

— Glen_b -Reinstateモニカ

以下は、探している正確な計算を示すスライドの良いセットです。sites.stat.psu.edu

ヘッシアンを段階的に計算する素晴らしいビデオを見つけました。ロジスティック回帰（バイナリ）-ヘシアンの計算

— ナオミ

ここでは、ソリューションが自己完結型であるために必要なすべてのプロパティとIDを導出しますが、それ以外はこの導出はクリーンで簡単です。記法を形式化し、損失関数をもう少しコンパクトに書きましょう。検討してサンプルをようと。バイナリロジスティック回帰では、通常、仮説関数がロジスティック関数であることを思い出してください。正式に $m$ $\{x_i,y_i\}$ $x_i\in\mathbb{R}^d$ $y_i\in\mathbb{R}$ $h_\theta$

h_{θ} (x_{i}) = σ (ω^{T} x_{i}) = σ (z_{i}) = \frac{1}{1 + e^{- z_{i}}},

$h_\theta(x_i)=\sigma(\omega^Tx_i)=\sigma(z_i)=\frac{1}{1+e^{-z_i}},$

ここで、およびです。損失関数（OPには負の符号が欠落していると思われます）は、次のように定義されます。 $\omega\in\mathbb{R}^d$ $z_i=\omega^Tx_i$

l (ω) = \sum_{i = 1}^{m} - (y_{i} \log σ (z_{i}) + (1 - y_{i}) \log (1 - σ (z_{i})))

$l(\omega)=\sum_{i=1}^m -\Big( y_i\log\sigma(z_i)+(1-y_i)\log(1-\sigma(z_i))\Big)$

ロジスティック関数には2つの重要なプロパティがあり、将来の参照のためにここで導き出します。まず、。 $1-\sigma(z)=1-1/(1+e^{-z})=e^{-z}/(1+e^{-z})=1/(1+e^z)=\sigma(-z)$

また、

\begin{aligned} \frac{\partial}{\partial z} σ (z) = \frac{\partial}{\partial z} (1 + e^{- z})^{- 1} = e^{- z} (1 + e^{- z})^{- 2} & = \frac{1}{1 + e^{- z}} \frac{e^{- z}}{1 + e^{- z}} = σ (z) (1 - σ (z)) \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial}{\partial z}\sigma(z)=\frac{\partial}{\partial z}(1+e^{-z})^{-1}=e^{-z}(1+e^{-z})^{-2}&=\frac{1}{1+e^{-z}}\frac{e^{-z}}{1+e^{-z}} =\sigma(z)(1-\sigma(z)) \end{aligned} \end{equation}$

コンポーネントに関する導関数を取得する代わりに、ここではベクトルを直接操作します（ベクトルの導関数はこちらで確認できます）。損失関数のヘッセ行列はで与えられますが、最初におよび。 $l(\omega)$ $\vec{\nabla}^2l(\omega)$ $\frac{\partial z}{\partial \omega} = \frac{x^T\omega}{\partial \omega}=x^T$ $\frac{\partial z}{\partial \omega^T}=\frac{\partial \omega^Tx}{\partial \omega ^T} = x$

してみましょう。上記で導出したプロパティとチェーンルールを使用して $l_i(\omega)=-y_i\log\sigma(z_i)-(1-y_i)\log(1-\sigma(z_i))$

\begin{aligned} \frac{\partial \log σ (z_{i})}{\partial ω^{T}} & = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial ω^{T}} = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial z_{i}} \frac{\partial z_{i}}{\partial ω^{T}} = (1 - σ (z_{i})) x_{i} \\ \frac{\partial \log (1 - σ (z_{i}))}{\partial ω^{T}} & = \frac{1}{1 - σ (z_{i})} \frac{\partial (1 - σ (z_{i}))}{\partial ω^{T}} = - σ (z_{i}) x_{i} \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial \log\sigma(z_i)}{\partial \omega^T} &= \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial \omega^T} = \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial z_i}\frac{\partial z_i}{\partial \omega^T}=(1-\sigma(z_i))x_i\\ \frac{\partial \log(1-\sigma(z_i))}{\partial \omega^T}&= \frac{1}{1-\sigma(z_i)}\frac{\partial(1-\sigma(z_i))}{\partial \omega^T} =-\sigma(z_i)x_i \end{aligned} \end{equation}$

今ではそれを示すのは簡単です

\vec{\nabla} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω^{T}} = - y_{i} x_{i} (1 - σ (z_{i})) + (1 - y_{i}) x_{i} σ (z_{i}) = x_{i} (σ (z_{i}) - y_{i})

$\vec{\nabla}l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega^T} =-y_ix_i(1-\sigma(z_i))+(1-y_i)x_i\sigma(z_i)=x_i(\sigma(z_i)-y_i)$

なんて！

最後のステップは、ヘッセ行列を計算することです

{\vec{\nabla}}^{2} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω \partial ω^{T}} = x_{i} x_{i}^{T} σ (z_{i}) (1 - σ (z_{i}))

$\vec{\nabla}^2l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega\partial \omega^T}=x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$

ためのサンプル我々は。これは、列ベクトルをようなサイズ行列に連結することと同等です。スカラー項は、ように対角行列結合されます。最後に、 $m$ $\vec{\nabla}^2l(\omega)=\sum_{i=1}^m x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$ $x_i\in\mathbb{R}^d$ $X$ $d\times m$ $\sum_{i=1}^m x_ix_i^T=XX^T$ $D$ $D_{ii}=\sigma(z_i)(1-\sigma(z_i))$

\vec{H} (ω) = {\vec{\nabla}}^{2} l (ω) = X D X^{T}

$\vec{H}(\omega)=\vec{\nabla}^2l(\omega)=XDX^T$

最初からすべてのサンプルを一度に検討し、代わりに行列微分を使用することにより、より高速なアプローチを導き出すことができます。補足説明として、この定式化では、が凸であることを示すのは簡単です。ましょう任意のベクターであり、その結果。それから $l(\omega)$ $\delta$ $\delta\in\mathbb{R}^d$

δ^{T} \vec{H} (ω) δ = δ^{T} {\vec{\nabla}}^{2} l (ω) δ = δ^{T} X D X^{T} δ = δ^{T} X D (δ^{T} X)^{T} = ‖ δ^{T} D X ‖^{2} \geq 0

$\delta^T\vec{H}(\omega)\delta = \delta^T\vec{\nabla}^2l(\omega)\delta = \delta^TXDX^T\delta = \delta^TXD(\delta^TX)^T = \|\delta^TDX\|^2\geq 0$

以来、と。これは、が正半無限であり、したがってが凸である（ただし、強く凸ではない）ことを意味します。 $D>0$ $\|\delta^TX\|\geq 0$ $H$ $l$

— マヌエル・モラレス
ソース

最後の方程式では、てはなりません以降 =？

| | δ D^{1 / 2} X | |

$||\delta D^{1/2}X||$

X D X^{⊤}

$XDX^\top$

X D^{1 / 2} (X D^{1 / 2})^{⊤}

$XD^{1/2}(XD^{1/2})^\top$

— -appletree

てはいけませんか？

X^{T} D X

$X^T D X$

— チンタンシャー