GLMのMLEを見つけるためのIRLSメソッドの簡単で直感的な説明を提供できますか？

バックグラウンド：

私はMLE推定の基礎を理解：likelihood、score、観察し、期待Fisher informationとFisher scoring技術。そして、私はMLE推定で単純な線形回帰を正当化する方法を知っています。

質問：

このメソッドの最初の行すら理解できません:(

次のように定義された作業変数の背後にある直観は何ですか？ $z_i$

z_{i} = {\hat{η}}_{i} + (y_{i} - {\hat{μ}}_{i}) \frac{d η_{i}}{d μ_{i}}

$z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i}$

なぜを推定するために代わりに使用さですか？ $y_i$ $\beta$

そしてresponse/link function、と間の接続であるとの関係は何 $\eta$ $\mu$

誰もが簡単な説明をしているか、これについてより基本的なレベルのテキストに私を導くことができるならば、私は感謝するでしょう。

— イハダニー
ソース

補足として、私にとっては、「GLM」フレームワーク全体について聞く前に、堅牢な（M-）推定のコンテキストでIRLSについて学びました（まだ完全には理解していません）。このアプローチの実用的な観点から、最小二乗法の単純な一般化として、私は最初に出会ったソースをお勧めします：Richard SzeliskiのComputer Vision（無料E-）本の付録B （最初の4ページ、実際、これらはまた、いくつかの素晴らしい例）。

— GeoMatt22

数年前、私はこのことについて学生向けに（スペイン語で）論文を書いたので、ここでそれらの説明を書き直すことができます。複雑さを増す一連の例を通して、IRLS（繰り返し重み付けされた最小二乗）を見ていきます。最初の例では、ロケーションスケールファミリの概念が必要です。ましょう、ある意味ではゼロを中心と密度関数です。定義することにより、密度のファミリーを構築でき $f_0$ ここで、はスケールパラメーターで、は位置パラメーターです。通常、誤差項が正規分布としてモデル化される測定誤差モデルでは、その正規分布の代わりに、上記で構築されたロケーションスケールファミリを使用できます。場合標準正規分布であり、構成は上記与え

f (x) = f (x; μ, σ) = \frac{1}{σ} f_{0} (\frac{x - μ}{σ})

$f(x)= f(x;\mu,\sigma)= \frac{1}{\sigma} f_0\left(\frac{x-\mu}{\sigma}\right)$

σ > 0

$\sigma > 0$

μ

$\mu$

f_{0}

$f_0$

ファミリー。

N (μ, σ)

$\text{N}(\mu, \sigma)$

次に、いくつかの簡単な例でIRLSを使用します。最初に、モデルのML（最尤）推定量を見つけます密度を持つ

Y_{1}, Y_{2}, \dots, Y_{n} i.i.d

$Y_1,Y_2,\ldots,Y_n \hspace{1em} \text{i.i.d}$

コーシー分布位置ファミリー

（これは場所ファミリーであるように）。しかし、最初にいくつかの表記法。加重最小二乗推定量

によって与えられ、

f (y) = \frac{1}{π} \frac{1}{1 + (y - μ)^{2}}, y \in R,

$f(y)= \frac{1}{\pi} \frac{1}{1+(y-\mu)^2},\hspace{1em} y\in{\mathbb R},$

μ

$\mu$

μ

$\mu$

ここで、

はいくつかの重みです。我々は、のML推定器ことがわかります

用いて、同一の形で表現することができる

残差の一部機能は、

μ^{*} = \frac{\sum_{i = 1}^{n} w_{私} y_{私}}{\sum_{私 = 1}^{n} w_{私}} 。

$\mu^{\ast} = \frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i}.$

w_{i}

$w_i$

μ

$\mu$

w_{i}

$w_i$

尤度関数は

ϵ_{i} = y_{i} - \hat{μ} .

$\epsilon_i = y_i-\hat{\mu}.$

及びログ尤度関数は次式で与えられ

その誘導体

ある

L (y; μ) = {(\frac{1}{π})}^{n} \prod_{i = 1}^{n} \frac{1}{1 + (y_{i} - μ)^{2}}

$L(y;\mu)= \left(\frac{1}{\pi}\right)^n \prod_{i=1}^n \frac{1}{1+(y_i-\mu)^2}$

l (y) = - n \log (π) - \sum_{i = 1}^{n} \log (1 + (y_{i} - μ)^{2}) .

$l(y)= -n \log(\pi) - \sum_{i=1}^n \log\left(1+(y_i-\mu)^2\right).$

μ

$\mu$

。書き込み

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & 0 - \sum \frac{\partial}{\partial μ} \log (1 + (y_{i} - μ)^{2}) \\ = & - \sum \frac{2 (y_{i} - μ)}{1 + (y_{i} - μ)^{2}} \cdot (- 1) \\ = & \sum \frac{2 ϵ_{i}}{1 + ϵ_{i}^{2}} \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \mu}&=& 0-\sum \frac{\partial}{\partial \mu} \log\left(1+(y_i-\mu)^2\right) \nonumber \\ &=& -\sum \frac{2(y_i-\mu)}{1+(y_i-\mu)^2}\cdot (-1) \nonumber \\ &=& \sum \frac{2 \epsilon_i}{1+\epsilon_i^2} \nonumber \end{eqnarray}$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

および

f_{0} (ϵ) = \frac{1}{π} \frac{1}{1 + ϵ^{2}}

$f_0(\epsilon)= \frac{1}{\pi} \frac{1}{1+\epsilon^2}$

、

を得る

f_{0}^{'} (ϵ) = \frac{1}{π} \frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}

$f_0'(\epsilon)=\frac{1}{\pi} \frac{-1\cdot 2 \epsilon}{(1+\epsilon^2)^2}$

私たちを見つける

\frac{f_{0}^{'} (ϵ)}{f_{0} (ϵ)} = \frac{\frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}}{\frac{1}{1 + ϵ^{2}}} = - \frac{2 ϵ}{1 + ϵ^{2}} .

$\frac{f_0'(\epsilon)}{f_0(\epsilon)} = \frac{\frac{-1 \cdot2\epsilon}{(1+\epsilon^2)^2}} {\frac{1}{1+\epsilon^2}} = -\frac{2\epsilon}{1+\epsilon^2}.$

定義

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \\ = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) \cdot (- ϵ_{i}) \\ = & \sum w_{i} ϵ_{i} \end{array}

$\begin{eqnarray} \frac {\partial l(y)} {\partial \mu} & =& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \nonumber \\ &=& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) \cdot (-\epsilon_i) \nonumber \\ &=& \sum w_i \epsilon_i \nonumber \end{eqnarray}$

w_{i} = \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) = \frac{- 2 ϵ_{i}}{1 + ϵ_{i}^{2}} \cdot (- \frac{1}{ϵ_{i}}) = \frac{2}{1 + ϵ_{i}^{2}} .

$w_i= \frac{f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{-2 \epsilon_i} {1+\epsilon_i^2} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{2}{1+\epsilon_i^2}.$ Remembering that

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$ we obtain the equation

\sum w_{i} y_{i} = μ \sum w_{i},

$\sum w_i y_i = \mu \sum w_i,$ which is the estimating equation of IRLS. Note that

The weights $w_i$ are always positive.
If the residual is large, we give less weight to the corresponding observation.

To calculate the ML estimator in practice, we need a start value $\hat{\mu}^{(0)}$ , we could use the median, for example. Using this value we calculate residuals

ϵ_{i}^{(0)} = y_{i} - {\hat{μ}}^{(0)}

$\epsilon_i^{(0)} = y_i - \hat{\mu}^{(0)}$ and weights

w_{i}^{(0)} = \frac{2}{1 + ϵ_{i}^{(0)}} .

$w_i^{(0)} = \frac{2}{1+\epsilon_i^{(0)} }.$ The new value of

\hat{μ}

$\hat{\mu}$ is given by

{\hat{μ}}^{(1)} = \frac{\sum w_{i}^{(0)} y_{i}}{\sum w_{i}^{(0)}} .

$\hat{\mu}^{(1)} = \frac{\sum w_i^{(0)} y_i} {\sum w_i^{(0)} }.$ Continuing in this way we define

ϵ_{i}^{(j)} = y_{i} - {\hat{μ}}^{(j)}

$\epsilon_i^{(j)} = y_i- \hat{\mu}^{(j)}$ and

w_{i}^{(j)} = \frac{2}{1 + ϵ_{i}^{(j)}} .

$w_i^{(j)} = \frac{2}{1+\epsilon_i^{(j)} }.$ The estimated value at the pass

j + 1

$j+1$ of the algorithm becomes

{\hat{μ}}^{(j + 1)} = \frac{\sum w_{i}^{(j)} y_{i}}{\sum w_{i}^{(j)}} .

$\hat{\mu}^{(j+1)} = \frac{\sum w_i^{(j)} y_i} {\sum w_i^{(j)} }.$ Continuing until the sequence

{\hat{μ}}^{(0)}, {\hat{μ}}^{(1)}, \dots, {\hat{μ}}^{(j)}, \dots

$\hat{\mu}^{(0)}, \hat{\mu}^{(1)}, \ldots, \hat{\mu}^{(j)}, \ldots$ converges.

Now we studies this process with a more general location and scale family, $f(y)= \frac{1}{\sigma} f_0(\frac{y-\mu}{\sigma})$ , with less detail. Let $Y_1,Y_2,\ldots,Y_n$ be independent with the density above. Define also $\epsilon_i=\frac{y_i-\mu}{\sigma}$ . The loglikelihood function is

l (y) = - \frac{n}{2} \log (σ^{2}) + \sum \log (f_{0} (\frac{y_{i} - μ}{σ})) .

$l(y)= -\frac{n}{2}\log(\sigma^2) + \sum \log(f_0\left(\frac{y_i-\mu}{\sigma}\right)).$ Writing

ν = σ^{2}

$\nu=\sigma^2$ , note that

\frac{\partial ϵ_{i}}{\partial μ} = - \frac{1}{σ}

$\frac{\partial \epsilon_i}{\partial \mu} = -\frac{1}{\sigma}$ and

\frac{\partial ϵ_{i}}{\partial ν} = (y_{i} - μ) {(\frac{1}{\sqrt{ν}})}^{'} = (y_{i} - μ) \cdot \frac{- 1}{2 σ^{3}} .

$\frac{\partial \epsilon_i}{\partial \nu} = (y_i-\mu)\left(\frac{1}{\sqrt{\nu}}\right)' = (y_i-\mu)\cdot \frac{-1}{2 \sigma^3}.$ Calculating the loglikelihood derivative

\frac{\partial l (y)}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{σ}) = - \frac{1}{σ} \sum \frac{f_{o}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) = \frac{1}{σ} \sum w_{i} ϵ_{i}

$\frac{\partial l(y)}{\partial \mu} = \sum \frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial \mu} = \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot\left(-\frac{1}{\sigma}\right)= -\frac{1}{\sigma}\sum\frac{f_o'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right)(-\epsilon_i) = \frac{1}{\sigma}\sum w_i \epsilon_i$ and equaling this to zero gives the same estimating equation as the first example. Then searching for an estimator for

σ^{2}

$\sigma^2$ :

\begin{array}{rcl} \frac{\partial l （ y ）}{\partial ν} & = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} （ ϵ_{私} ）}{f_{0} （ ϵ_{私} ）} \cdot \frac{\partial ϵ_{私}}{\partial ν} \\ = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} （ ϵ_{私} ）}{f_{0} （ ϵ_{私} ）} \cdot （ - \frac{（ y_{私} - μ ）}{2 σ^{3}} ） \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{σ^{2}} \sum \frac{f_{0}^{'} （ ϵ_{私} ）}{f_{0} （ ϵ_{私} ）} \cdot ϵ_{私} \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{ν} \sum \frac{f_{0}^{'} （ ϵ_{私} ）}{f_{0} （ ϵ_{私} ）} \cdot （ - \frac{1}{ϵ_{私}} ） （ - ϵ_{私} ） \cdot ϵ_{私} \\ = & - \frac{n}{2} \frac{1}{ν} + \frac{1}{2} \frac{1}{ν} \sum w_{私} ϵ_{私}^{2} \overset{！}{=} 0。 \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \nu} &=& -\frac{n}{2}\frac{1}{\nu} + \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial\nu} \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)} \cdot \left(-\frac{(y_i-\mu)}{2\sigma^3}\right) \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu} - \frac{1}{2}\frac{1}{\sigma^2} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}-\frac{1}{2}\frac{1}{\nu} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right) (-\epsilon_i)\cdot\epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\frac{1}{2}\frac{1}{\nu}\sum w_i \epsilon_i^2 \stackrel{!}{=} 0. \nonumber \end{eqnarray}$ 推定器につながる

\hat{σ^{2}} = \frac{1}{n} \sum w_{私} （ y_{私} - \hat{μ} ）^{2} 。

$\hat{\sigma^2} = \frac{1}{n}\sum w_i (y_i-\hat{\mu})^2.$ この場合にも、上記の反復アルゴリズムを使用できます。

以下では、Rを使用して、二重指数モデル（既知のスケール）およびdataを使用した数値例を示しますy <- c(-5,-1,0,1,5)。このデータの場合、ML推定量の真の値は0です。初期値はですmu <- 0.5。アルゴリズムの1つのパスは

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

この関数を使用すると、「手作業」で反復を行うことができます。次に、反復アルゴリズムを次のように実行できます。

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

演習：モデルが $t_k$ スケールパラメーターを使用した分布 $\sigma$ 繰り返しが重みで与えられることを示す

w_{私} = \frac{k + 1}{k + ϵ_{私}^{2}} 。

$w_i = \frac{k+1}{k+\epsilon_i^2}.$ 演習：密度がロジスティックの場合、重みが

w （ ϵ ） = \frac{1 - e^{ϵ}}{1 + e^{ϵ}} \cdot - \frac{1}{ϵ} 。

$w(\epsilon) = \frac{ 1-e^\epsilon}{1+e^\epsilon} \cdot - \frac{1}{\epsilon}.$

とりあえずここに置いておきますが、この投稿を続けます。

— kjetil b halvorsen
ソース

うわー、素晴らしい優しい紹介！しかし、あなたは常に単一のパラメータを参照しています

u

$u$ 私が引用したすべてのインスタンスとソースについては、別の

u_{i}

$u_i$ インスタンスごと。これは簡単な変更ですか？

— ihadanny

これからさらに時間をかけて追加します！アイデアは同じままですが、詳細はより複雑になります。

— kjetil bハルヴォルセン16

それに来ます！

— kjetil bハルヴォルセン16

そして、ロジスティック密度の重みを示す演習に感謝します。それをやり、プロセスを通じて多くのことを学びました。わからない

t_{k}

$t_k$ 配布、それについて何も見つかりませんでした

— ...-ihadanny

この説明を続けるどこかでブログ記事を書いてもいいですか？私にとって本当に便利だし、他の人にとってもきっと役立つだろう…

— -ihadanny