再帰的（オンライン）正則化最小二乗アルゴリズム

12

Tikhonov Regularization（正則化された最小二乗法）のオンライン（再帰）アルゴリズムの方向を教えていただけますか？

オフライン設定では、元のデータセットを使用してを計算し、n倍交差検証を使用してを見つけます。を使用して、指定されたの新しい値を予測できます。 $\hat\beta=(X^TX+λI)^{−1}X^TY$ $λ$ $y$ $x$ $y=x^T\hat\beta$

オンライン環境では、新しいデータポイントを継続的に描画します。データセット全体（元の+新しい）で完全な再計算を行わずに新しい追加のデータサンプルを描画するときに、を更新するにはどうすればよいですか？ $\hat\beta$

— うどん
ソース

1

あなたのTikhonov正規化最小二乗法は、純粋な線形問題（ここにある）に適用された場合でも、統計円ではおそらくより一般的にLevenberg-Marquardtと呼ばれます。オンラインのLevenberg Marquardtに関する論文がここにあります。それが助けかどうかはわかりません。

— Glen_b-モニカの復職14

11

$\hat\beta_n=(XX^T+λI)^{−1} \sum\limits_{i=0}^{n-1} x_iy_i$

LET $M_n^{-1} = (XX^T+λI)^{−1}$ 、次いで

、及び $\hat\beta_{n+1}=M_{n+1}^{−1} (\sum\limits_{i=0}^{n-1} x_iy_i + x_ny_n)$

、次を得ることができます $M_{n+1} - M_n = x_nx_n^T$

$\hat\beta_{n+1}=\hat\beta_{n}+M_{n+1}^{−1} x_n(y_n - x_n^T\hat\beta_{n})$

によるウッドベリーの公式に、

$M_{n+1}^{-1} = M_{n}^{-1} - \frac{M_{n}^{-1}x_nx_n^TM_{n}^{-1}}{(1+x_n^TM_n^{-1}x_n)}$

結果として、

$\hat\beta_{n+1}=\hat\beta_{n}+\frac{M_{n}^{−1}}{1 + x_n^TM_n^{-1}x_n} x_n(y_n - x_n^T\hat\beta_{n})$

Polyak平均は、あなたが使用できることを示しおおよその $\eta_n = n^{-\alpha}$ 、範囲はからです。あなたの場合、再帰に最適なを選択してみてください。 $\frac{M_{n}^{−1}}{1 + x_n^TM_n^{-1}x_n}$ $\alpha$ $0.5$ $1$ $\alpha$

バッチ勾配アルゴリズムを適用する場合にも機能すると思います：

$\hat\beta_{n+1}=\hat\beta_{n}+\frac{\eta_n}{n} \sum\limits_{i=0}^{n-1}x_i(y_i - x_i^T\hat\beta_{n})$

— lennon310
ソース

新しいデータのバッチサンプルで毎回リグレッサを更新し、連続する各バッチがわずかに異なる分布から取得される場合はどうなりますか？すなわち、非IID。この場合、リグレッサに新しいデータを考慮させたいが、古いデータ（以前のバッチ）の局所性の予測に影響を与えないようにしますか？役に立つと思われる文献を教えてください。

— rnoodle

良い質問ですが、答えにバッチ勾配式を使用している場合、またはマトリックス形式を直接適用して近似している場合、モデルにどの程度影響するかわかりません：eta ^（-alpha）* X（Y-X 'beta_n）X、Yは新しいバッチサンプル

— lennon310 14年

こんにちは、それは正則化係数が再帰的な更新式に関与していないようです？または、M行列の逆行列の初期化でのみ問題になりますか？

— 鵬趙

4

これまで誰も取り組んできなかった点は、データポイントが追加される正則化パラメーター一定に保つことは一般に意味をなさないということです。この理由は、ある正則化項ながら、典型的には、データポイントの数と共に直線的に成長するではないであろう。 $\lambda$ $\| X \beta -y \|^{2}$ $\| \lambda\beta \|^{2}$

— ブライアン・ボーチャーズ
ソース

それは興味深い点です。しかし、正確に「意味をなさない」のはなぜですか？維持

確実に一定のことは数学的に正しいので、「意味を成さない」統計的文脈のいくつかの種類に理解されなければなりません。しかし、どのようなコンテキストですか？何が悪いの？平方和を平均平方に置き換えるなど、何らかの簡単な修正がありますか？

λ

$\lambda$

— whuber

二乗和をスケーリングされたバージョン（たとえば、平均二乗誤差）で置き換えることは理にかなっていますが、単純に再帰的最小二乗を使用してもそれは達成されません。

— ブライアン

選択に応じて、何がうまくいかないかについては、多数のデータポイントを含む非常に正規化されていないソリューション、または少数のデータポイントを含む非常に正規化されたソリューションが得られます。

λ

$\lambda$

— ブライアンボルチャーズ

疑いがありますが、

データポイントを受け取った後に

を最初に調整し、その後さらにデータポイントを追加した場合、より多くのデータポイントと同じ

の結果のソリューションが過剰または過少に正規化されるかどうかは、それらの新しいデータポイントに依存します。これは、データポイントが多変量分布からのiidサンプルのように振る舞うと仮定することで分析できます。この場合、ステージ

で

を

設定する必要があります。これにより、更新式が変更されますが、効率的計算が可能になる可能性があるような、定期的かつ簡単な方法で。（+1）

λ

$\lambda$

n

$n$

λ

$\lambda$

λ

$\lambda$

N / n

$N/n$

N

$N$

— whuber

3

おそらく、確率的勾配降下のようなものがここで機能するでしょう。計算は、あなたの開始見積もりとなります初期データセット、上の上のあなたの方程式を使用して。新しいデータポイントごとに、勾配降下の1ステップを実行して、パラメーター推定値を更新できます。 $\hat{\beta}$

— マックス・S
ソース

それ以来、SGD（おそらくミニバッチ）が、このようなオンラインの問題、つまり関数近似の更新に対応する方法であることを認識しています。

— rnoodle

1

$X$ $\lambda$

— マッテオ・ファシオーロ
ソース

0

$X^TX$ $X^Ty$ $X^TX/n$ $X^Ty/n$

を書く場合 $X$ $y$ as :

X = (\begin{matrix} x_{1}^{T} \\ ⋮ \\ x_{n}^{T} \end{matrix}), y = (\begin{matrix} y_{1} \\ ⋮ \\ y_{n} \end{matrix}),

$X = \begin{pmatrix} x_1^T \\ \vdots \\ x_n^T \end{pmatrix}, \quad y = \begin{pmatrix} y_1 \\ \vdots \\ y_n \end{pmatrix},$

we can write the online updates to $X^TX/n$ and $X^Ty/n$ (calculated up to the $t$ -th row) as:

A_{t} = (1 - \frac{1}{t}) A_{t - 1} + \frac{1}{t} x_{t} x_{t}^{T},

$A_t = \left(1 - \frac{1}{t}\right) A_{t-1} + \frac{1}{t}x_t x_t^T,$

b_{t} = (1 - \frac{1}{t}) b_{t - 1} + \frac{1}{t} x_{t} y_{t} .

$b_t = \left(1 - \frac{1}{t}\right) b_{t-1} + \frac{1}{t}x_t y_t.$

Your online estimate of $\beta$ then becomes

{\hat{β}}_{t} = (A_{t} + λ I)^{- 1} b_{t} .

$\hat\beta_t = (A_t + \lambda I)^{-1}b_t.$

Note that this also helps with the interpretation of $\lambda$ remaining constant as you add observations!

This procedure is how https://github.com/joshday/OnlineStats.jl computes online estimates of linear/ridge regression.

— joshday
ソース