エラー率は正則化パラメーターラムダの凸関数ですか？

RidgeまたはLassoで正則化パラメーターlambdaを選択する場合、推奨される方法は、さまざまな値のlambdaを試し、検証セットでエラーを測定し、最後に最も低いエラーを返すlambdaの値を選択することです。

関数f（lambda）= errorがConvexである場合、私にはクリートではありません。こんな感じかな？つまり、この曲線は複数の極小値を持つことができます（これは、ラムダの特定の領域でエラーの最小値を見つけても、他の一部の領域でさらに小さなエラーを返すラムダがある可能性を排除しないことを意味します）

あなたのアドバイスをいただければ幸いです。

— rf7
ソース

回答:

元の質問では、誤差関数を凸にする必要があるかどうかを尋ねていました。 いいえ、違います。 以下に示す分析は、これと修正された質問についての洞察と直感を提供することを目的としています。この質問では、エラー関数が複数の極小値を持つ可能性があるかどうかを尋ねます。

直観的には、データとトレーニングセットの間に数学的に必要な関係はありません。 モデルが最初は不十分で、いくつかの正則化によって改善され、その後再び悪化するトレーニングデータを見つけることができるはずです。その場合、エラー曲線は凸型にすることはできません。少なくとも、正則化パラメーターをから変化させる場合はそうではありません。 $0$ $\infty$

凸面は、固有の最小値を持つことと同じではないことに注意してください！ただし、同様のアイデアは、複数の局所的な最小値が可能であることを示唆しています。正則化中、最初にフィットされたモデルは一部のトレーニングデータで改善され、他のトレーニングデータではそれほど変化しません。その後、他のトレーニングデータで改善されます。そのような訓練データの混合は、複数の極小値を生成するはずです。分析を簡単にするために、それを示すことはしません。

編集（変更された質問に回答するため）

以下に示す分析とその直感に非常に自信があったので、可能な限り大まかな方法で例を見つけることにしました。小さなランダムデータセットを生成し、それらに投げ縄を実行し、小さなトレーニングセットの合計二乗誤差を計算しました。そして、その誤差曲線をプロットしました。数回の試行で、2つの最小値を持つ1つが生成されました。ベクトルは、特徴とおよび応答の形式です。 $(x_1,x_2,y)$ $x_1$ $x_2$ $y$

トレーニングデータ

(1, 1, - 0.1), (2, 1, 0.8), (1, 2, 1.2), (2, 2, 0.9)

$(1,1,-0.1),\ (2,1,0.8),\ (1,2,1.2),\ (2,2,0.9)$

テストデータ

(1, 1, 0.2), (1, 2, 0.4)

$(1,1,0.2),\ (1,2,0.4)$

Lassoはglmnet::glmmetin を使用して実行されR、すべての引数はデフォルトのままになっています。x軸のの値は、そのソフトウェアによって報告された値の逆数です（ペナルティをでパラメーター化しているため）。 $\lambda$ $1/\lambda$

複数の極小値を持つエラー曲線

分析

のは、考えてみましょう任意のパラメータフィッティングの正則化法データには、および対応する応答を：リッジ回帰と投げ縄に共通するこれらの性質を持っています $\beta=(\beta_1, \ldots, \beta_p)$ $x_i$ $y_i$

（パラメータ設定）メソッドは、実数によってパラメータ化された unregularizedモデルは、に対応して、。 $\lambda \in [0, \infty)$ $\lambda=0$
（継続）パラメータ推定値に連続的に依存及び任意の特徴の予測値を用いて連続的に変化。 $\hat\beta$ $\lambda$ $\hat\beta$
（収縮）として、。 $\lambda\to\infty$ $\hat\beta\to 0$
（有限）任意の特徴ベクトルについて、などの、予測。 $x$ $\hat\beta\to 0$ $\hat y(x) = f(x, \hat\beta) \to 0$
（単調エラー）の任意の値と比較する誤差関数予測値を、、不一致と増加ように、表記法のいくつかの乱用で、我々は、としてそれを発現することができる。 $y$ $\hat y$ $\mathcal{L}(y, \hat y)$ $|\hat y - y|$ $\mathcal{L}(|\hat y - y|)$

（ゼロは、任意の定数で置き換えることができます。） $(4)$

データは初期（unregularized）パラメータ推定値のようなものであると仮定ゼロではありません。レッツコンストラクト一人の観察からなる訓練データセットのための。（そのようなを見つけることができない場合、最初のモデルはあまり面白くないでしょう！）Set $\hat\beta(0)$ $(x_0, y_0)$ $f(x_0, \hat\beta(0))\ne 0$ $x_0$ 。 $y_0=f(x_0, \hat\beta(0))/2$

仮定は、エラー曲線暗示、これらの特性を有します。 $e: \lambda \to \mathcal{L}(y_0, f(x_0, \hat\beta(\lambda))$

ための選択の（）。 $e(0) = \mathcal{L}(y_0, f(x_0, \hat\beta(0)) = \mathcal{L}(y_0, 2y_0) = \mathcal{L}(|y_0|)$ $y_0$
（理由として、、そこから）。 $\lim_{\lambda\to\infty}e(\lambda) = \mathcal{L}(y_0, 0) = \mathcal{L}(|y_0|)$ $\lambda\to\infty$ $\hat\beta(\lambda)\to 0$ $\hat{y}(x_0)\to 0$

したがって、そのグラフは、2つの等しく高い（有限の）エンドポイントを連続的に接続します。

定性的には、3つの可能性があります。

トレーニングセットの予測は変更されません。これはありそうもないことです。選択したどの例についても、このプロパティはありません。
以下のためのいくつかの中間の予測あるより悪い開始時よりまたは制限で。この関数を凸型にすることはできません。 $0\lt \lambda \lt \infty$ $\lambda=0$ $\lambda\to\infty$
すべての中間予測はと間にあり。連続性は、少なくとも1、最低があるだろう意味その近くで、凸型でなければなりません。しかし、は漸近的に有限定数に近づくため、十分に大きな凸型にすることはできません。 $0$ $2y_0$ $e$ $e$ $e(\lambda)$ $\lambda$

図の縦の破線は、プロットが凸型（左側）から非凸型（右側）に変化する場所を示しています。（そこにも近く、非凸の領域でこの図では、これは必ずしも一般的ケースではありません。） $\lambda\approx 0$

— whuber
ソース

精巧な回答ありがとうございます。可能であれば、私が編集した質問を確認し、回答を更新してください。

— rf7

正解（+1）。実際には、トレーニングとテストのデータポイントはそれほど多くないことが多いと思います。同じ（固定された、十分に規則的な）分布から引き出された十分なトレーニングおよびテストデータポイントがある場合、この回答の結論は変わりますか？特に、このシナリオでは、高い確率で一意の極小値がありますか？

— user795305 2017

@ベン重要なのはテストポイントの数ではありません。この結果は、トレーニングポイントの分布に対するテストポイントの分布に完全に依存します。したがって、「高い確率で」の問題は、リグレッサ変数の多変量分布について特定の仮定を行わないと解決できません。また、多くの変数が関係しているため、複数の極小値のこの現象ははるかに可能性が高くなります。私は疑い（変数など、多くの観測何度でも付き）大きなテストセットのランダムな選択があることかもしれない多くの場合、ユニークなグローバル分を持っています。

— whuber

@whuberありがとう！私は同意します。トレーニングポイントとテストポイントの間の（真の）分布は同じである必要があり、トレーニングとテストセットの経験的分布が一致するのに十分なサンプルが必要です。（先ほどのコメントでそのように不適切に表現しているようです。）たとえば、

が（正規でない共分散の）共正規分布である場合、一意のローカル最小値を持つエラー曲線が1に収束する確率を疑います（たとえば、トレーニングおよびテストセットに

サンプルがあり、

で

固定されている（または

に対してゆっくりと増加している）場合）

(x, y)

$(\mathbf x, y)$

n

$n$

n \to \infty

$n \to \infty$

p

$p$

n

$n$

— user795305

$\newcommand{\dbeta}{\frac{\partial}{\partial \lambda} \hat\beta_\lambda}$ $\newcommand{\ddbeta}{\frac{\partial^2}{{\partial \lambda}^2} \hat\beta_\lambda}$

この回答は具体的に投げ縄に関係します（リッジの回帰には当てはまりません）。

セットアップ

応答のモデル化に使用している共変量があるとします。我々が持っていると仮定しのトレーニングデータポイントと検証データポイント。 $p$ $n$ $m$

訓練入力とすると応答があること。このトレーニングデータでは投げ縄を使用します。すなわち、入れ $X_{(1)} \in \mathbb{R}^{n \times p}$ $y_{(1)} \in \mathbb{R}^n$

\begin{matrix} (1) & {\hat{β}}_{λ} = \arg min_{β \in R^{p}} ‖ y_{(1)} - X_{(1)} β ‖_{2}^{2} + λ ‖ β ‖_{1}, \end{matrix}

$\hat\beta_\lambda = \arg\min_{\beta \in \mathbb{R}^p} \|y_{(1)} - X_{(1)} \beta\|_2^2 + \lambda \|\beta\|_1, \tag{1}$ トレーニングデータから推定された係数のファミリー。我々は、選択する

我々の推定は、検証セットでの誤差に基づいて、入力と、使用する

と応答

。

{\hat{β}}_{λ}

$\hat\beta_\lambda$

X_{(2)} \in R^{m \times p}

$X_{(2)} \in \mathbb{R}^{m \times p}$

y_{(2)} \in R^{m}

$y_{(2)} \in \mathbb{R}^m$

我々は、誤差関数を研究に興味を持っている

我々のデータ駆動型推定量を生じさせました

。

\begin{matrix} (2) & \hat{λ} = \arg min_{λ \in R_{+}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2}, \end{matrix}

$\hat\lambda = \arg\min_{\lambda \in \mathbb{R}_+} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2, \tag{2}$

e (λ) = ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2}

$e(\lambda) = \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2$

{\hat{β}}_{\hat{λ}}

$\hat\beta_{\hat\lambda}$

計算

今、我々は、式目的の二次導関数を計算することなく、任意に分布仮定 'Sまたはのを。分化およびいくつかの再編、我々（正式に）計算を使用していること $(2)$ $X$ $y$

\begin{aligned} \frac{\partial^{2}}{{\partial λ}^{2}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2} & = \frac{\partial}{\partial λ} {- 2 y_{(2)}^{T} X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} + 2 {\hat{β}}_{λ}^{T} X_{(2)}^{T} X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ}} \\ = - 2 y_{(2)}^{T} X_{(2)} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} + 2 {({\hat{β}}_{λ})}^{T} X_{(2)}^{T} X_{(2)} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} + 2 \frac{\partial}{\partial λ} {\hat{β}}_{λ}^{T} X_{(2)}^{T} X_{(2)}^{T} \frac{\partial}{\partial λ} {\hat{β}}_{λ} \\ = - 2 {{(y_{(2)} - X_{(2)} {\hat{β}}_{λ})}^{T} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} - ‖ X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} ‖_{2}^{2}} . \end{aligned}

$\begin{align*} \frac{\partial^2}{{\partial \lambda}^2} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2 & = \frac{\partial}{\partial \lambda} \left\{ -2 y_{(2)}^T X_{(2)} \dbeta + 2 \hat\beta_\lambda^T X_{(2)}^T X_{(2)} \dbeta \right\} \\ & = -2 y_{(2)}^T X_{(2)} \ddbeta + 2 \left( \hat\beta_\lambda \right)^T X_{(2)}^T X_{(2)} \ddbeta + 2 \dbeta^T X_{(2)}^T X_{(2)}^T \dbeta \\ & = -2 \left\{ \left( y_{(2)} - X_{(2)} \hat\beta_\lambda \right)^T \ddbeta - \|X_{(2)} \dbeta\|_2^2 \right\}. \end{align*}$

{\hat{β}}_{λ}

$\hat\beta_\lambda$

λ \notin K

$\lambda \not\in K$

K

$K$

\frac{\partial}{\partial λ} {\hat{β}}_{λ}

$\dbeta$

\frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ}

$\ddbeta$

λ \notin K

$\lambda \not\in K$

\frac{\partial^{2}}{{\partial λ}^{2}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2} = 2 ‖ X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} ‖_{2}^{2},

$\frac{\partial^2}{{\partial \lambda}^2} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2 = 2 \|X_{(2)} \dbeta\|_2^2,$

λ

$\lambda$

結論

$X_{(2)}$ $\{X_{(1)}, y_{(1)} \}$ $X_{(2)} \dbeta \neq 0$ $\lambda < \lambda_\max$ $e(\lambda)$ $\mathbb{R} \setminus K$ $\hat\beta_\lambda$ $e(\lambda)$

$\|X_{(1)} \hat\beta_\lambda\|_2^2$ $\lambda$ $\|X_{(2)} \hat\beta_\lambda\|_2^2$ $e(\lambda)$ $\mathcal{L} \left( X_{(1)} \right) = \mathcal{L} \left( X_{(2)} \right)$

— user795305
ソース

あなただけに依存しています

\hat{β}

$\hat\beta$

λ

$\lambda$

\hat{e}

$\hat e$

\hat{β} (λ) = | λ - [λ] |

$\hat\beta(\lambda)=|\lambda-[\lambda]|$

[]

$[]$

y_{(2)} = 0

$y_{(2)}=0$

X_{(2)} = 1

$X_{(2)}=1$

\hat{e} (λ) = \hat{β} (λ)^{2}

$\hat {e}(\lambda)=\hat\beta(\lambda)^2$

@whuber良い点！ありがとう！この投稿はもうすぐ編集します。

— user795305 2017