ニューラルネットワークのコンテキストでは、平均二乗誤差は常に凸形ですか?


9

私が言及した複数のリソースは、MSEは凸型であるため優れていると述べました。しかし、特にニューラルネットワークのコンテキストでは、その方法がわかりません。

次のものがあるとします。

  • X:トレーニングデータセット
  • Y:ターゲット
  • Θ:モデルfΘパラメータのセット Θ(非線形性を持つニューラルネットワークモデル)

次に:

MSE(Θ)=(fΘ(X)Y)2

なぜこの損失関数は常に凸型になるのでしょうか?これはに依存しないfΘ(X)

回答:


1

簡単に言えば、MSEはそれ自体で入力とパラメータが凸型です。しかし、任意のニューラルネットワークでは、活性化関数の形で非線形性が存在するため、常に凸型であるとは限りません。私の答えの出典はこちらです。


1

凸面

f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

このような凸型は1つの大域的最小値があることが証明できます。一意のグローバル最小値は、エラー関数の最小化などのグローバル最小値への収束を達成しようとするアルゴリズムで発生する可能性があるローカル最小値によって作成されるトラップを排除します。f(x)

エラー関数は、すべての連続的な線形コンテキストと多くの非線形コンテキストで100%信頼できるかもしれませんが、すべての可能な非線形コンテキストのグローバルな最小値への収束を意味するものではありません。

平均二乗誤差

関数所与、理想的なシステムの動作とシステムのモデル記述(パラメータ・ベクトル、行列、立方体、又はハイパーキューブとなる)、合理的又は収束を介して作成(ニューラルネットトレーニングの場合と同様)、平均二乗誤差(MSE)関数は次のように表すことができます。s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

あなたが読んでいる資料はおそらくまたはがに関して凸であると主張していないが、はおよびに関して凸である彼らが何であれ。この後者のステートメントは、任意の連続およびで証明できます。 a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

収束アルゴリズムの交絡

質問が、特定のと、合理的なMSE収束マージン内でa近似するを達成する方法が混乱するかどうかである場合、答えは「はい」です。そのため、MSEだけがエラーモデルではありません。a(x,p)s(x)a(x,p)

概要

要約する最良の方法は、次の知識に基づいて、を定義するか、ストック凸エラーモデルのセットから選択することです。e(β)

  • システム既知のプロパティs(x)
  • 近似モデルの定義a(x,p)
  • 収束シーケンスで次の状態を生成するために使用されるテンソル

ストックコンベックスエラーモデルのセットには、その単純さと計算の効率のため、MSEモデルが確実に含まれます。


つまり、簡単な答えは、MSEがシータが常に凸であるということです Feedforard(X、Theta)は非凸かもしれませんが?
user74211 2017

まあ、@ user74211、そのコメントは実際に質問に答えているわけではありません。具体的に尋ねられた質問HOW平均二乗誤差は、それが適用される関数がそうでなければ、常に凸である可能性があります。あなたのコメントは質問の説明のサブセットであり、求められる説明はありません。
FauChristian 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.