ニューラルネットワークのコスト関数は非凸ですか?


36

ニューラルネットワークのコスト関数J(W,b)であり、非凸であると主張されています。私はそれがロジスティック回帰のコスト関数に非常に似ているとわかるので、なぜそうなのか理解していませんか?

それは非凸である場合は、2次微分ようJW<0、右?

更新

以下の回答と@gungのコメントのおかげで、隠されたレイヤーがまったくない場合、ロジスティック回帰のように凸面になっています。しかし、隠れ層がある場合、隠れ層のノードと後続の接続の重みを並べ替えることにより、同じ損失につながる重みの複数のソリューションを得ることができます。

さらに質問があります

1)複数の極小値があり、それらのいくつかは同じ値である必要があります。それらはいくつかのノードと重みの順列に対応しているからですよね?

2)ノードとウェイトがまったく並べ替えられない場合、凸型ですよね?そして、最小値はグローバル最小値になります。もしそうなら、1)への答えは、それらの局所的最小値はすべて同じ値になるでしょう、正しいですか?


複数の極小値が存在する可能性があるという点で、非凸です。
GUNG -復活モニカ

2
ニューラルネットワークに依存します。線形活性化関数と二乗損失を伴うニューラルネットワークは、凸最適化をもたらします(固定分散をもつ動径基底関数ネットワークでもメモリが適切に機能する場合)。ただし、ニューラルネットワークは主に非線形活性化関数(つまり、シグモイド)で使用されるため、最適化は非凸になります。
カグダスオズゲンク

@gung、私はあなたのポイントを得ました、そして今、私は私のアップデートを見てください、もっと質問があります:
アボカド

5
この時点(2年後)で、質問を以前のバージョンにロールバックし、以下の回答の1つを受け入れ、コンテキストにリンクする新しいフォローアップの質問をする方がよい場合があります。
GUNG -復活モニカ

1
@gung、はい、あなたは正しいですが、今、私は私が前に支持した答えのいくつかの側面についてはよくわかりません。さて、以下の答えに新しいコメントを残したので、新しい質問をする必要があるかどうかを確認するためにしばらく待ちます。
アボカド

回答:


25

ニューラルネットワークのコスト関数は、一般に凸でも凹でもありません。これは、すべての2次偏微分(ヘッセ行列)の行列が正の半正でも負の半正でもないことを意味します。2次導関数は行列であるため、どちらでもない可能性があります。

1変数関数に、この類似を作るためには、コスト関数はどちらのグラフのような形をされていないことを言うことができるものグラフのように- X 2。非凸の別の例は、非凹状の関数であるX 上のR。最も顕著な違いの1つは、± x 2には極値が1つしかないのに対して、sinには無限に多くの最大値と最小値があることです。x2x2sin(x)R±x2sin

これはニューラルネットワークとどのように関連していますか?コスト関数あなたが見ることができるように、また、極大値と極小値の数を有し、この画像、例えば、。J(W,b)

に複数の最小値があるという事実も、良い方法で解釈できます。各レイヤーでは、異なるパラメーターが割り当てられた複数のノードを使用して、コスト関数を小さくします。パラメーターの値を除いて、これらのノードは同じです。したがって、1つのレイヤーの最初のノードのパラメーターを同じレイヤーの2番目のノードのパラメーターと交換し、後続のレイヤーでこの変更を考慮することができます。異なるパラメーターのセットになりますが、コスト関数の値は区別できません(基本的には、ノードを別の場所に移動しただけですが、すべての入力/出力は同じままにしました)。J


OK、あなたが作った順列の説明は理解できます、それは理にかなっていると思いますが、今、これはニューラルネットが非凸である理由を説明するための本物のものだろうか?
アボカド

1
「本物」とはどういう意味ですか?
ローランド

つまり、これは単なるアナロジーではなく、どのように解釈されるべきかということです。
アボカド

4
@loganecolssこれは、コスト関数が非凸である唯一の理由ではなく、最も明白な理由の1つであることは正しいです。ネットワークおよびトレーニングセットに依存しているため、複数の最小値がある他の理由がある可能性があります。しかし、肝心なのは、他の効果に関係なく、パーミュレーションだけで非凸性が生じることです。
ローランド

1
申し訳ありませんが、最後の段落を理解できません。しかし、ここでmax(0、x)に言及した理由も理解できません。いずれにせよ-複数のモード(複数のローカルミニマム)があることを示す正しい方法は、何らかの方法でそれを証明することだと思います。psヘッセ行列が不定の場合、それは何も言いませんでした-準凸関数は不定ヘッセ行列を持つことができますが、それはまだ単峰性です。
ブルズィー

17

隠れ層のニューロンを置換し、隣接する層の重みで同じ置換を行った場合、損失は変化しません。したがって、重みの関数としてゼロ以外のグローバル最小値がある場合、重みの順列は別の最小値を与えるため、一意ではありません。したがって、関数は凸型ではありません。


5

目的関数が凸であるかどうかは、ネットワークの詳細に依存します。複数の極小値が存在する場合、それらがすべて同等であるかどうかを尋ねます。一般に、答えは「いいえ」ですが、一般化のパフォーマンスが良好なローカルミニマムを見つける可能性は、ネットワークサイズとともに増加するようです。

この論文は興味深いものです。

チョロマンスカら。(2015)。多層ネットワークの損失面

http://arxiv.org/pdf/1412.0233v3.pdf

序文から:

  • 大規模ネットワークの場合、ほとんどのローカルミニマムは同等であり、テストセットで同様のパフォーマンスが得られます。

  • 「悪い」(高い値)極小値を見つける確率は、小規模ネットワークではゼロではなく、ネットワークサイズとともに急速に減少します。

  • トレーニングセットでグローバルな最小値を見つけるのに苦労すること(多くの優れたローカルの1つとは対照的に)は、実際には役に立たず、過剰適合につながる可能性があります。

また、大規模なネットワークをトレーニングする際に、サドルポイントがローカルミニマムよりも大きな問題になることを説明するいくつかの論文を引用しています。


4

更新に対するいくつかの回答:

  1. はい、一般的に複数の局所的な最小値があります。(1つしかない場合は、グローバルミニマムと呼ばれます。)ローカルミニマムは、必ずしも同じ値になるとは限りません。一般に、同じ値を共有する極小値がない場合があります。

  2. いいえ、1層ネットワークでない限り、凸型ではありません。一般的なマルチレイヤーの場合、後のレイヤーのパラメーター(重みとアクティベーションパラメーター)は、前のレイヤーのパラメーターの高度に再帰的な関数になる可能性があります。一般に、再帰構造によって導入された決定変数の乗算は、凸性を破壊する傾向があります。このもう1つの優れた例は、時系列分析のMA(q)モデルです。

yXyXβ


1
「1層ネットワーク」とは、「ソフトマックス」またはロジスティック回帰のようなものです。
アボカド

私は「スワップ」を意味、「ノードと重みを置換」、そしてそれは私が2歳の回答上記から得たものだ、と私はその答えを理解できるようにすることで、内のノードと重みを「スワップ」によって隠された層、我々は持っ終わるかもしれません理論的には同じ出力であり、それが複数の最小値を持っている理由です。この説明が正しくないということですか?
アボカド

あなたは正しい考えを持っていますが、まったく同じではありません。ネットワークの場合、損失は、必ずしも二項損失は、活性化関数は、必ずしも等、シグモイドではないかもしれないではないかもしれない
ムスタファSエイサー

はい、私はそれが正しいとは思わない。これらの用語を並べ替えるかどうかにかかわらず、同じパフォーマンスが得られるのは事実ですが、これは問題の凸性または非凸性を定義するものではありません。最適化問題は、固定損失関数(損失の項の順列ではない)の場合、モデルパラメーターで目的関数が凸であり、最適化する実行可能領域が凸で閉じている場合、凸です。
ムスタファSエイサー

なるほど、もしそれが「1層」であれば、「softmax」ではないかもしれません。
アボカド

2

問題が凸または準凸の場合、1つのグローバル最小値があります。

ニューラルネットワークの構築中の凸型の「ビルディングブロック」について(コンピューターサイエンスバージョン)

言及できるものはいくつかあると思います。

  1. max(0、x)-凸で増加

  2. log-sum-exp-各パラメーターが凸で増加している

  3. y = Axはアフィンであり、(A)で凸であるため、増加または減少する可能性があります。y = Axはアフィンであり、(x)が凸であるため、増加または減少する可能性があります。

あいにく、(A、x)では凸ではありません。不定の2次形式のように見えるからです。

  1. 通常の数学離散畳み込み(「通常」では繰り返し信号で定義されることを意味します)Y = h * X hまたは変数Xのアフィン関数であるように見えます。したがって、変数hまたは変数Xの凸です。両方の変数について- hとXがスカラーの場合、畳み込みは不定の2次形式に減少するため、そうは思いません。

  2. max(f、g)-fとgが凸の場合、max(f、g)も凸です。

ある関数を別の関数に置き換えてコンポジションを作成すると、y = h(g(x)、q(x))の凸の部屋に残りますが、hは凸であり、各引数で増加(減少しない)する必要があります。 ...

非凸面でニューラルネットワークが機能する理由:

  1. たたみ込みY = h * Xは、hで必要な増加ではないと思います。そのため、カーネルに関する追加の仮定を使用しない場合、畳み込みを適用した直後に凸最適化から外に出ます。だから、作曲にはまったく問題はありません

  2. また、上記のようにカップルパラメーターを考慮すると、畳み込みと行列乗算は凸ではありません。したがって、行列乗算には必ず問題があります。それは、パラメーター(A、x)の非凸演算です。

  3. y = Axは(A、x)で準凸になりますが、追加の仮定も考慮する必要があります。

あなたが同意しないか、余分な考慮事項がある場合はお知らせください。この質問は私にとっても非常に興味深いものです。

ps max-pooling-maxを選択してダウンサンプリングすると、アフィン事前合成(必要なブロックをプルする)による要素ごとのmax操作の一部の変更のように見え、私にとっては凸に見えます。

その他の質問について

  1. いいえ、ロジスティック回帰は凸面でも凹面でもありませんが、対数凹です。これは、対数を適用した後、説明変数に凹関数があることを意味します。したがって、ここで最大対数尤度のトリックは素晴らしいです。

  2. グローバルミニマムが1つだけではない場合。極小値間の関係については何も言えません。または、少なくとも数学のこの領域はグローバルな過小評価に基づいているため、凸最適化とその拡張機能を使用することはできません。

たぶん、あなたはこれについて混乱しています。本当にそのようなスキーマを作成する人々は単に「何か」をし、「何か」を受け取るからです。残念ながら、非凸最適化(一般的に)に取り組むための完璧なメカニズムがないためです。

しかし、ニューラルネットワークの横にも、よりシンプルなものがある-のように解決できない非は、線形最小二乗- https://youtu.be/l1X4tOoIHYo?t=2992(EE263、L8、50:10)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.