ニューラルネットワークのクロスエントロピーコスト関数は凸ですか?


9

私の先生は、クロスエントロピーの2次導関数が常に正であることを証明したので、クロスエントロピーを使用するニューラルネットワークのコスト関数は凸になります。これは本当ですか?私はいつもANNのコスト関数が非凸であることを学んできたので、これについてはかなり混乱しています。誰かがこれを確認できますか?大いに感謝する! http://z0rch.com/2014/06/05/cross-entropy-cost-function


5
リンク切れ?
ebb-earl-co

回答:


7

指数ファミリーの相互エントロピーは常に凸型です。したがって、入力、重み、出力、および損失関数を持つ多層ニューラルネットワークの場合xwyL

y2L

凸状です。しかしながら、

w2L

iamonaboatによって説明されている理由により、中間層のパラメータに対して凸状になることはありません。


5

@ngiannが言ったこと、そして非公式に、非表示層のニューロンを並べ替え、隣接する層の重みで同じ置換を行う場合、損失は変化しません。

したがって、重みの関数としてゼロ以外のグローバルミニマがある場合、ウェイトの順列が別のグローバルミニマムを与えるため、一意ではありません。したがって、関数は凸ではありません。

すべての2次偏微分(ヘッセ行列)の行列は、正の半正定行列でも負の半定定行列でもありません。2次導関数は行列なので、どちらでもない可能性があります。


非公式ではなく知識を深めたい場合、関数の凸性の通常の定義では一意のグローバル最小値は必要ないため、最小値の非一意性は非凸性を意味しません。ただし、この方法で重みを並べ替えてもネットワークの実際の出力は変更されないため、凸性がなくても、トレーニング関数が毎回同じ〜関数に収束するというプロパティを持つことができます。この対称性を破って、損失関数の他の特性を台無しにせずに重みを並べる方法があるに違いない。
Andrew Wagner

3

あなたは、クロスエントロピー問題のANN最適化問題が非凸であると疑っています。注:ここでは、非表示層に非線形活性化関数を備えたニューラルネットワークについて説明しています。非線形アクティベーション関数を使用しない場合、ANNは線形関数を実装しており、問題は凸になります。

したがって、ANNのクロスエントロピーの最適化が非凸である理由は、ANNの基礎となるパラメータ化によるものです。線形ニューラルネットワークを使用する場合、それを凸型にすることができます(本質的に、凸型の問題であるロジスティック回帰のように見えます)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.