ReLUアクティベーションがSVMと等しい単一層のNeuralNetwork?


10

n個の入力と1つの出力(バイナリ分類タスク)を持つ単純な単一層ニューラルネットワークがあるとします。出力ノードでアクティベーション関数をシグモイド関数として設定すると、結果はロジスティック回帰分類器になります。

この同じシナリオで、出力のアクティブ化をReLU(修正線形ユニット)に変更した場合、結果の構造はSVMと同じか、または類似していますか?

なぜではないのですか?


なぜそうなのか、仮説はありますか?単一のパーセプトロン=ロジスティックがアクティベーションのために正確である理由-それらは本質的に同じモデルであり、数学的に(おそらく異なる方法でトレーニングされます)-線形の重み+行列の乗算に適用されるシグモイド SVMはまったく異なる動作をします-それらはデータを分離するための最良の線を探します-それらは「重みのある」/「行列」よりも幾何学的です。私にとって、ReLUについて私に考えさせることは何もありません=ああ、それらはSVMと同じです。(ただし、ロジスティックと線形のsvmは非常によく似た傾向があります)
metjush

SVMの最大マージン目標とReluアクティベーション関数は同じように見えます。したがって問題。
ADの

"SVMはまったく異なる動作をします-データを分離するための最良の線を求めます-それらは「重みのある」/「行列」よりも幾何学的です。それは少し手を振っています-すべての線形分類器はロジスティック回帰を含むデータを分離するための最良の線を求めますおよびパーセプトロン
ADの

回答:


11

ReLUを思い起こさせるのは、SVM のヒンジ損失かもしれませんが、この損失によって出力アクティブ化関数が非負(ReLU)になることはありません。E=max(1ty,0)

ネットワーク損失がSVMと同じ形式になるようにするには、出力層から非線形活性化関数を削除し、ヒンジ損失を逆伝搬に使用するだけです。

さらに、ヒンジ損失を(ヒンジ損失の滑らかなバージョンのように見えるに置き換えると、典型的なシグモイド+クロスエントロピーネットワークとしてロジスティック回帰を実行します。シグモイド関数を出力層から損失に移動すると考えることができます。E=ln(1+exp(ty))

したがって、損失関数に関しては、SVMとロジスティック回帰はかなり似ていますが、SVMはサポートベクトルに基づいてトレーニングと推論に非常に異なるアルゴリズムを使用します。

本「パターン認識と機械学習」のセクション7.1.2に、SVMとロジスティック回帰の関係についての素晴らしい議論があります。

ここに画像の説明を入力してください


本を指さしてくれてありがとう。したがって、アクティベーション関数とは別に、実際の違いは使用される最適化アルゴリズムにあるという感覚を得ています。LRの場合、単純な制約なし勾配降下法を使用できますが、SVMでは通常、制約付き最適化を解決します。
AD
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.