畳み込みニューラルネットワークの最終Softmax層の前の非線形性


11

私は畳み込みニューラルネットワークを調査して実装しようとしていますが、この質問は一般に多層パーセプトロンに当てはまると思います。

ネットワークの出力ニューロンは、各クラスのアクティブ化を表しています。最もアクティブなニューロンは、特定の入力の予測クラスに対応しています。トレーニングのクロスエントロピーコストを検討するために、各ニューロンの活性化値が確率値として解釈されるように、ネットワークの最後にsoftmaxレイヤーを追加しています。

私の質問は、出力層のニューロンが非線形関数を入力に適用する必要がありますか?私の直感はそれが必要ではないということです:

  • 入力場合番目の出力ニューロンはドット積であるX T θ IベクトルとX(前のレイヤからの)と重みがθ Iをそのニューロンため、ixTθixθi
  • シグモイドやReLUのような単調な非線形関数を使用する場合
  • 次いで、より大きな活性化出力は、依然として最大に対応するように非線形関数が予測を変更しないであろうこのような観点から、。xTθi

この解釈に何か問題がありますか?出力の非線形性を必要とする、見落としているいくつかのトレーニング要素はありますか?

max(0,xTθi)

編集

答えが基本的に「依存する」であったカレルの答えを参照して、ここに私のネットワークと疑問のより詳細な説明があります:

N個の非表示レイヤーがあり、出力レイヤーがクラスを表すニューロンのセットの単なるソフトマックスレイヤーであるとします(したがって、期待される出力は、入力データが各クラスに属する確率です)。最初のN-1層に非線形ニューロンがあると仮定すると、N番目の隠れ層で非線形ニューロンと線形ニューロンを使用することの違いは何ですか?



レイヤーはN-2、N-3、.. 1線形または非線形ですか?
Karel Macek

1(入力に最も近い)からN-1までの層は非線形です。レイヤーNは最後の(出力に近い)非表示レイヤーです。softmaxレイヤーはレイヤーN + 1です。
rand

1
ソフトマックスの直前のBNレイヤーはどうですか?その非線形性は大丈夫ですか?(それは非線形性としてカウントされますか?)
チャーリーパーカー

回答:


11

ソフトマックス分類の前の最後のレイヤーに非線形性を使用しないでください。この場合、ReLUの非直線性(現在はほぼ独占的に使用されています)は、追加の利点を追加することなく、単に情報を破棄します。有名なAlexNet のカフェの実装を見て、実際に何が行われたかを確認できます。


2
ソフトマックスの直前のBNレイヤーはどうですか?その非線形性は大丈夫ですか?(それは非線形性としてカウントされますか?)
チャーリーパーカー

6

イベントの確率が低いことを示すために、softmax関数に負の値を送信することができます。入力値をreluに渡す場合、ネットワークは、reluへの入力が負であるユニットを介して勾配を渡しません。したがって、ソフトマックスの表現力は変更されませんが、おそらく学習がはるかに難しくなります。


0

答えは「はい」でも「いいえ」でもありません。それはあなたがあなたのネットワークについて持っているあなたの期待に強く依存します。私はあなたがおそらく幅広い問題に適用できる優れた分類器を望んでいると思います。したがって、非線形性は、重要なクラスをキャプチャするのに役立ちます。非線形性は、ソフトマックスレイヤーの前の最後のレイヤーに含まれる場合と、前のレイヤーに含まれる場合があります。


私の編集を見ていただけますか?
rand
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.