なぜニューラルネットワークでReLUを使用し、どのように使用するのですか?


31

なぜニューラルネットワークで整流線形ユニット(ReLU)を使用するのですか?それはどのようにニューラルネットワークを改善しますか?

ReLUはアクティベーション関数であると言うのはなぜですか?ニューラルネットワークのソフトマックス活性化関数ではないですか?次のように、ReLUとsoftmaxの両方を使用すると推測しています。

softmax出力のニューロン1 ---->
ニューロン2の入力であるニューロン1の出力のReLU ---> softmax出力のニューロン2-> ...

そのため、ニューロン2の入力は基本的にReLU(softmax(x1))です。これは正しいです?

回答:


36

ReLU関数は通常、これは、マトリックスとベクトルの積など、他の関数の出力に要素ごとに適用されます。MLPの使用では、整流器ユニットは、おそらく読み出し層を除く他のすべての起動機能を置き換えます。ただし、必要に応じてそれらを組み合わせて使用​​できると思います。f(x)=max(0,x).

ReLUがニューラルネットワークを改善する1つの方法は、トレーニングを高速化することです。勾配の計算は非常に単純です(xの符号に応じて0または1のいずれか)。また、ReLUの計算ステップは簡単です。負の要素は0.0に設定されます。指数関数、乗算、除算はありません。

ロジスティックおよび双曲線正接ネットワークの勾配は、ReLUの正の部分よりも小さくなります。これは、トレーニングが進むにつれて肯定的な部分がより迅速に更新されることを意味します。ただし、これにはコストがかかります。左側の0勾配には、「デッドニューロン」と呼ばれる独自の問題があります。この問題では、勾配の更新によって入力値がReLUに設定され、出力が常にゼロになります。ELU(またはLeaky ReLU、PReLUなど)などの変更されたReLUユニットはこれを改善できます。

ddxReLU(x)=1x>0。対照的に、シグモイド単位の勾配は最大です。一方、運賃良好0付近の領域における入力の以降(約)。0.25tanh0.25<ddxtanh(x)1x[1.31,1.31]


@aginenskyページの上部にある[質問する]ボタンをクリックして質問することができます。
Sycoraxは

質問したい、またはこのページに参​​加したという証拠はありません。率直に言って、ReLUがどれだけうまく機能しているかに驚いていますが、質問するのをやめました:)。
aginensky

@aginenskyコメントは暫定的に削除されたようです。
Sycoraxによると、モニカを

コメントは私から削除されず、通知もされませんでした。質問に答えるのをやめたので、これでコメントも終わりました。
アギネンスキー

@aginenskyこれがなぜあなたがコメントをやめるのかわからない。コメントやモデレーションについて質問がある場合は、meta.stats.SEで質問することができます。
Sycoraxによると、モニカの復職は

4

重要なことの1つは、ReLUがべき等であることです。ReLUがであると仮定すると、が任意の有限合成に対して真であることが簡単にわかります。。ネットワークの各層は非線形性を適用するため、この特性はディープニューラルネットワークにとって非常に重要です。ここで、2つのシグモイドファミリ関数を同じ入力に1〜3回繰り返し適用してみましょう。ρ(x)=max(0,x)ρρρρ=ρ

ここに画像の説明を入力してください

シグモイド関数が入力を「押しつぶす」と、勾配の消失問題が発生することがすぐにわかります(繰り返し適用される数)が無限に近づくと、導関数はゼロに近づきます。n


0

ReLUは、入力xを持つ最大関数(x、0)、たとえば畳み込み画像からの行列です。次に、ReLUは行列xのすべての負の値をゼロに設定し、他のすべての値は一定に保たれます。

ReLUは畳み込みの後に計算されるため、tanhやS字型のような非線形活性化関数です。

Softmaxは、ニューラルネットワークの最後にある分類器です。これは、出力を0〜1の値に正規化するためのロジスティック回帰です(ここでの代替はSVM分類器です)。

CNNフォワードパス例:input-> conv-> ReLU-> Pool-> conv-> ReLU-> Pool-> FC-> softmax


8
ダウン投票。これは非常に悪い答えです!Softmaxは分類子ではありません!出力を範囲[0,1]に正規化(スケーリング)し、合計が1になるようにする関数です。ロジスティック回帰は何も「正規化」しません!「ReLUは畳み込みの後に計算されるため、tanhやSigmoidのような非線形活性化関数」という文です。動詞や感覚がない。
ヤンKukacka

1
答えはそれほど悪くはありません。動詞なしの文は「ReLU、畳み込み後に計算されなければならないIS従ってTANHまたはシグモイド状非線形活性化関数」。softmaxを分類子として考えることも理にかなっています。これは、各クラスに確率を割り当てる確率的分類子と見なすことができます。出力を[0,1]間隔に「正規化」/「正規化」します。
user118967

0

ReLUはリテラルスイッチです。電気スイッチを使用すると、1ボルト入力では1ボルトが出力され、nボルト入力ではnボルトが出力されます。ゼロに切り替えるとオン/オフすると、ReLUとまったく同じグラフが得られます。多数の加重和の加重和(ドット積)は、依然として線形システムです。特定の入力に対して、ReLUスイッチは個別にオンまたはオフになります。...の重み付き合計のさまざまな重み付き合計がスイッチによって接続されているため、入力から出力への特定の線形投影が行われます。特定の入力ニューロンと特定の出力ニューロンに対して、実際には単一の有効な加重合計に要約できる加重合計の複合システムがあります。ReLUは状態をゼロに切り替えるため、入力が徐々に変化しても出力に突然の不連続性はありません。

FFTやWalsh Hadamard変換のような他の数値的に効率的な加重和(ドット積)アルゴリズムがあります。これらをReLUベースのニューラルネットワークに組み込むことができず、計算ゲインの恩恵を受けることができない理由はありません。(例:フィルターバンクニューラルネットワークの修正。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.