ReLUレイヤーは浅いネットワークでうまく機能しますか？

7

私は現在5層ニューラルネットワークのトレーニングに取り組んでおり、tanh層でいくつかの問題が発生したため、ReLU層を試してみたいと思います。しかし、ReLUレイヤーではさらに悪化することがわかりました。それは、最良のパラメーターが見つからなかったためか、単にReLUがディープネットワークにのみ適しているためか、と思っています。

ありがとう！

neural-networks

— username123
ソース

1

DNNの文献から知る限り、ReLuネットワークは、特にディープネットワークの場合、最も支配的なアクティベーションです。トレーニング中に勾配の問題が消失/爆発することはほとんどないためです。

— チャーリーパーカー

2

5層のニューラルネットワークは、通常、浅いとは見なされません。浅いは通常、シングルレイヤー用に予約されています。

— チャーリーパーカー

6

アクティベーション関数を変更すると、初期化メソッドから正規化パラメーターまで、ユーザーが行った他のすべての構成選択と相互作用します。ネットワークを再度調整する必要があります。

— シコラックスはモニカを復活させると言う
ソース

3

シグモイドまたはtanhをReLUで置き換える場合、通常は次のことも行う必要があります。

学習率を大幅に、通常は1/100ずつ減らします。これは、ReLUの出力が際限なく増大し、高い学習率に対する耐性がはるかに低いためです。
パラメーターの数（つまり、重み）を約2倍以上増やします。これは死んだreluの問題が原因です。
LRがはるかに低いため、エポックの数を増やす必要がある場合があります。
通常、Grorot initやHe initなどのランダム初期化よりも優れた初期化方法が必要になります。多くの場合、これがなくても収束は遅くなります。
パラメータの数が増え、エポックの数が増えるため、ドロップアウトなどのより強力な正則化も必要になる可能性があります。

つまり、要約すると、シグモイド/タンをReLUと交換することほど簡単ではありません。ReLUを追加したらすぐに、他の影響を補正するために上記の変更が必要になります。

— Shital Shah
ソース

おそらく、より多くのニューラルネットワーク層に加えて、より多くの入力データが必要になるでしょうか？例えば：この男は浅い網（2層）とのコンバージェンスの問題を抱えている： stats.stackexchange.com/questions/284203/...

— ピーターTeohさん

2

ReLU、つまり整流線形ユニットとtanhはどちらも、神経層に適用される非線形活性化関数です。どちらにも独自の重要性があります。それは私たちが解決したい手元の問題と私たちが望む出力にのみ依存します。ReLUの計算量が少ないため、人はtanhよりもReLUを使用することを好む場合があります。

ディープラーニングの研究を始めたとき、なぜ非線形ではなく線形活性化関数を使用しないのかという疑問がありました。答えは、出力は入力の線形結合であり、非表示レイヤーは効果がないため、非表示レイヤーは重要な機能を学習できません。

たとえば、出力を（-1,1）内に収めたい場合は、tanhが必要です。（0,1）間の出力が必要な場合は、シグモイド関数を使用します。以下の場合にReLUは最大{0、X}与える .Thereを漏洩ReLUような他の多くの活性化関数です。

ここで、より適切な結果を得るために適切なアクティベーション関数を選択するために、データサイエンスの世界ではチューニングと呼ばれる実験と実践の問題にすぎません。

あなたのケースでは、チューニングするとして知られているあなたのパラメータが必要な場合があり 、パラメータのチューニングのような隠れた層のニューロンの数、層数などを

ReLUレイヤーは浅いネットワークでうまく機能しますか？

はい、もちろんReLU層は浅いネットワークに適しています。

— 鉄人
ソース

0

それは、最良のパラメーターが見つからなかったためか、単にReLUがディープネットワークにのみ適しているためか、と思っています。

私はあなたがパラメータの代わりにハイパーパラメータを意味していると安全に想定できると信じています。

5つの隠れ層を持つニューラルネットワークは浅くありません。深く考えることができます。

「最適な」ハイパーパラメータのハイパーパラメータ空間検索は、終わりのない作業です。最もよく言うと、ネットワークがグローバルな最小値を達成できるようにするハイパーパラメーターを意味します。

Sycoraxに同意します。アクティベーション機能を変更したら、ネットワークを再度調整する必要があります。通常、同じタスクでハイパーパラメータの多くの異なる構成で同等のパフォーマンスを実現できます。

— 素朴な
ソース