タグ付けされた質問 「activation-function」

2
ReLUがアクティベーション機能として使用されるのはなぜですか?
アクティベーション関数はw * x + b、ニューラルネットワークのタイプの線形出力に非線形性を導入するために使用されます。 シグモイドのような活性化機能について、私は直感的に理解することができます。 バックプロパゲーション中に死んだニューロンを回避するReLUの利点を理解しています。しかし、出力が線形の場合にReLUがアクティベーション関数として使用される理由を理解できませんか? アクティベーション関数であることのすべてのポイントは、非線形性を導入しない場合、無効になりませんか?

1
ReLUが他のアクティベーション機能より優れている理由
ここでの答えは、-のsigmoidような活性化関数にあった勾配の消失と爆発を指しますが、Relu不利な点があり、それはその期待値です。の出力に制限はないReluため、その期待値はゼロではありません。Reluそれtanhが機械学習の専門家の間で最も人気があった前の時代を覚えていsigmoidます。その理由は、の期待値がtanhゼロに等しく、それがより深い層での学習がニューラルネットでより速くなるのを助けたからです。Reluこの特性はありませんが、その派生的な優位性を脇に置いておくとなぜうまく機能するのでしょうか。さらに、派生物も影響を受ける可能性があると思います。アクティベーション(の出力Relu)更新ルールの計算に関与しています。

2
GELUアクティベーションとは何ですか?
GELU(x)= xP(X≤x)=xΦ(x)として方程式を述べる GELU(Gaussian Linear Linear Unit)を使用するBERTペーパーを調べました。0.5x (1 + tanh [\ sqrt {2 /π}(x + 0.044715x ^ 3)])に 相当します。方程式を単純化し、どのように承認されたかを説明してください。GELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)])

1
一般的なニューラルネットワークの活性化関数の違い
ニューラルネットワークの活性化関数の種類を研究しました。関数自体は非常に単純ですが、アプリケーションの違いは完全には明らかではありません。 目的のバイナリ/連続出力に応じて、論理型関数と線形型関数を区別することは合理的ですが、シグモイド関数の単純な線形関数に対する利点は何ですか? たとえば、ReLUを理解するのは特に困難です。たとえば、正の入力の場合は線形のように動作し、負の場合は「フラット」な関数を使用するポイントは何ですか?この背後にある直感は何ですか?それとも、単なる単純な試行錯誤のものなのでしょうか?

3
ケラスのシーケンスDNNでアクティベーション関数としてLeakyReluを使用するにはどうすればよいですか?
ケラスのシーケンスDNNでアクティベーション関数としてLeakyReluをどのように使用しますか?次のようなものを書きたい場合: model = Sequential() model.add(Dense(90, activation='LeakyRelu')) 解決策は何ですか?LeakyReluをReluと同じように配置しますか? 2番目の質問は、LeakyReluのパラメーターを調整するための最も一般的な設定は何ですか?Reluよりパフォーマンスが大幅に向上するのはいつですか?

4
tanhの入力に係数を乗算することにより、消失勾配問題を解決できますか?
私の理解では、各活性化関数の勾配が1未満のときにニューラルネットワークをトレーニングすると消失勾配問題が発生し、補正が多くの層で逆伝播すると、これらの勾配の積は非常に小さくなります。 整流器活性化関数のような他の解決策があることを知っていますが、私の質問は、よく使用されるtanh関数のバリエーションを単純に使用できない理由です。 アクティベーション機能が次の形式の場合 tanh(nx)tanh⁡(nx)\tanh(n x) 次に、可能な最大勾配は nnn。したがって、n>1n>1n > 1勾配の積が必ず 0になるケースはなくなりました。 このようなアクティベーション機能が失敗する理由は何かありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.