バッチ正規化を廃止できるアクティベーション機能はありますか?


7

バッチの正規化を学びながら、適切なアクティベーション関数を使用して「勾配スケールの問題」を解決できないのかと考えていました。

データセット全体をスケーリングするのではなく、アクティベーション関数を遅延させてスケーリングし、それによって分散が確実に保持されるようにできないのでしょうか。


1
少し間違っていると思います。バッチの正規化ではなく、データの正規化について話しています。前者は前処理のステップです。
メディア

各レイヤーでの正規化を「自動的に」、または最初から正規化し、レイヤー全体でデータの形状を維持することについて話していました。
トーテム2018年

回答:


6

あなたが説明することは、NIPS 2017で発表された自己正規化ニューラルネットワークのコアであるスケーリング指数線形単位(SELU)によく似ています。

ここからの短い要約は次のとおりです。

入力の平均と分散が特定の範囲内にある場合、出力の平均と分散は、(1)その範囲でもあり、(2)アクティベーション関数を繰り返し適用した後、固定点に収束する必要があります。

redditの投稿コメントを確認することをお勧めします。それらを完全に理解したい場合は、arxivプレプリントの 90ページにわたる付録を先に進めることができます。

彼らが発表されたとき彼らは多くの注目を集めましたが、最近インターネットで誰も彼らについて話しているようには見えないので、彼らは期待に応えることはできなかったと思います


教科書の発行から半年後に出版されました。ニュースをフォローすることの重要性!詳細をありがとう。「誰も彼らについて話しているようには見えない」理由はありますか?
トーテム2018年

技術的な理由があるかどうかはわかりませんが、最近の「大学院生の降下」の実践により人々は懐疑的になり、壮観で一貫したSOTAの結果が得られない限り、採用をより困難にしています。
ncasas

私の経験は、eluあなたの最後の発言を裏付けています。そのパフォーマンスは、非常によく似ていてrelu、あまり良くも悪くもありませんが、遅いです。
Maxim

@ncasasの回答を見逃してしまいました。ありがとうございました。
トーテム2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.