ディープネットワークの貪欲なレイヤー単位のトレーニングは、トレーニングを成功させるために必要ですか、それとも確率的勾配降下で十分ですか?


8

逆伝播のみを使用して(事前トレーニングなしで)最先端の結果を達成することは可能ですか?

それとも、すべての記録を破るアプローチが何らかの形の事前トレーニングを使用するようにですか?

逆伝播だけで十分ですか?

回答:


8

事前トレーニングは不要です。その目的は、多数の層が使用されている場合の収束を容易にするために、ネットワークの重みの適切な初期化を見つけることでした。現在、ReLUドロップアウトバッチ正規化があります。これらはすべて、ディープニューラルネットワークのトレーニングの問題の解決に貢献しています。上記のリンクされたreddit投稿からの引用(Galaxy Zoo Kaggleチャレンジ勝者による):

2006年頃に始まった「事前トレーニングの時代」は10代前半に終わり、人々が整流線形ユニット(ReLU)を使い始め、その後ドロップアウトしましたが、事前トレーニングはもはや有益ではないことがわかりましたネットワークのタイプ。

ReLU論文(上記リンク)から:

深い整流器ネットワークは、教師なしの事前トレーニングを必要とせずに最高のパフォーマンスに到達できます

そうは言っても、これはもはや必要ではありませんこのホワイトペーパーに示すように、監視されていない(ラベル付けされていない)サンプルが多すぎる場合には、パフォーマンスが向上する可能性があります。


これは良い答えですが、Redditスレッドではなく、学術文献を見つけることができればさらに良いと思います。
Sycoraxによると、モニカは2016

上記の3つで十分ではありませんか?それは最初のものの要約でさえ書かれています。
rcpinto

改定は、まさに私が望んでいた「事前訓練はもはや必要ない」という主張に対する一種の支持である。私たちのウェブサイトに貢献していただきありがとうございます。
Sycoraxは、モニカを元に戻す2016

1
これが関連する質問です:事前トレーニングはドロップアウトと同じように(ある意味で)実行していますか?

この答えは非常に間違っているか、せいぜい誤解を招くだけです。BN、ドロップアウトなどは、主に事前トレーニングに直交する役割を果たします。後者では、伝達可能な特徴学習が可能になります。例:分類器ニューラルネットの前に入力に配置されたノイズ除去、次元削減、欠損データ再構築時系列オートエンコーダのエンコーダ。分類器は、オートエンコーダーの特徴とは非常に異なる差別的な特徴を学習します。
OverLordGoldDragon
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.