深い畳み込みニューラルネットワークでの事前トレーニング？

33

深い畳み込みニューラルネットワークの事前トレーニングに関する文献を見たことがありますか？オートエンコーダーまたは制限付きボルトマンマシンで、教師なしの事前トレーニングを見たことがあります。

— RockTheStar
ソース

39

これがあなたの質問に正確に答えているかどうかはわかりませんが、私はあなたが人々を事前訓練していない理由を理解しています（私はこれを教師なしの事前訓練の意味で）conv netsは純粋に監視された訓練にさまざまな革新があったからです教師なしの事前トレーニングが不要になりました（今のところ、将来発生する問題や問題を誰が知っているのでしょうか？）

主な技術革新の1つは、シグモイド（シグモイド、tanh）アクティベーションユニットから遠ざかることでした。これは、ほぼ平坦な曲率の領域を飽和/持つことができ、そのため非常に小さな勾配が後方に伝播するため、学習はすべての実用的な意図で完全に停止しないとは限りませんと目的。Glorot、Bordes、Bengioの記事Deep Sparse Rectifier Neural Networksは、従来のS字型ユニットの代わりに、活性化関数として整流線形ユニット（ReLU）を使用しました。ReLUの形式は次のとおりです：。それらは無制限であり、正の部分では一定の勾配1を持っていることに注意してください。 $f(x) = \max(0, x)$

Glorot、Bordes、およびBengioの記事では、Conv Netではなく多層パーセプトロンにReLUを使用しました。前回の記事では、 JarretやYann LeCunのNYUグループのその他の人によるオブジェクト認識に最適なマルチステージアーキテクチャは、S字型ユニットの整流非線形性を使用していたため、両方の記事で、非線形性の修正を使用することで、純粋に教師ありの方法と教師なしの事前学習済みの方法のギャップの多くを埋めるように見えることが観察されました。 $f(x) = |\tanh(x)|$

もう1つの革新は、ディープネットワークの初期化をはるかに改善したことです。ネットワークのレイヤー全体で分散を標準化するという考え方を使用して、長年にわたって優れた経験則が確立されています。まず、最も人気のあるものの一つがGlorotとBengioでいたトレーニングディープフィードフォワードネットワークの難しさを理解する線形活性化仮説の下で深いネットを初期化する方法を提供し、後で探求とディープの中へ整流器をGlorotおよびBengioの重みの初期化を修正して非線形性を修正するMicrosoft Researchチームメンバーのグループによる。重量の初期化は、非常に深いネットにとっては大きな問題です。30層の変換ネットでは、MSRウェイトの初期化はGlorotウェイトの初期化よりもはるかに優れたパフォーマンスを発揮しました。Glorotの論文は2010年に、MSRの論文は2015年に発表されたことに留意してください。

Alex Krizhevsky、Ilya Sutskever、およびGeoff Hintonによる論文「Deep Convolutional Neural NetworksによるImageNet分類」が、convネットにReLUを最初に使用したかどうかはわかりませんが、最大の影響がありました。本書では、ReLU convネットが非ReLU convネットよりも低いトレーニングエラー率を達成できることを示すCIFAR-10グラフの1つから明らかなように、convネットのReLUが学習を高速化することがわかります。これらのReLUは、勾配/飽和S字型の問題に悩まされることはなく、より深いネットをトレーニングするために使用できます。他の大きな革新の1つは、ドロップアウトトレーニング、確率的ノイズインジェクション、またはモデルの平均化手法（視点によって異なります）の使用です。これにより、オーバーフィットせずに、より深くより大きなニューラルネットワークをより長くトレーニングできます。

コンバージョンネットの革新は猛烈なペースで続き、ReLU（またはMicrosoft ResearchのPReLUのような変更）、ドロップアウト、および純粋に教師付きトレーニング（SGD + Momentum、おそらくRMSPropやADAGradのような適応学習率テクニックを使用するほとんどすべての方法））。

そのため、現在のところ、トップパフォーマンスのコンバージョンネットの多くは、純粋に監視された性質のものであるようです。これは、教師なしの事前トレーニングまたは教師なしの手法の使用が将来重要ではなくなる可能性があるということではありません。しかし、教師付きトレーニングを使用するだけで、非常に豊富なデータセットで、信じられないほど深いコンバージョンネットがトレーニングされ、人間レベルのパフォーマンスに匹敵するか、それを上回りました。実際、ImageNet 2015コンテストへの最新のMicrosoft Researchの提出物には150層あったと思います。それはタイプミスではありません。150。

convネットに教師なし事前トレーニングを使用する場合は、convネットの「標準」の教師ありトレーニングがうまく機能しないタスクを見つけて、教師なしプリトレーニングを試してみることをお勧めします。

自然言語モデリングとは異なり、画像データに関しては、対応する監視タスクを支援する監視なしタスクを見つけるのは難しいようです。しかし、インターネットを十分に見回すと、ディープラーニングの先駆者（ヨシュアベンジオ、ヤンレクンなど）が、教師なし学習の重要性について語っています。

— インディーAI
ソース

1

ConvNetに関するスタンフォード大学のチュートリアルで、畳み込みニューラルネットワークの事前トレーニングがあることを確認しました。こちらがリンクです：cs231n.github.io/transfer-learningこれらは違いますか？彼らは実際に同じことをしているからですよね？

— リカ

2

返信が遅くなってすみません。転移学習はたくさん行われます。これは、ゼロからのトレーニングという面倒なタスクを回避するために使用され、代わりにImageNetのような大規模なデータセットでトレーニングされた機能を使用します。私は答えを更新して、最近では教師なしの事前トレーニングの多くが表示されないことを指定しました。これは、転移学習とは異なります。コメントありがとうございます。

— インディーAI

+1。非常に良い答えです。私が欠けているのは、あなたが言っていること（すなわち、事前訓練する必要がない）が畳み込みニューラルネットワーク（そうであれば、なぜですか？）または非たたみ込み。

— アメーバは、モニカを

14

上記の回答から理解できるように、事前トレーニングは複数のことが起こったときに「廃止」されました。ただし、それについての理解を深めたいと思います。

かなり前の2010年、誰もが事前トレーニングを気にしました。これは、私が育てたとは思わなかった主題に関する素晴らしい論文です。
Alex Krizhevsky、Ilya Sutskever、およびGeoff Hintonがイメージネットペーパーを発表する少し前に、人々はまだ機能が重要であると信じていましたが、それらの機能を製造するための教師なし学習、さらには自己学習にさえ注力していました。
理由を理解するのは難しくありません。当時のニューラルネットワークの構成要素はそれほど堅牢ではなく、有用な機能に非常にゆっくりと収束していました。何度も見事に失敗しました。SGDの適切な初期化を取得できる十分なデータがある場合は、事前トレーニングが役立ちました。
reluが育ったとき、ネットワークはより速く収束しました。漏れのある解決策と最新のソリューションが登場したとき、実行可能な結果に収束することになると、ニューラルネットはより堅牢なマシンになりました。この才能のあるGoogleが書いた優れたニューラルネットワークデモをプレイすることを強くお勧めします。
要点を説明すると、ディープラーニングでは何らかの形の事前トレーニングが重要ではないということではありません。最先端の結果を取得するには、データの前処理（ZCAなど）を実行し、初期重みを適切に選択する必要があります。これは、主題に関する非常に優れた論文です。

そのため、事前トレーニングの形式は前処理と重みの初期化に変更されましたが、機能は維持され、よりエレガントになりました。

最後に、機械学習は非常にファッショナブルです。Andrew Ngのように、教師なしで独学で学ぶことが将来的に支配的になると個人的に賭けているので、これを宗教にしないでください:)

— ラダール
ソース

13

いくつかの論文がありますが、オートエンコーダーまたはRBMほどではありません。その理由はNNのタイムラインだと思います。Stacked RBMとautoencoderは、それぞれ2006年と2007年に導入されました。2009年にReLUを採用した後、教師なし学習は部分的に放棄されます（直接教師あり学習で学習するのに十分なデータがある場合）。Convolution net（またはLeNet）は1989年に発明されましたが、ReLUによる直接監視学習の普及後の2012年まで、深い構造として訓練することはできませんでした。そのため、研究者は、直接教師付き学習を使用することにより、主にそれを訓練したと思います。

— yasin.yazici
ソース

ディープコンボリューショナルニューラルネットワークには事前トレーニングがまだないことに同意しますか？

— RockTheStar

4

@RockTheStarいいえ、前の2つほどではありません。research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdfは、この調査で使用しています。これは短い引用です。「事前トレーニングが役に立たなかったTIMITのCNNを除き、事前トレーニングはDNNとCNNの両方を改善します。一般に、CNNに事前トレーニングを使用する相対的な改善は、DNNのそれよりも小さいです。」

— yasin.yazici