深い畳み込みニューラルネットワークの事前トレーニングに関する文献を見たことがありますか?オートエンコーダーまたは制限付きボルトマンマシンで、教師なしの事前トレーニングを見たことがあります。
深い畳み込みニューラルネットワークの事前トレーニングに関する文献を見たことがありますか?オートエンコーダーまたは制限付きボルトマンマシンで、教師なしの事前トレーニングを見たことがあります。
回答:
これがあなたの質問に正確に答えているかどうかはわかりませんが、私はあなたが人々を事前訓練していない理由を理解しています(私はこれを教師なしの事前訓練の意味で)conv netsは純粋に監視された訓練にさまざまな革新があったからです教師なしの事前トレーニングが不要になりました(今のところ、将来発生する問題や問題を誰が知っているのでしょうか?)
主な技術革新の1つは、シグモイド(シグモイド、tanh)アクティベーションユニットから遠ざかることでした。これは、ほぼ平坦な曲率の領域を飽和/持つことができ、そのため非常に小さな勾配が後方に伝播するため、学習はすべての実用的な意図で完全に停止しないとは限りませんと目的。Glorot、Bordes、Bengioの記事Deep Sparse Rectifier Neural Networksは、従来のS字型ユニットの代わりに、活性化関数として整流線形ユニット(ReLU)を使用しました。ReLUの形式は次のとおりです:。それらは無制限であり、正の部分では一定の勾配1を持っていることに注意してください。
Glorot、Bordes、およびBengioの記事では、Conv Netではなく多層パーセプトロンにReLUを使用しました。前回の記事では、 JarretやYann LeCunのNYUグループのその他の人によるオブジェクト認識に最適なマルチステージアーキテクチャは、S字型ユニットの整流非線形性を使用していたため、両方の記事で、非線形性の修正を使用することで、純粋に教師ありの方法と教師なしの事前学習済みの方法のギャップの多くを埋めるように見えることが観察されました。
もう1つの革新は、ディープネットワークの初期化をはるかに改善したことです。ネットワークのレイヤー全体で分散を標準化するという考え方を使用して、長年にわたって優れた経験則が確立されています。まず、最も人気のあるものの一つがGlorotとBengioでいたトレーニングディープフィードフォワードネットワークの難しさを理解する線形活性化仮説の下で深いネットを初期化する方法を提供し、後で探求とディープの中へ整流器をGlorotおよびBengioの重みの初期化を修正して非線形性を修正するMicrosoft Researchチームメンバーのグループによる。重量の初期化は、非常に深いネットにとっては大きな問題です。30層の変換ネットでは、MSRウェイトの初期化はGlorotウェイトの初期化よりもはるかに優れたパフォーマンスを発揮しました。Glorotの論文は2010年に、MSRの論文は2015年に発表されたことに留意してください。
Alex Krizhevsky、Ilya Sutskever、およびGeoff Hintonによる論文「Deep Convolutional Neural NetworksによるImageNet分類」が、convネットにReLUを最初に使用したかどうかはわかりませんが、最大の影響がありました。本書では、ReLU convネットが非ReLU convネットよりも低いトレーニングエラー率を達成できることを示すCIFAR-10グラフの1つから明らかなように、convネットのReLUが学習を高速化することがわかります。これらのReLUは、勾配/飽和S字型の問題に悩まされることはなく、より深いネットをトレーニングするために使用できます。他の大きな革新の1つは、ドロップアウトトレーニング、確率的ノイズインジェクション、またはモデルの平均化手法(視点によって異なります)の使用です。これにより、オーバーフィットせずに、より深くより大きなニューラルネットワークをより長くトレーニングできます。
コンバージョンネットの革新は猛烈なペースで続き、ReLU(またはMicrosoft ResearchのPReLUのような変更)、ドロップアウト、および純粋に教師付きトレーニング(SGD + Momentum、おそらくRMSPropやADAGradのような適応学習率テクニックを使用するほとんどすべての方法) )。
そのため、現在のところ、トップパフォーマンスのコンバージョンネットの多くは、純粋に監視された性質のものであるようです。これは、教師なしの事前トレーニングまたは教師なしの手法の使用が将来重要ではなくなる可能性があるということではありません。しかし、教師付きトレーニングを使用するだけで、非常に豊富なデータセットで、信じられないほど深いコンバージョンネットがトレーニングされ、人間レベルのパフォーマンスに匹敵するか、それを上回りました。実際、ImageNet 2015コンテストへの最新のMicrosoft Researchの提出物には150層あったと思います。それはタイプミスではありません。150。
convネットに教師なし事前トレーニングを使用する場合は、convネットの「標準」の教師ありトレーニングがうまく機能しないタスクを見つけて、教師なしプリトレーニングを試してみることをお勧めします。
自然言語モデリングとは異なり、画像データに関しては、対応する監視タスクを支援する監視なしタスクを見つけるのは難しいようです。しかし、インターネットを十分に見回すと、ディープラーニングの先駆者(ヨシュアベンジオ、ヤンレクンなど)が、教師なし学習の重要性について語っています。
上記の回答から理解できるように、事前トレーニングは複数のことが起こったときに「廃止」されました。ただし、それについての理解を深めたいと思います。
そのため、事前トレーニングの形式は前処理と重みの初期化に変更されましたが、機能は維持され、よりエレガントになりました。
最後に、機械学習は非常にファッショナブルです。Andrew Ngのように、教師なしで独学で学ぶことが将来的に支配的になると個人的に賭けているので、これを宗教にしないでください:)
いくつかの論文がありますが、オートエンコーダーまたはRBMほどではありません。その理由はNNのタイムラインだと思います。Stacked RBMとautoencoderは、それぞれ2006年と2007年に導入されました。2009年にReLUを採用した後、教師なし学習は部分的に放棄されます(直接教師あり学習で学習するのに十分なデータがある場合)。Convolution net(またはLeNet)は1989年に発明されましたが、ReLUによる直接監視学習の普及後の2012年まで、深い構造として訓練することはできませんでした。そのため、研究者は、直接教師付き学習を使用することにより、主にそれを訓練したと思います。