深い残余ネットワークはネットワークのアンサンブルとして見られるべきですか？

12

問題は、Deep Residual Networks（ResNets）のアーキテクチャについてです。5つのメイントラックすべてで「大規模視覚認識チャレンジ2015」（ILSVRC2015）で1位を獲得したモデル：

ImageNet分類：「超深層」（引用Yann）152層ネット

ImageNet検出：2番目より16％優れています

ImageNetローカリゼーション：2番目より27％優れています

COCO検出：2回目より11％良好

COCOセグメンテーション：2番目より12％優れている

出典： MSRA @ ILSVRC＆COCO 2015コンテスト（プレゼンテーション、2番目のスライド）

この作業については、次の記事で説明しています。

画像認識のためのディープ残差学習（2015、PDF）

マイクロソフトリサーチチーム（ResNetの開発者：Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun）の記事：

「深い残余ネットワークにおけるアイデンティティマッピング（2016）」

深度が重要な役割を果たすことを述べる：

「私たちはこれらの結果を、シンプルですが本質的なコンセプトによって取得します—より深くします。これらの結果は、奥行きの限界を押し広げる可能性を示しています。」

それは彼らのプレゼンテーションでも強調されています（より深い-より良い）：

-「モデルが深いほど、トレーニングエラーが大きくなることはありません。」
-「より深いResNetの方がトレーニングエラーが少なく、テストエラーも少ない。」
-「より深いResNetの方がエラーが少ない。」
-「すべてがより深い機能からより多くの利益を得る–累積的な利益！」
-「より深い方が良い」

以下は、34層残差の構造です（参照用）。

しかし、最近私は、それらが指数アンサンブルであることを示す残差ネットワークの新しい解釈を導入する1つの理論を発見しました。

残余ネットワークは、比較的浅いネットワークの指数関数的集合です（2016）

ディープレスネットは、さまざまな深度で出力がプールされる多くの浅いネットワークとして説明されています。記事に画像があります。説明付きで添付します：

残余ネットワークは従来、式（1）の自然な表現である（a）として示されます。この定式化を方程式（6）に展開すると、3ブロックの残差ネットワーク（b）の解明されたビューが得られます。このビューから、残差ネットワークには入力と出力を接続するO（2 ^ n）暗黙パスがあり、ブロックを追加するとパスの数が2倍になることは明らかです。

記事の終わりにそれは述べられています：

それは深さではなく、残差ネットワークを強くするアンサンブルです。残りのネットワークは、ネットワークの深さではなく、ネットワークの多重度の限界を押し上げます。我々の提案された解明された見解と病変研究は、残余ネットワークが指数関数的に多くのネットワークの潜在的なアンサンブルであることを示しています。勾配に寄与するパスのほとんどがネットワークの全体的な深さに比べて非常に短い場合、深さの増加だけでは、残余ネットワークの主要な特徴にはなりません。パスの数に関するネットワークの表現可能性である多重度が重要な役割を果たすと私たちは今考えています。

しかし、それは確認または反駁できる最近の理論にすぎません。一部の理論が反駁され、記事が取り下げられることが時々起こります。

結局、深いResNetをアンサンブルと考える必要がありますか？アンサンブルまたは深度により、残存ネットワークが非常に強くなりますか？開発者自身でさえ、自分のモデルが何を表しているのか、そしてその中の主要な概念は何であるかをまったく認識していない可能性はありますか？

— エルバ・アイトバエフ
ソース

4

魔神が3つの願いを叶えると想像してください。あなたは野心的なディープラーニング研究者なので、最初の願いは、すぐにラップトップに表示されるImage Net用の1000レイヤーNNの完璧なソリューションです。

魔神によって引き起こされた解決策は、それが集団としてどのように解釈されるかもしれないという直観を与えませんが、猫と犬を区別するには1000層の抽象化が必要だと本当に信じていますか？「アンサンブル論文」の作者が彼ら自身に言及しているように、これは生物学的システムには明らかに当てはまりません。

もちろん、ソリューションをネットワークのアンサンブルに分解するという2番目の希望を無駄にすることもできます。そして、魔神が義務を負うことができると確信しています。その理由は、深いネットワークの力の一部が常にアンサンブル効果からもたらされるからです。

したがって、ディープネットワークをトレーニングするための2つの非常に成功したトリック、ドロップアウトネットワークと残差ネットワークが、暗黙のアンサンブルとしてすぐに解釈されることは当然のことです。したがって、「深さではなく、アンサンブル」は、私を誤った二分法のように感じます。人間の正確さで画像を分類するには、何百または何千もの抽象レベルが必要であると正直に信じている場合にのみ、実際に言うでしょう。

最後の願いを何か他のもの、おそらくピナコラーダに使うことをお勧めします。

— ブラインドカンフーマスター
ソース

0

2つの入力ベクトルの余弦距離は、バニラタンネットワークの場合のように、指数レートではなく多項式レートで固定小数点に収束するため、tanhなどの多くの非線形性のランダム残差ネットワークはカオスのエッジに存在します。したがって、典型的な残余ネットワークは、深さのある安定したカオス境界をゆっくりと横切り、多くの層でこの境界の周りをホバリングします。基本的に、入力空間の形状を「非常に迅速に」「忘れる」ことはありません。したがって、それらをかなり深くしても、バニラネットワークの方がうまく機能します。

残差ネットワークでの情報の伝播に関する詳細情報- 平均フィールド残余ネットワーク：カオスのエッジ

— スネハル・レディ
ソース