残差ネットワークは勾配ブースティングに関連していますか?


11

最近、Residual Neural Netが登場しました。各レイヤーは、計算モジュールと、i番目のレイヤーの出力などのレイヤーへの入力を保持するショートカット接続で構成されています: ネットワークは、残差の特徴を抽出し、より深い深度を可能にすると同時に、消失する勾配の問題に対してより堅牢になり、最先端のパフォーマンスを実現します。y i + 1 = c i + y ici

yi+1=ci+yi

機械学習の世界で非常に強力な技術である勾配ブースティングを掘り下げましたが、これも損失の残差に対して勾配の最適化の形式を実行しているようです。何らかの形の類似性を確認することは困難です。

私はそれらが類似しているが同じではないことを知っています -私が気付いた1つの大きな違いは、残差ネットがネットワーク全体を最適化する一方で、勾配ブースティングが加法項で最適化を実行することです。

彼が元の論文で彼らの動機の一部としてこれに言及しているのを見なかった。だから私はこのトピックに関するあなたの洞察は何であるかと思っていて、あなたが持っている興味深いリソースを共有するようにお願いしました。

ありがとうございました。

回答:


7

LangfordとShapireのチームからさらに多くのことを取り上げようとする新しい論文の可能性:Boosting Theoryを使用したDeep ResNetブロックの逐次学習

関心のある部分は次のとおりです(セクション3を参照):

主な違いは、ブースティングは推定された仮説の集合であるのに対し、ResNetは推定された特徴表現の集合です。この問題を解決するために、各残差ブロックの上に補助線形分類器を導入して、仮説モジュールを構築します。正式には、 仮説モジュールはとして定義されていますt=0Tft(gt(x))wtO 、TX = W T T G TX R

ot(x):=wtTgt(x)R

...

(ここで)ot(x)=t=0t1wtTft(gt(x))

このペーパーでは、ウィークモジュール分類子 の構築と、それがBoostResNetアルゴリズムとどのように統合されるかについて、さらに詳しく説明してます。ht(x)


この回答にもう少し詳細を追加すると、すべてのブースティングアルゴリズムは、[1](p 5、180、185 ...)の形式で記述できます。

FT(x):=t=0Tαtht(x)

ここで、は選択した場合の弱い仮説です。ブースティングアルゴリズムが異なると、とが異なる方法で生成されることに注意してください。httthαtαtht

たとえば、AdaBoost [1](p 5.)はを使用して、重み付き誤差を最小化しhtϵtαt=12log1ϵtϵt

一方、勾配ブースティング設定[1](p 190.)では、を最大化するが選択され、選択されている(学習率など)htL(Ft1(x))htαt>0

補題3.2の[2]のように、depth- ResNetの出力はであり、TF(x)

F(x)t=0Tht(x)

これにより、ブースティングと再ネットの関係が完成します。論文[2]は、補助線形層を追加して形式にすることを提案しています。FT(x):=t=0Tαtht(x)

[1] Robert E. SchapireおよびYoav Freund。2012.ブースティング:基盤とアルゴリズム。MITプレス。p
5、180、189 [2] Furong Huang、Jordan Ash、John Langford、Robert Schapire:ブースティング理論を使用したディープResNetブロックの逐次学習、ICML 2018


4

私自身の質問への回答:Deep Residual Networksが実際に浅いネットワークのアンサンブルであることを調査して証明する注目すべき論文を見つけました。

別の編集、この問題を少し理解した後、私はResnetsを「機能ブースト」を学ぶ方法として考えます。残余接続は、ブースティングを実行しますが、目的ではなく、実際には次のレイヤーの出力機能を実行します。つまり、実際には関連していますが、従来の勾配ブースティングではなく、実際には「勾配機能ブースティング」です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.