LangfordとShapireのチームからさらに多くのことを取り上げようとする新しい論文の可能性:Boosting Theoryを使用したDeep ResNetブロックの逐次学習
関心のある部分は次のとおりです(セクション3を参照):
主な違いは、ブースティングは推定された仮説の集合であるのに対し、ResNetは推定された特徴表現の集合です。この問題を解決するために、各残差ブロックの上に補助線形分類器を導入して、仮説モジュールを構築します。正式には、
仮説モジュールはとして定義されていますΣTt = 0ft(gt(x ))wtO 、T(X ):= W T T G T(X )∈ Rot(x):=wTtgt(x)∈R
...
(ここで)ot(x)=∑t−1t′=0wTtft′(gt′(x))
このペーパーでは、ウィークモジュール分類子 の構築と、それがBoostResNetアルゴリズムとどのように統合されるかについて、さらに詳しく説明しています。ht(x)
この回答にもう少し詳細を追加すると、すべてのブースティングアルゴリズムは、[1](p 5、180、185 ...)の形式で記述できます。
FT(x):=∑t=0Tαtht(x)
ここで、は選択した場合の弱い仮説です。ブースティングアルゴリズムが異なると、とが異なる方法で生成されることに注意してください。httthαtαtht
たとえば、AdaBoost [1](p 5.)はを使用して、重み付き誤差を最小化しhtϵtαt=12log1−ϵtϵt
一方、勾配ブースティング設定[1](p 190.)では、を最大化するが選択され、選択されている(学習率など)ht∇L(Ft−1(x))⋅htαt>0
補題3.2の[2]のように、depth- ResNetの出力はであり、TF(x)
F(x)∝∑t=0Tht(x)
これにより、ブースティングと再ネットの関係が完成します。論文[2]は、補助線形層を追加して形式にすることを提案しています。FT(x):=∑Tt=0αtht(x)
[1] Robert E. SchapireおよびYoav Freund。2012.ブースティング:基盤とアルゴリズム。MITプレス。p
5、180、189 [2] Furong Huang、Jordan Ash、John Langford、Robert Schapire:ブースティング理論を使用したディープResNetブロックの逐次学習、ICML 2018