Heらによる最近の論文。(画像認識のためのディープ残差学習、Microsoft Research、2015年)は、最大4096のレイヤー(ニューロンではない!)を使用すると主張しています。
紙を理解しようとしているのですが、「残差」という言葉に出会いました。
誰かが私にこの場合の残差の意味を説明/定義してくれませんか?
例
参照されていない関数を学習する代わりに、層の入力を参照して残差関数を学習するように、層を明示的に再構成します。
[...]
いくつかの積み重ねられた各層が望ましい基本的なマッピングに直接適合することを期待する代わりに、これらの層を残余のマッピングに明示的に適合させます。正式には、望ましい基礎となるマッピングを、積み重ねられた非線形層を別のマッピングに適合させます 。元のマッピングはに再キャストされます。残余マッピングを最適化する方が、元の参照されていないマッピングを最適化するよりも簡単であると仮定します
これは言語の問題である可能性があります。この文脈でのドイツ語の「残差」の翻訳を知っていれば、私も喜んでいます。
—
Martin Thoma