「残差マッピング」とは何ですか？

Heらによる最近の論文。（画像認識のためのディープ残差学習、Microsoft Research、2015年）は、最大4096のレイヤー（ニューロンではない！）を使用すると主張しています。

紙を理解しようとしているのですが、「残差」という言葉に出会いました。

誰かが私にこの場合の残差の意味を説明/定義してくれませんか？

例

参照されていない関数を学習する代わりに、層の入力を参照して残差関数を学習するように、層を明示的に再構成します。

[...]

いくつかの積み重ねられた各層が望ましい基本的なマッピングに直接適合することを期待する代わりに、これらの層を残余のマッピングに明示的に適合させます。正式には、望ましい基礎となるマッピングを $\mathcal{H}(x)$ 、積み重ねられた非線形層を別のマッピングに適合させます $\mathcal{F}(x) := \mathcal{H}(x)−x$ 。元のマッピングはに再キャストされます $\mathcal{F}(x)+x$ 。残余マッピングを最適化する方が、元の参照されていないマッピングを最適化するよりも簡単であると仮定します

machine-learning neural-network

— マーティン・トーマ
ソース

これは言語の問題である可能性があります。この文脈でのドイツ語の「残差」の翻訳を知っていれば、私も喜んでいます。

— Martin Thoma

それは $F(x)$ ; マッピングの違い $H(x)$ とその入力 $x$ 。数学では一般的な用語です（DE）。

— エムレ
ソース

これは正しくありません。数学で見られるような「残差」という用語は、この論文で述べられている残差マッピングと同じではありません。リストしたリンクごとに、f（x）= bの場合、残差は差bf（x）であることがわかります。残差マッピングは、定義に従って、入力xと関数H（x）の出力の差です。

— シュプラ