あなたの質問に明確な答えがあるとは思いません。しかし、私は従来の知恵が次のように行くと思う:
基本的に、学習アルゴリズムの仮説空間が拡大するにつれて、アルゴリズムはより豊かな構造を学習できます。しかし同時に、アルゴリズムは過剰適合しやすくなり、一般化エラーが増加する可能性があります。
したがって、最終的に、任意のデータセットについて、データの実際の構造を学習するのに十分な容量を備えた最小限のモデルを使用することをお勧めします。しかし、これは非常に手作業のアドバイスです。通常、「データの実際の構造」は不明であり、多くの場合、候補モデルの容量でさえ漠然としか理解されていないからです。
ニューラルネットワークに関しては、仮説空間のサイズはパラメーターの数によって制御されます。そして、固定された数のパラメーター(または固定された大きさ)で、深くなるほど、モデルはより豊富な構造をキャプチャできるようになります(このペーパーなど)。
これは、より少ないパラメーターでより深いモデルの成功を部分的に説明する可能性があります:VGGNet(2014年から)は、〜140Mパラメーターの16層を持ち、ResNet(2015年から)は152層でありながら、〜2Mパラメーターのみです
(側面として、小さなモデルは計算的に訓練が容易かもしれませんが、深さは実際には訓練を複雑にするため、それ自体が主要な要因だとは思いません)
この傾向(より深い、より少ないパラメーター)は、主に視覚関連のタスクと畳み込みネットワークに存在し、これはドメイン固有の説明を必要とすることに注意してください。それで、別の視点があります:
畳み込み層の各「ニューロン」には「受容野」があります。これは、各出力に影響を与える入力のサイズと形状です。直感的に、各カーネルは、近くの入力間のある種の関係をキャプチャします。また、小さなカーネル(一般的で望ましい)には受容フィールドが小さいため、ローカル関係に関する情報のみを提供できます。
しかし、深くなるにつれて、以前の層に関する各ニューロンの受容野が大きくなります。そのため、深いレイヤーは、グローバルなセマンティックな意味と抽象的な詳細(オブジェクトの関係の関係の関係)を備えた機能を提供できますが、小さなカーネルのみを使用します(ネットワークが学習する関係を正規化し、収束して一般化するのに役立ちます)。
そのため、コンピュータービジョンにおける深い畳み込みネットワークの有用性は、画像とビデオの空間構造によって部分的に説明される場合があります。時間が経てば、さまざまなタイプの問題、または非畳み込みアーキテクチャの場合、実際には深度がうまく機能しないことがわかります。