回答:
一般に、機械学習における2種類の硬度結果を考えることができます。統計学習のコンテキストでの情報理論的硬度(つまり、学習に必要な例の最小数に下限を与える)とアルゴリズム硬度(つまり、アルゴリズムの選択が不適切)最適化が不可能になることを意味します)。
ディープラーニングのコンテキストでは、理論的にディープラーニングが機能する理由がほとんどわかっていないため、硬さの議論は難しいです。(リコール:深層学習で解決された最適化の問題は、高次元の非常に凸でない関数を最小化することであり、一般にNP困難であることが知られています。つまり、グローバルな最小値に到達する保証はありません。それでも実際には、開業医はSGDのバリアントを使用して多くの問題を非常にうまく解決しています。なぜそうなのかについて正当な答えを出すことで最近いくつかの進歩がありましたが、これはあなたの質問の範囲外です。)
ディープラーニングにおけるアルゴリズムの硬度の非常に優れた例の1つは、勾配が有益ではない問題を学習しようとすることです。ディープラーニングは現在、ネットワークの重みを更新するためにSGDの何らかの形式を使用しています。たとえば、ミニバッチGD は、パラメーターに対する例のランダムなサンプルに対するコスト関数の勾配を計算します 。θ
言い換えると、DL最適化は、ローカルの勾配情報を使用して関数をグローバルに最適化しようとしてい ます。これは、学習問題は非有益な勾配によって特徴づけされている場合、そのことを示唆している何の深い学習しないアーキテクチャでは、それを学ぶことができるようになります。
ランダムパリティの学習は、次の学習問題です。
ベクトル後の目標は、予測子マッピングをトレーニングすることです to 、ここでは均一配布。言い換えると、(示される) の座標の特定のサブセットの1の数が偶数か奇数かを決定するマッピングを学習しようとしています。
「勾配ベースのディープラーニングの失敗」(Shamir、2017年)で、著者はこの問題(より一般的には、周期的関数で構成されるすべての線形関数)が情報勾配でないため、最適化の問題が困難になることを証明しています。。
また、さまざまな入力次元について、トレーニングの反復回数の関数として精度を測定することにより、これを経験的に示しています。
ここで使用するネットワークは、ReLUアクティベーションを備えた幅 1つの完全に接続されたレイヤーと、線形アクティベーションと単一ユニットを備えた完全に接続された出力レイヤーです。(幅は、必要なパリティ関数が実際にそのようなネットワークによって実現されることを保証するように選択されます)
Q:なぜパリティの学習があたりでしか難しくならないのですか?
問題に正しい構造を課さないと失敗します。畳み込みニューラルネットワークは、互いに近いピクセルが関連していると想定しているため機能します。そのため、空間畳み込みをフィーチャに適用することには意味があります。これにより、仮説の検索スペースが大幅に削減されました。つまり、ディープラーニングが最適なソリューションに到達する可能性が高くなります。
特徴が空間的/時間的畳み込みに対応できない問題にディープラーニングを適用すると、ディープラーニングは失敗します。特定の特徴を合計し、その合計に関数を適用することは意味がないためです。ニューラルネットワークが行います。
画像や音声以外のデータ(または空間的/時間的データ)にディープラーニングがうまく適用された例を誰かが考えることができれば、この答えを撤回して喜んでいます。