ニューラルネットワークとその他すべて

これに対する満足のいく答えがgoogleから見つかりませんでした。

もちろん、私が持っているデータが数百万のオーダーである場合、深層学習が道です。

そして、ビッグデータがない場合は、機械学習で他の方法を使用した方が良いかもしれないことを読みました。指定された理由は、過剰適合です。機械学習：すなわち、データの参照、特徴抽出、収集されたものからの新しい特徴の作成など。機械学習全体の9ヤードなど、重相関変数の削除など。

そして、私は疑問に思っていました：なぜ1つの隠れ層を持つニューラルネットワークが機械学習問題の万能薬ではないのですか？それらは普遍的な推定量であり、過剰適合はドロップアウト、l2正則化、l1正則化、バッチ正規化で管理できます。トレーニングの例が50,000件しかない場合、通常、トレーニング速度は問題になりません。テスト時は、ランダムフォレストよりも優れています。

なぜそうではないのですか？データをきれいにし、一般的に行うように欠損値を代入し、データを中央に配置し、データを標準化し、1つの隠れ層を持つニューラルネットワークのアンサンブルに投げ、過剰適合が見られないように正規化を適用してから訓練しますそれらを最後まで。勾配爆発や勾配消失は、2層のネットワークであるため問題ありません。深い層が必要な場合、それは階層的な機能を学習することを意味し、他の機械学習アルゴリズムも同様に良くありません。たとえば、SVMはヒンジ損失のみのニューラルネットワークです。

他のいくつかの機械学習アルゴリズムが、慎重に正規化された2層（おそらく3？）のニューラルネットワークよりも優れている例はありがたいです。問題へのリンクを教えていただければ、できる限り最高のニューラルネットワークをトレーニングし、2層または3層のニューラルネットワークが他のベンチマーク機械学習アルゴリズムに及ばないかどうかを確認できます。

— MiloMinderbinder
ソース

ニューラルネットワークは機械学習アルゴリズムです...

— Matthew Drury

画像認識など、ディープラーニングが重要な領域も確かにありますが、他のほとんどの領域では、Kaggleの競争の結果を見れば明らかなように、勾配ブースティングが支配的である傾向があります。

— ジェイクウェストフォール

@MatthewDrury-確かにそうです！用語がお粗末であることをおologiesびします。メッセージが伝えられたことを願っています。それにもかかわらず、質問を変更して、より堅牢にする。ご指摘いただきありがとうございます

— MiloMinderbinder

ネットワークの深さについては、これを必ず確認してください。stats.stackexchange.com

— questions

en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization

— ティムセグイン

回答:

各機械学習アルゴリズムには異なる誘導バイアスがあるため、ニューラルネットワークを使用することは必ずしも適切ではありません。線形トレンドは、非線形ネットワークのアンサンブルではなく、単純な線形回帰によって常に最もよく学習されます。

過去のKaggleコンペティションの勝者を見てみると、画像/ビデオデータに関する課題を除き、ニューラルネットワークがすべての解決策ではないことがすぐにわかります。ここでいくつかの過去のソリューション。

過剰適合が見られなくなるまで正則化を適用し、最後まで訓練します

学習するネットワークの容量を完全に破壊することなく、過剰適合を防ぐのに十分な正規化を適用できるという保証はありません。実生活では、列車と試験のギャップを解消することはめったにありません。そのため、論文ではまだ列車と試験のパフォーマンスが報告されています。

それらは普遍的な推定量です

これは、ユニットの数に制限がないという制限に当てはまりますが、現実的ではありません。

問題へのリンクを教えていただければ、できる限り最高のニューラルネットワークを訓練し、2層または3層のニューラルネットワークが他のベンチマーク機械学習アルゴリズムに及ばないかどうかを確認できます。

私がニューラルネットワークに期待する問題の例は決して解決できないでしょう：整数が与えられたら、素数か素数でないかを分類してください。

これは、すべての有効なプログラムを昇順で繰り返し、素数を正しく識別する最短のプログラムを見つける単純なアルゴリズムで完全に解決できると思います。確かに、この13文字の正規表現文字列は素数に一致する可能性があり、検索では計算上手に負えないでしょう。

正則化は、過剰適合のモデルから、正則化によってその表現力がひどく損なわれたモデルになりますか？常にその間にスイートスポットがあるのではないでしょうか？

はい、スイートスポットはありますが、通常はオーバーフィッティングをやめる前の方法です。次の図を参照してください。

水平軸を反転して「正則化の量」とラベルを付け直すと、かなり正確です。過剰適合がまったくなくなるまで正則化すると、エラーが非常に大きくなります。「スイートスポット」は、少し過剰に適合している場合に発生しますが、過剰ではありません。

「すべての有効なプログラムを昇順で反復し、素数を正しく識別する最短プログラムを見つける単純なアルゴリズム」とはどのようなものですか。学習するアルゴリズム？

$\theta$ $H(\theta)$ $\theta$

だから、私があなたを正しく取得すれば、データが実質的でない場合、両方の最適なハイパーパラメータが与えられた場合、深いネットワークは最良の浅いネットワークの検証精度に決して達しないという議論をしていますか？

はい。これが私の論点を説明するためのいですが、うまくいけば効果的な数字です。

しかし、それは意味がありません。深いネットワークは、浅い上で1-1のマッピングを学習することができます

質問は「できる」ではなく「やる」であり、逆伝搬を訓練している場合、答えはおそらくそうではありません。

大規模なネットワークは小規模なネットワークよりも常に良好に機能するという事実について説明しました

それ以上の資格がなければ、その主張は間違っています。

— シマオ
ソース

答えてくれてありがとう！正則化は、過剰適合のモデルから、正則化によってその表現力がひどく損なわれたモデルになりますか？常にその間にスイートスポットがあるのではないでしょうか？

— MiloMinderbinder

おもちゃの問題について。「すべての有効なプログラムを昇順で反復し、素数を正しく識別する最短プログラムを見つける単純なアルゴリズム」とはどのようなものですか。学習するアルゴリズム？

— MiloMinderbinder

cs231nの講義ノートに注意してください-「大規模なネットワークは小規模なネットワークよりも常に良好に機能するという事実について説明しましたが、より高いモデル容量は、より強い正則化（より高い重み減衰など）で適切に対処する必要があります。後のセクションで、より多くの形式の正規化（特にドロップアウト）を確認します。cs231n.github.io/neural-networks-1

— MiloMinderbinder

@ user46478私は答えを編集して、あなたの上記の質問に対処

— 島尾

「ネットワークの容量を完全に破壊することなく、過剰学習を防ぐために十分な正則化を適用できるという保証はありません。」-申し訳ありませんが、私はまだこの声明を理解していません。トレーニングデータ{train、val}を分割し、マシンが許可する最大のネットワークを作成し、さまざまなドロップアウト確率で得られる検証エラーの中で検証エラーが最小化されるまでドロップアウトの確率を高めます。このプロセスは、適切なモデルを経由せずに、過剰適合モデルから役に立たない可能性がありますか？

— MiloMinderbinder

機械学習の万能薬のようなものはないことを付け加えます。

ことでノーフリーランチの定理：

特定のクラスの問題でアルゴリズムがうまく機能する場合、残りのすべての問題のセットのパフォーマンスが低下しているため、必然的にその代価を払います

— user3684792
ソース

これは非常に憂鬱です（しかし、心配しないで、結果から議論することはありません）。これを読んで、これは彼らが学ぶことができる機能に同じ分布を持つアルゴリズムについてです（同じ共同ドメインを意味します）。したがって、ニューラルネットワークは普遍的な推定量に対してのみかわいがられます。2.これは、関数空間がどれだけ高速に検索されるかについては言及していません。2つの隠れ層を持つニューラルネットワークは、すべての問題で1つの隠れ層を持つニューラルネットワークと必然的に同等または優れていると言えますか？ここでは、連続性の仮定が多くのことをしなければならないと思います

— -MiloMinderbinder

適切なハイパーパラメーターチューニングを行うと、2つの隠れ層状ニューラルネットワークが、単一の隠れ層状ニューラルネットワークよりも速く、同様のコドメインを持つ関数をジャンプします。あなたの入力？

— MiloMinderbinder

「2つの隠れ層を持つニューラルネットワークは、すべての問題で1つの隠れ層を持つニューラルネットワークと必然的に同等または優れていると言えますか」。残念ながら、そうではありません。反例として、完全に分離可能なデータセットのデータポイントの数に等しい隠れユニットの数を持つロジスティック回帰（隠れ層が0のnn）対1層のニューラルネットワークを想像してください。lrが捕捉できない決定境界に関する情報はなく、複雑度が高いnnはオーバーフィットする可能性が高い

— -user3684792

ここでの声明には同意しますが、ウィキペディアのページからも抜粋した、NFLに標準の警告を追加したかったです。「NFLは、ターゲット関数がすべての可能な関数の均一な分布から選択された場合にのみ適用されることに注意してください」

— mkt-モニカの復元18年

@ user46478「1つの隠れ層を持つニューラルネットワークが機械学習問題の万能薬ではないのはなぜですか」という質問に対するNFL定理の関連性に同意します。

— mkt-モニカの復活