ニューラルネットワークの欠点は減少していますか?


8

約半年間ニューラルネットワークを使用してきたので、主な欠点としてよく主張されていること、つまり過剰適合と局所的な最小値での行き詰まりを直接体験しました。ただし、ハイパーパラメーターの最適化と新しく発明されたいくつかのアプローチにより、これらは私のシナリオで克服されました。私自身の実験から:

  • ドロップアウトは非常に優れた正則化方法のようです(これも疑似アンサンブラーですか?)、
  • バッチ正規化は、トレーニングを容易にし、多くのレイヤーにわたって信号強度を一定に保ちます。
  • Adadeltaは常に非常に良いオプティマに到達します

SVMのSciKit-learns実装をニューラルネットワークでの実験と一緒に実験しましたが、ハイパーパラメーターのグリッド検索を行った後でも、パフォーマンスが比較して非常に悪いことがわかりました。他にも無数の方法があり、SVMはNNのサブクラスと見なすことができますが、それでもそうです。

だから、私の質問に:

ニューラルネットワークのために研究されたすべての新しい方法で、ゆっくりと(または、それらは)他の方法よりも「優れた」ものになりますか?ニューラルネットワークには、他のネットワークと同様に欠点がありますが、すべての新しい方法で、これらの欠点は軽微な状態にまで軽減されていますか?

多くの場合、モデルの複雑さの点で「少ないほど多く」ですが、それもニューラルネットワーク用に設計することができます。「無料の昼食なし」という考えは、1つのアプローチが常に優れていると考えることを禁じています。私自身の実験-さまざまなNNの素晴らしいパフォーマンスに関する無数の論文と合わせて-少なくとも、非常に安いランチがあるかもしれないことを示しています。


咳ない全くフリーランチ定理の咳を
yters

回答:


5

ニューラルネットワークには他にも短所があります。

  1. ニューラルネットワークのトレーニングには、ランダムフォレストのようなものよりもはるかに多くのリソースが必要です。したがって、トレーニングの速度が必要な場合、またはリソースに制約がある場合は、おそらく最初にニューラルネットワークを検討すべきではありません。訓練されたディープNNの評価は、競合する手法よりもはるかに高価になる可能性があります。
  2. NNを設計およびトレーニングする方法の学習に伴う労力は、SVMのような競合する方法よりもはるかに高いです。データサイエンスを始めたばかりの人は、おそらく他の手法を使用して、ニューラルネットワークに参加する前にデータのフィッティングのニュアンスについて学ぶ必要があります。また、多くのデータサイエンスライブラリでは、ハイパーパラメータが1つまたは2つしかない単純なNNがよく利用されていますが、他の手法よりもパフォーマンスが良くないため、実際には別のMLブラックボックス手法です。
  3. ニューラルネットワークがその魔法をどのように実行するかを理解する上で多くの進歩を遂げましたが、それらは依然として、ほとんどの競合する方法よりもアクセスや分析が困難です。したがって、NNは問題を解決する可能性がありますが、他の手法ほど簡単には洞察を提供できない可能性があります。

他の人がここで言うことを楽しみにしています。


良い点は、パフォーマンスの問題のいくつかはGPUによって軽減できると思います。さらに、基本的なMLPを非常に簡単に構成できるため、Kerasを温かくお勧めできます。あなたが言うように、SciKit Learnなどの非常に高レベルのライブラリーを使用する場合、ハイパーパラメーターは表面的なものであり、新しい方法論の一部を提供しないため、良好なパフォーマンスを得るのは少し困難です。
Alexander C. Harrington 2017年

はい。ただし、GPUの数が非常に多い場合でも、競合する手法よりもはるかに低速です。DNNトレーニングは非常に重く、私は非常に大きなハイテク企業でプロジェクトに取り組んでいます。そこでは、これらの種類のタスクだけに専念する非常に大きなGPUクラスターでのDNNのトレーニングの日々について日常的に話します。ランダムフォレストベースのアルゴリズムであるAFAIKに特化したそのような計算はありません。
マイクワイズ2017年

そうですか。しかし、これはDNNからの非常に優れたパフォーマンスと引き換えになっていると思いますか?それとも、違いを生むマージンでしょうか?
アレクサンダーC.ハリントン2017年

まあ、私たちはDNNが人間レベルのインテリジェンスに潜在的に対応できることを知っています:)-正確にはまだわかりませんが。具体的には、今日、複雑な画像認識、音声のデコード、会話での意図的推論など、いくつかのタスクに最適な結果が得られることがわかっています。
Mike Wise 2017年

3

@MikeWiseの素晴らしい答えで述べられたことに追加するために、

  • データセットのサイズが増加するにつれて、他のアルゴリズムと比較した場合、ディープラーニングモデルは通常、すべてが同等に最高ランクになります。

    なぜ深層学習

  • すべてのように、それはすべて手元のデータセットに要約されます。ニューラルネットワークは他のデータセットには適していますが、同時に他のデータセットには適していません。非構造化問題(ビジュアル、テキスト、サウンドなど)については、現時点ではニューラルネットワークが最適なアルゴリズムのようです。とはいえ、構造化データに関しては、オンラインデータサイエンスのコンテストで優勝するために使用されているアルゴリズムの種類をざっと見れば、いわゆるXGboostランクのような機械学習アルゴリズムであることがわかります。

  • 他のモデルでは、機能エンジニアリングがアルゴリズムの効率に大きな役割を果たします。機能エンジニアリングは一般に、正しく行うにはトリッキーなことです。ディープラーニングアルゴリズムは、他のアルゴリズムと比較して(もしあれば)それほど多くの機能エンジニアリングを必要としません。実際、彼らは独自に機能を学習します

  • グーグルの人たちが、いわゆる機械学習アルゴリズムが出て世界を席巻する可能性を排除するディープラーニングが見られないと言ったとたら?

  • 以下は、データサイエンティストが尋ねられたときに言った世論調査です。ディープラーニングが実際のアプリケーションの誇大宣伝と一致するかどうか。

  • GoogleのAlphaGoなどの人気のあるディープラーニングアプリケーションの一部でさえ、100%ディープラーニングではなく、ディープラーニングの一部であり、古き良き「機械学習」の一部です。私の2セントは、おそらく他の機械学習アルゴリズムをまだ除外すべきではないでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.