(深い)ニューラルネットワークが他の方法より明らかに優れていなかった、教師あり学習の問題はありますか?


33

私は人々がSVMとカーネルに多くの努力を注いでいるのを見てきましたが、彼らは機械学習のスターターとしてかなり面白そうです。しかし、ほぼ常に(深い)ニューラルネットワークの点で優れたソリューションを見つけることができると期待する場合、この時代に他の方法を試すことの意味は何ですか?

このトピックに関する私の制約は次のとおりです。

  1. 教師あり学習のみを考えます。回帰および分類。
  2. 結果の可読性はカウントされません。教師あり学習問題の精度のみが重要です。
  3. 計算コストは​​考慮されていません。
  4. 他の方法が役に立たないと言っているわけではありません。

3
利用可能なトレーニングデータの量に制約はありますか?
ジェイクウェストフォール

1
私はそれをやったことはありませんが、たとえば、自明ではないサイズの行列(たとえば、ランク> 10)で特異値分解を行うためにニューラルネットワークをトレーニングするのは大変なことになると思います。
Mehrdad

1
Google翻訳になりましたニューラルネットワークを使用して、今生成し、より好奇心が失敗し、辞書の単語のための単語の使用は、はるかに優れただろうブラジルの町の名のために
ヘンリー

マトリックス補完を使用するためのディープラーニングについて聞いたことがありません(ただし、ディープラーニングの前にマトリックス補完を使用するのが一般的です)。これは計算コストの問題かもしれないと主張することもできますが、世界中のすべてのコンピューターが、たとえばnetflixの問題でディープラーニングマトリックス補完を実行できるかどうかもわかりません。
クリフAB

@CliffAB:(頬の半ばの舌...)彼らができないかもしれないことはおそらく注目に値しますが、彼らができるかどうかわからないことは注目に値するかどうかわかりません;)
Mehrdad

回答:


31

誰かが非DNNアプローチを合理的に好むかもしれない1つの理論的および2つの実用的な理由を以下に示します。

  1. Wolpert and Macreadyの「無料昼食定理なし」

    アルゴリズムが特定のクラスの問題でうまく機能する場合、残りのすべての問題のセットのパフォーマンスが低下するために必ずそれを支払うことを示すため、関連する結果をNFL定理と呼びます。

    言い換えれば、単一のアルゴリズムがそれらすべてを支配することはありません。ベンチマークする必要があります。

    ここでの明らかな反論は、通常、考えられるすべての問題を気にしないことです。また、ディープラーニングは、人々気にする問題のいくつかのクラス(たとえば、オブジェクト認識)でうまく機能するようです。それらのドメイン内の他のアプリケーション用。

  2. これらの非常に深いネットワークの多くは、適合するために大量のデータと大量の計算を必要とします。(たとえば)500個の例がある場合、20層のネットワークは決してよく学習することはありませんが、より単純なモデルに適合させることは可能かもしれません。大量のデータを収集することが現実的ではない驚くべき数の問題があります。一方、関連する問題(より多くのデータが利用可能な場合)を解決するための学習を試み、転送学習などを使用して、特定の低データ可用性タスクにそれを適合させることができます。

  3. ディープニューラルネットワークには、異常な故障モードもあります。かろうじて人間が知覚できる変更によって、ネットワークが画像を正しく分類することから自信を持って誤って分類することを引き起こす可能性があることを示すいくつかの論文があります。(こことSzegedy et al。の付属論文を参照してください。)これに対して他のアプローチがより強力かもしれません:SVMに対する中毒攻撃があります(たとえば、これはBiggio、Nelson、Laskovによる)が、テストではなく電車で起こります時間。反対の極端な場合、最近傍アルゴリズムの既知の(ただし、素晴らしいとは言えない)パフォーマンスの限界があります。状況によっては、大惨事の可能性が低くなり、全体的なパフォーマンスが低下することになります。


あなたの言うことすべてに同意しました。しかし、問題は「計算上の問題は無視される」ことです。つまり、OPは、無限のサンプルと無限のコンピューティングリソースがあると仮定します。
SmallChess

17
無限計算!=無限サンプル。たとえば、データを処理するための驚くほど大きなクラスターにアクセスできます。ただし、そのデータの一部を実際に取得するために行うラボ実験は、難しく、時間がかかり、時間がかかります(1つのデータポイントで数時間から数日程度)ため、世界のすべての計算はそれを助けません。
マットクラウス

2
特定の特徴抽出機能を備えたSVMは、CNNと同様に敵対的な入力に対して脆弱である可能性が高い-特徴抽出レイヤーのグラデーションを簡単に入手できないため、それらを見つけるのは困難です。
ドゥーガル

1
@MattKrauseを与え、転移学習を使用して、それを一周しようとする試みがで提示された問題の最近の興味深い現実の例シム・ツー・実ロボット学習プログレッシブネッツとのピクセルから
HBeel

@Dougal、私はまた、DNN特徴抽出器が学習されるのが重要なのかと思いますが、SVMのものは(通常)手作りで、人間が気づく特徴に対応しています。パンダの例がそれほど潜行的である理由の一部は、敵対的な例と通常の例とのわずかな違いです。
マットクラウス

24

Geoff Hintonによる講義のこのプレイリスト(ニューラルネットワークのCourseraコースから)のどこかに、彼が2つのクラスの問題について話しているセグメントがあります。

  1. ノイズが重要な機能である問題、
  2. 信号が重要な機能である問題。

私はこの後者の空間でニューラルネットが繁栄する一方で、従来の統計的手法は前者に適していることが多いという説明を覚えています。深い畳み込みネットが優れている世界の実際のものの高解像度デジタル写真を分析することは、明らかに後者を構成します。

一方、たとえば50の症例と50の対照を含む医療症例対照研究において、ノイズが支配的な特徴である場合、従来の統計的手法が問題により適している場合があります。

誰かがそのビデオを見つけたら、コメントしてください。更新します。


素晴らしい答え。既にできること(画像の認識やテキストの作成など)についてディープラーニングに頼るのはなぜなのか、直観的に難しいかもしれないものについては他のモデルに頼るのはまさにその理由です。
ムスタファSエイサー

私は個人的にこの答えを私の最大の関心事にしています。答えてくれてありがとう。
ロビン

13

2つの線形に完成した相関変数。100万個の隠れ層と2兆個の中性子を持つディープネットワークは、単純な線形回帰に打ち勝つことができますか?

編集済み

私の経験では、サンプル収集は計算よりも高価です。つまり、いくつかのAmazonインスタンスを雇って、ディープラーニングトレーニングを実行し、数日後に戻ってくることができます。私の分野の費用は約200米ドルです。費用は最小限です。同僚は1日でそれ以上の収入を得ています。

サンプルの収集には、通常、ドメインの知識と専門的な機器が必要です。ディープラーニングは、自然言語処理、画像処理、インターネットからスクレイピングできるものなど、安価で簡単にアクセスできるデータセットに関する問題にのみ適しています。


1
もちろん、どのMLEメソッドも、生成モデルがMLEの前提を満たすことを条件に、ディープラーニングよりも優れたパフォーマンスを発揮します。ただし、これは実際のデータでは、または少なくとも興味深い問題では発生しません(コインフリップの結果を予測しないなど)。だから私は、OPが実際のデータに興味のある実際の質問を含む例を求めていると思います。
クリフAB

とてもいい答えです。非常に直感的で現実的な視点を提供しました。どうもありがとうございます。
ロビン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.