ディープラーニングは画像処理/コンピュータービジョンを破壊しますか?


52

私は信号および画像処理、または多分コンピュータービジョン(まだ決定していません)の修士課程に登録することを楽しみにしており、この質問が浮上しました。

私の懸念は、ディープラーニングは特徴抽出と入力前処理をほとんど必要としないため、画像処理(または一般的な信号処理)を殺すことですか?

私はディープラーニングの専門家ではありませんが、他の手法のような特徴ベクトルの代わりに画像を直接取得する認識および分類タスクで非常にうまく機能しているようです。

画像処理技術を使用して、従来の特徴抽出+分類アプローチの方が良い場合はありますか、またはこれはディープラーニングのために死にかけていますか?


3
投票数が多く、上位投票の回答の投票数が非常に多いため、これを再開します。
ピーターK。

1
@LaurentDuvalすべての回答は役に立ち、非常に興味深いものだったと思いますが、主にあなたとmathreadlerの回答(出てきた議論と共に)で本当にトピックが明確になりました。
トニー

2
進行中の議論で岐路に立てたいです。ディープラーニングに特徴抽出は必要ないと誰が言ったのですか 私自身の実際の経験では、生データについてDNNをトレーニングするべきではありません。いくつかの特徴抽出を行う必要があり、画像の基本的な理解も必要です。ディープラーニングは注意して使用する必要がありますが、これも良い考えです。
アルンraj

回答:


45

この投稿は頻繁に更新されています。上部に、リンクの更新が表示されます。以下、最初の答えのバリエーション。短いバージョンの場合:畳み込みニューラルネットワークとディープラーニングの成功は、一種のガリレオ革命のように見えます。実用的な観点では、古典的な信号処理またはコンピュータービジョンは死んでいます...十分なラベル付きデータがあり、明らかな分類障害(深い欠陥)をほとんど気にせず、カーボンフットプリントを考慮せずにテストを実行する無限のエネルギーがある場合、合理的な説明を気にしないでください。他の人にとっては、これにより、特徴抽出、最適化(以前の私の同僚J.-C. Pesquetによる深層ニューラルネットワーク構造の変分不等式の解決を参照))、不変性、定量化など。そして、そこから本当に興味深い研究が現れており、しっかりと根拠のある原則と同様のパフォーマンスに追いつくことを願っています。

更新されたリンク:

自然な敵対的な例を紹介します-分類器の精度を大幅に低下させる実世界の、修正されていない、自然に発生する例です。7,500の自然な敵の例をキュレートし、それらをImageNet-Aと呼ぶImageNet分類器テストセットでリリースします。このデータセットは、分類子の堅牢性を測定する新しい方法として機能します。l_pの敵の例のように、ImageNet-Aの例は、見えない分類器またはブラックボックス分類器に正常に転送されます。たとえば、ImageNet-Aでは、DenseNet-121で約2%の精度が得られ、精度は約90%低下します。ImageNet-Aの例は、色、テクスチャ、および背景キューへの過度の依存など、現在の分類器の深い欠陥を悪用するため、この精度を回復することは簡単ではありません。堅牢性を向上させるための一般的なトレーニング手法はほとんど効果がないことがわかりますが、しかし、いくつかのアーキテクチャの変更により、自然な敵対的な例に対する堅牢性を強化できることを示しています。このハードImageNetテストセットの堅牢な一般化を可能にするには、今後の研究が必要です。

標準の信号/画像処理の「ステップ」に関するディープラーニングのリファレンスは、下部にあります。Michael Eladは、 ディープ、ディープトラブル:ディープラーニングの画像処理、数学、および人類への影響(SIAMニュース、2017/05)の抜粋を書きました。

その後、ニューラルネットワークが突然戻ってきて、復をしました。

このトリビューンは、データをモデル化/理解しようとする従来の「画像処理」から、あまり洞察力のない正確さの領域への移行を示しているため、興味深いものです。

このドメインは非常に急速に進化しています。これは、意図的または一定の方向に進化するという意味ではありません。正しくも間違っていません。しかし、今朝、私は次の言葉を聞いた(または冗談でしょうか?):

膨大なデータのセットを使用した不正なアルゴリズムは、ペースデータを使用したスマートアルゴリズムよりも優れた結果をもたらします。

ここに私の非常に短い試みがありました:ディープラーニングは最先端の結果を提供するかもしれませんが、その理由を常に理解しているわけではありません。など

ディープラーニングには、タグ付きの(巨大な)データベースが必要です。任意の単一または特異画像に工芸品を行う時、特に「自由ユーザーベースのタグ付けされた画像を」得にくい場所で、(つまり、巨大なデータベースの背後なし)(集合の補集合の「ゲームや顔をプレイ面白い猫」) 、従来の画像処理にしばらくの間、そして利益のために固執することができます。最近のつぶやきは、その概要を示します。

(多くの)ラベル付きデータ(欠落しているvarsなし)要件は、多くのドメインの取引ブレーカー(および不要)です

彼らが殺されている場合(短期的な通知では疑わしい)、彼らはまだ死んでいない。そのため、信号処理、画像解析、コンピュータービジョンで習得したスキルは、今後も役立ちます。これは、たとえばブログ投稿で説明されています: コンピュータービジョンのジオメトリについて忘れていませんか?アレックス・ケンドール:

ディープラーニングはコンピュータービジョンに革命をもたらしました。今日、最高のパフォーマンスのソリューションがエンドツーエンドのディープラーニングモデルに基づいていない場合、多くの問題はありません。特に、畳み込みニューラルネットワークは、箱から出してすぐに動作する傾向があるため、人気があります。ただし、これらのモデルは主に大きなブラックボックスです。私たちがそれらについて理解していないことはたくさんあります。

具体的な例は次のとおりです。同じ場所からのいくつかの非常に暗い(監視など)画像に、検出すべき特定の変化が含まれているかどうかを評価する必要がある場合、従来の画像処理の問題である可能性があります。ディープラーニング(現在)。

反対に、ディープラーニングが大規模に成功するのと同じように、小さなデータセットの誤分類につながる可能性があり、一部のアプリケーションでは「平均」では無害です。人間の目にわずかに異なる2つの画像は、DLを介して異なる方法で分類できます。または、ランダムな画像を特定のクラスに設定できます。たとえば、ディープニューラルネットワークは簡単にだまされます:認識できない画像の高信頼予測(Nguyen A、Yosinski J、Clune J. Proc。Computer Vision and Pattern Recognition 2015)、またはDeep Learning Have Deep Flaws?、敵対的否定について:

研究者が特定の知覚できない摂動を適用した後、ネットワークは画像を誤分類する場合があります。摂動は、予測誤差を最大化するためにピクセル値を調整することで見つけられます。

「深層学習」に敬意を払って、「登録された、既知の、質量検証可能な、または予想される動作に対応する大量生産」と「単一の工芸品」について考えてください。単一のインデックススケールでは、(まだ)より良いものはありません。両方がしばらく共存しなければならない場合があります。

ただし、ディープラーニングは、以下の参考文献で説明されているように、多くの新しい分野に広がっています。

幸いなことに、一部の人々は、ディープラーニングの背後にある数学的な理論的根拠を見つけようとしています。その例は、散乱ネットワークまたはStéphaneMallatと共著者によって提案された変換です。散乱についてはENSサイトを参照してください。高調波解析と非線形演算子、リプシッツ関数、並進/回転不変性、平均的な信号処理者に適しています。たとえば、Deep Convolutional Networksの理解を参照してください。


1
適切に修正されたコピーを使用して不十分なトレーニングデータを増強すると、深層学習の一般化に役立ちます。最近、完全な教師ありタグ付けの必要性に関する方法が見つかりました:教師なしデータ拡張は、半教師あり学習でトレーニングデータのラベルなし部分のラベルを自動的に生成し、そのデータをトレーニングに使用します。(回答にこの情報または同様の情報を自由に組み込んでください。)
Olli Niemitalo

1
「一貫して」増強する方法を知っている場合。古典的なデータセットでOK、私が扱う科学データ(地質学、化学)を歩き回る
Laurent Duval

@Laurent、あなたの言ったことについて:「私たちの科学者の仕事は、物事がなぜ機能するのかを説明し続ける:データサイエンスは、DSPに真剣に取り組むことを考えるsomoeoneにとって有効なキャリアのようです。あなたが聞いた典型的な「DSPエンジニア」のタイトル以外に他の名前はありますか?
JFonseca

21

まず、画像処理やコンピュータービジョンの卒業生ディープラーニング使用しても問題はありません。ディープラーニングは、画像処理やコンピュータービジョンを破壊するものではなく、単にこれらの分野の最新の研究テーマです。

第二に、ディープラーニングは主にオブジェクトカテゴリの認識に使用されます。しかし、それはコンピュータービジョンの多くの分野の1つにすぎません。オブジェクト検出、追跡、3D再構成など、他の領域もありますが、その多くは依然として「手作り」の機能に依存しています。


5
注意:DNNは、オブジェクト検出、追跡、3D再構成など、言及したすべてのことを非常によく実行できます。それらを何らかの方法で操作します-そして、それら(私は信じる)は、DNNのような適応アルゴリズムが機能する理由を説明するためにカムバックします。ただし、間違えないでください。DNNは、入力から基底変換(および(微分可能な)ターゲット目標まで)の基底変換が非常に優れています。
タリンジヤエ

11

ディープラーニングは画像処理を殺しません。ディープラーニングを行うには、膨大なデータセットと大量の計算リソースが必要です。大量のデータベースにアクセスせずに、より少ない計算負荷とより小さなメモリフットプリントで画像処理を行えることが望ましいアプリケーションがたくさんあります。例としては、携帯電話、タブレット、モバイルカメラ、自動車、クワッドコプターなどがあります。ディープラーニングは、非常に印象的な分類結果が存在するため、現在非常に誇張されています。

分類は、画像処理が扱う多くの問題の1つであるため、ディープラーニングがすべての分類の問題を解決することが真実であったとしても、他の種類の画像処理がたくさん残っています。ノイズリダクション、画像レジストレーション、モーション計算、モーフィング/ブレンディング、シャープニング、光学補正および変換、ジオメトリの計算、3D推定、3D +時間モーションモデル、ステレオビジョン、データ圧縮およびコーディング、セグメンテーション、ブレ除去、モーション安定化、コンピューターグラフィックス、あらゆる種類のレンダリング。


ノイズ除去、3D推定など、あなたが言及したものはすべて、適切なアーキテクチャのDNNと適切なデータによって非常に近似し、解決することができます。
タリンジヤエ

1
はい、はい、ジャガーで毎週買い物をすることができます(しかし、それは彼らが建てられた理由ではありません)。
mathreadler

1
ヘヘ、真-それは、あなたが言っていることとは異なるのです傾けるあなたのジャガーを使用して買い物。
タリンジヤエ16

DNNが処理するのがややこしいエンジニアリングの問題に便利な制約を課すのは簡単です。たとえば、使用する方法が特定の入力データのセットに偏ってはならないという制約。DNNはすべてトレーニングが必要なため、もちろんデフォルトで失格となり、トレーニングデータを使用してバイアスがかけられます。
mathreadler

これは、エンジニアリングツールには当てはまります。しかし、それはポイントではありません。ポイントは、あなたが上記で言及したこれらのタスクはすべて、実際にはDNNで非常にうまく解決できるということです。はい、いくつかは、より多くの最近の動向ですが、彼らがと言うことは、ミスリードされカント DNNSで解決します!それで全部です!
タリンジヤエ

11

今日は友達と話し合いました。ミュンヘンは雨の日でしたが、ヨーロッパの大部分は一種の晴れた雰囲気でした。人々はソーシャルメディアで写真を共有し、海をさまよい素敵なサマードレスを着ていました。彼女はこの状況に悩まされ、私に振り返り、「ここの天気が悪いとき、夏のこのようなかわいい写真を​​含むソーシャルメディア上の写真をブロックするソフトウェアを書いてくれませんか?」と尋ねました。なぜだと言った。あなたがする必要があるのは、膨大な夏の画像のセットとネガティブな例を集めて、「ブロック」または「ブロックなし」のレベルでバイナリ分類を行うネットワークを介して送ることです。ネットワークのトレーニングと調整を行います。それでおしまい。

次に、私は自分自身に目を向けました。実際に、マシンに私に考えさせることなく、天気が良いかどうかを判断する簡単なアルゴリズムを書く方法を知っていますか?やっと...たぶん...好奇心旺盛な読者のために、ここであなたはそれのために行くしようとする場合、設計したいかもしれないいくつかの機能です。

2クラスの気象分類、CewuLu§Di Lin、Jiaya Jia、Chi-Keung Tang、CVPR 2014

明らかに、私は最近このCVPRの出版物についても気にせず、ただ深くします。そのため、多くのシナリオで堅牢なパフォーマンスを実現する深層学習が好きなだけでなく、慎重に使用しています。画像処理の知識が失われなくても、必要な分野の専門知識が減る傾向があります。知的には、これはあまりエレガントではありません。

個人が軌道に乗って両方の世界から利益を得ることを決定するとすぐに、彼は安全な側にいるでしょう。


7

簡単な答えは、いいえ。DLは写真のマグカップを認識できますが、とにかく信号処理を殺すことはありません。そうは言っても、あなたの質問はこれらの問題のある日に非常に関連しています。このテーマについては、ステファンマラットなどを特集した素晴らしいパネルディスカッションがここにあります


5

機械学習では、データエンジニアリングがまだ使用されており、DNNに供給されるデータを前処理して選択し、学習時間と評価効率を改善しています。データエンジニアリングの一形態である画像処理(カメラセンサーとDNNに供給されるRGB / etc。ビットマップの間のもの)は依然として必要です。


4

信号処理の完全な理解(線形代数、ベクトル計算、数学統計など)は、ディープラーニングの分野、特にコンピュータービジョンにおける非自明な作業に不可欠です。

ディープラーニング(インパクトの低い果物のほとんどが選ばれた今)のいくつかの重要な論文は、信号処理の概念をよく理解していることを証明しています。

いくつかの動機付けの概念:

  • 拡張された畳み込みこのブログ投稿をチェックしてください。最初の方程式の1つは、信号処理の概念にしっかりと根ざしている(hah)人のためのブレッドバターです。また、古典的なウェーブレット信号処理に見られるa trousアルゴリズムとも密接に関連してます。
  • 転置畳み込み層 /デコンブ層。繰り返しますが、基本的な信号処理の概念です。
  • 変換フィルターのシェーピング -演算子の標準と収縮マッピングの良いアイデアが必要です。これは通常、信号理論または制御システムの卒業生EEコース、または分析の数学コース(実数または機能)にあります。
  • 敵対者の例:これを調査した最初の論文の1つ(「...の興味深い特性」)そのような摂動。分析は非常に予備的なものでしたが、ここでも、深層学習を含むあらゆるものに重要な進歩をもたらすには、理論の重要な理解が必要であるという点を証明していると思います。

リストは続きます。したがって、コンピュータービジョンで作業し、問題にディープラーニングを適用したとしても、信号処理のバックグラウンドにより、物事を非常に把握しやすくなります。


1
はい。ネットワークに何を入力するかを学ぶ必要がないようにしたショートカットは、パフォーマンスが低下するため、難しい方法で学習する必要があります。
mathreadler

4

私は実際にはあまり画像処理を行いませんが、ニューラルネットワークが80年代半ばから後半に話題になったときに、信号分類の研究を行い、資金を提供した組織(米国海軍)で働いていました。私は本質的にマーケティングの多くのものをじっと見なければなりませんでした。引数は次のようなものでした:

  • それはあなたの脳のようにニューラルであり、線形分類器よりも優れていたため、統計的手法よりも優れています。実際、パフォーマンスを評価するために統計を使用したために論​​文を却下した人々を知っています。
  • ニューラルネットは帰納的であり、トレーニングセットに例が含まれていないか、ほとんど含まれていない場合は、正しく分類できます。
  • DARPAは作業に資金を提供しており、DARPAが行うすべてが勝者であることを私たちは皆知っています(Googleはまだ存在していませんでした)
  • パフォーマンスは素晴らしいものではありません。混同マトリックスは必要ありません。クラスの事前分布は必要ありません。エラーの確率を教えてください。境界線は必要ありません。ホールドアウトとシャッフルの再トレーニングを行うだけです。
  • いくつかの機能を選択して、そのブラックボックス、スケーリング、データアライメント、クラッタ除去、不正なラベル、複数のクラスの発生、それは私の問題ではありません。
  • 数学の霧、ボルツマンマシン
  • SVDと、おそらくフラクタル次元を使いましょう。
  • 監視付き/監視なしの餌とスイッチ、すべての隠れたパターンを見つけます。この連想記憶は深遠ではありませんか?

司教の本が私の皮肉を食い止めるのにかかった。

いくつかのアプリケーションでは、最適な信号処理アルゴリズムには、すぐに手に負えなくなる大きなパラメータ空間での徹底的な列挙検索が必要になります。大規模なサーバーファームでは、達成可能な検索スペースを増やすことができますが、ある時点で、ヒューリスティックを見つける必要があります。DLはこれらのヒューリスティックの一部を見つけることができるようですが、根本的なNPハード最適化は解決しません。


それは多くの人々を落胆させるように見えるので、皮肉を弱めることに完全に正しい。人生の早い段階でそれを学べたらいいのにと思うことがあります。
mathreadler

3

大学からの私の見解は、多くの信号処理の人々がMLに対して少し敵対的であるということでした。しかし、最近、複雑な価値のあるディープニューラルネットワークの利点に関する多くの研究が行われています。これは、ゴールデンチケットが両方の分野の確かな理解であることを示唆している可能性があります。


1
うん。信号処理は機械学習と非常に密接に関連しています。信号処理をしっかりと理解することで、MLアルゴリズムの構築方法と使用方法、およびそれらを供給するのに(不適切な)データの種類を理解できます。
mathreadler

2

はい、そうです。C ++やPythonなどの高レベルプログラミング言語での開発と同じように、アセンブリプログラミングを「殺した」。ただし、CSコースに登録するときにアセンブリを学習することは無関係ではありません。コンピューターがどのように機能するか、高級言語の舞台裏で何が起こっているのか、コンピューター言語の基本原則が何であるのかなどについて、優れた洞察を提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.