数字認識ツールとしてのSVMの利点


8

私は数字認識に非常に慣れていないので、多くのチュートリアルがSVM分類を使用していることに気づきました。たとえば、

たとえば、ツールと比較して、そのツールに(ドメイン固有の)利点があるかどうかを知りたい

  • ディープラーニングニューラルネットワーク
  • k-meansに基づく分類

コメントありがとうございます。また、SVMが数字を認識するための間違ったツールである理由も明確化されます。

回答:


9

多くの異なる分類子のチュートリアルは、数字認識、特にMNISTデータセットに基づいています。これは主に、このデータセットがすぐに利用でき、理解しやすく、最小限の前処理を必要とするためだと思います。また、文献では一般的なベンチマークデータセットでもあります。

特定の分類子のファミリーが本質的に数字の認識に最も適しているという主張は知りません。これは難しい議論になると思います。1)数字の分布は現実の世界からのものであり、それについて包括的な数学的な説明がないため、2)すべてのSVM、すべてのニューラルネットなどのセットです。は無限であり、小さなサブセットのみを探索することができました。おそらく、最もよく知られているニューラルネットは、最もよく知られているSVMよりも優れていますが、新しいカーネル関数は、SVMをより良くするその広大な未発見の空間のどこかに潜んでいます。おそらく、さらに優れた別のニューラルネットアーキテクチャがあるでしょう。特定のケースで議論が行われる可能性があると思います(たとえば、生のピクセルに対する単純ベイズは、その仮定が露骨に違反しているため、おそらく悪い考えです)。

さまざまな状況で、各タイプの分類子を他の分類子よりも優先する理由はたくさんあります(たとえば、トレーニング/評価に必要な時間/メモリ、適切な作業モデルを取得するために必要な微調整/探索の量など)。これらの理由は数字認識に固有のものではないので、ここでは詳しく説明しません。

分類器を数字認識により適したものにすることができるよりも、確かにドメイン固有のトリックがあります。これらのトリックのいくつかは、手書きの数字で期待される特定の変換(たとえば、平行移動、回転、スケーリング、変形)への不変性を増やすことによって機能します。たとえば、数字の「0」は、左にシフトして少しゆがんでいても同じことを意味します。いくつかのトリックは、分類子のファミリに固有です。たとえば、この種の不変性は、特定のSVMカーネル、ニューラルネットの空間変換レイヤー、またはおそらくK最近傍の不変距離メトリックを使用して実現できます。その他のトリックは、多くの分類子で使用できます。たとえば、データセットは、数字の変換された多くのコピーで拡張できます。これは、分類器が適切な不変性を学習するのに役立ちます。

SVM、ニューラルネット、さらにはkNNでも、MNISTデータセットで優れたパフォーマンスを実現しています。他の方法も機能します。私が個人的に聞いた中で最高のパフォーマンスはニューラルネットでのパフォーマンスです。いくつかの結果は、ここここの異なる論文に蓄積さています

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.