ニューラルネットワークではない画像分類アルゴリズムはありますか?


8

画像分類は、既知のラベルの1つを特定の画像に割り当てるタスクです。たとえば、写真が2枚与えられ、それぞれの画像にが1つだけ含まれていることがわかっているとします。アルゴリズムは、写真が示すものを言う必要があります。{catdogcarstoe}

画像分類のベンチマークデータセットはImageNetです。特に大規模な視覚認識の課題(LSVRC)。それは正確に1000クラスと膨大な量のトレーニングデータを持っています(約250px x 250px画像のダウンサンプルバージョンがあると思いますが、多くの画像はフリッカーからのもののようです)。

この課題は通常、CNN(または他のニューラルネットワーク)で解決されます。

LSVRCでニューラルネットワークを使用しないアプローチを試みる論文はありますか?

質問を明確にするために:もちろん、最近傍やSVMのような他の分類アルゴリズムがあります。しかし、私はそれらが多くのクラス/多くのデータに対してまったく機能しないことを疑っています。少なくとも -NNについては、予測が非常に遅くなると確信しています。SVMの場合、フィッティングと予測の両方が遅くなると思います(?)。kk


アルゴリズムのトレーニング速度と予測速度を「推測」することはできません。自分のデータセットでトレーニングがどれだけ速いかを確認するには、自分でベンチマークを作成する必要があります。モデルを構築したら(オーバーフィットなどの問題を解決して)、予測は別のステップです。
Manu H

@ManuH私が使用した実装では、kNNには遅すぎることを知っています。しかし、これはアルゴリズムの本質的な問題であり、この問題領域では解決できない(たとえば、大幅な次元削減によって)と推測できます。これが私が論文を求める理由です。私は他の人が何を試みたか知りたいです。
Martin Thoma

回答:


4

この質問に答える際の問題の一部は、実際には2つの質問があることです。最初:

ニューラルネットワークではない画像分類アルゴリズムはありますか?

はい、たくさん。しかし、今実際の質問:

LSVRCでニューラルネットワークを使用しないアプローチを試みる論文はありますか?

あなたの質問では、速度のためにkNNやSVMなどの方法を除外します。Bag of Wordsは、この問題を解決するために使用される1つの方法です。MATLABには優れたデモがあります(http://www.mathworks.com/help/vision/examples/image-category-classification-using-bag-of-features.html)。ただし、BoWにはk-meansクラスタリングが組み込まれているため、ニーズに合わない場合があります。

テクスチャ分析など、他にも興味深い画像分類方法がいくつかあります。TAは、医療画像(腫瘍など)で病気の悪意を分類する方法として研究されています。一般的に参照される論文は次のとおりです。http//www.ncbi.nlm.nih.gov/pmc/articles/PMC2701316/

画像分類の概要は次のとおりです。http//www.tandfonline.com/doi/full/10.1080/01431160600746456


1

SVMやK最近傍点など、データの次元を処理できる任意のアルゴリズムを使用できます。最適に実装されたアルゴリズムのパフォーマンスはすべてほぼ同じで、CNNを受け入れます。CNNが使用される理由は、CNNが現在、精度に関してリーダーであり、数年前から存在しているためです。


あなたは基本的に私が私の質問に書いたことを繰り返しています。これは私の質問に対する回答ではありません
Martin Thoma

これは、SVMのバリアントを使用したそのような論文の1つです。robotics.stanford.edu/~koller/Papers/Gao+Koller:ICCV11.pdf
John Yetter

0

分類を実行するために使用できる多くのアルゴリズムがあります(それらのすべてについて言及するのが難しいほど多くの点まで)私は、このhttp://dlib.net/ml_guide.svgを参照することをお勧めします

使用するアルゴリズムを決定することは、主に、使用している問題の関数です。1.クラスの数2.サンプルの数3.クラス内のバリエーションとクラス間の類似性4.データの不均衡5.次元あなたの機能と他の多くのパラメータ

一般に、CNNは2つの理由で非常に人気があります。それらは非常に困難な問題でハイパフォーマンスにつながる可能性があり、トレーニングを実行するためのアーキテクチャと戦略とトリックを理解する必要があるという一般的な解決策であり、その後は何かを変更する必要があり、使用するパラメータはありません。


私が書いたテキストの太字の質問を読んでください。
Martin Thoma
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.