大規模な画像コレクションがあり、コレクションから他の画像をコピーしているように見える、そのコレクション内の画像を特定したいと考えています。
一致として分類したい画像ペアの種類を理解するために、次の例を検討してください。
私はおよそ.25Mの一致する画像のペアを手で分類しました。次に、それらの手でラベル付けされた一致を使用してニューラルネットワークモデルをトレーニングします。どのアーキテクチャがこのタスクに理想的に適しているかはわかりません。
元々は同様のタスクに使用されているので、シャムネットワークが適切かもしれないと思っていましたが、これらの分類子からの出力は、同じオブジェクトの異なる形を見つけるのに理想的です(これは私が望むものではありません)。同じ形の(それが私が欲しいものです)。
私が準備したトレーニングデータを前提として、画像の特定に理想的な論文やアーキテクチャを推奨できる人がいれば、私はあなたが提供できるあらゆる洞察に非常に感謝します。
「しかし、[シャムネットワーク]分類子からの出力は、同じオブジェクトのさまざまな形を見つけるのにより理想的であるように思われます」-シャムネットワークは実際には完全に機能すると思います。彼らはあなたが彼らに学ぶように言うことを学びます。他の人たちは彼らに「異なる形象」を学ばせましたが、あなたは彼らにイメージの複製を学ばせることができました。
—
kbrose 2018
キーポイントベースの分析と畳み込みニューラルネットワークを組み合わせて画像の類似性をキャプチャするDEep Local Features(DELF)に関する論文を発見しました。Googleは、DELFを実装するColabノートブックのサンプルを作成しました。
—
duhaime
ちょっと考えてみましたが、変分オートエンコーダと再構成エラーの測定についてはどうですか?左の2つは非常にうまく機能すると思いますが、右の例についてはわかりません。それらについては、ローカライズされたアプローチが必要だと思います。
—
ldmtwo