画像のコピーを識別するためのニューラルネットワークアーキテクチャ


7

大規模な画像コレクションがあり、コレクションから他の画像をコピーしているように見える、そのコレクション内の画像を特定したいと考えています。

一致として分類したい画像ペアの種類を理解するために、次の例を検討してください。

ここに画像の説明を入力してください

私はおよそ.25Mの一致する画像のペアを手で分類しました。次に、それらの手でラベル付けされた一致を使用してニューラルネットワークモデルをトレーニングします。どのアーキテクチャがこのタスクに理想的に適しているかはわかりません。

元々は同様のタスクに使用されているので、シャムネットワークが適切かもしれないと思っていましたが、これらの分類子からの出力は、同じオブジェクトの異なる形を見つけるのに理想的です(これは私が望むものではありません)。同じ形の(それが私が欲しいものです)。

私が準備したトレーニングデータを前提として、画像の特定に理想的な論文やアーキテクチャを推奨できる人がいれば、私はあなたが提供できるあらゆる洞察に非常に感謝します。


「しかし、[シャムネットワーク]分類子からの出力は、同じオブジェクトのさまざまな形を見つけるのにより理想的であるように思われます」-シャムネットワークは実際には完全に機能すると思います。彼らはあなたが彼らに学ぶように言うことを学びます。他の人たちは彼らに「異なる形象」を学ばせましたが、あなたは彼らにイメージの複製を学ばせることができました。
kbrose 2018

キーポイントベースの分析と畳み込みニューラルネットワークを組み合わせて画像の類似性をキャプチャするDEep Local Features(DELF)に関する論文を発見しました。Googleは、DELFを実装するColabノートブックのサンプルを作成しました。
duhaime

ちょっと考えてみましたが、変分オートエンコーダと再構成エラーの測定についてはどうですか?左の2つは非常にうまく機能すると思いますが、右の例についてはわかりません。それらについては、ローカライズされたアプローチが必要だと思います。
ldmtwo

回答:


1

三重項損失関数について読む必要があります。三重項損失関数は、ネットワークから結果の埋め込みを取得し、1つのステップでネットワークによって3つの画像(2つの類似画像と1つの非類似画像)を処理します。 ここに画像の説明を入力してください

その損失計算の後: ここに画像の説明を入力してください

詳細については、トリプレット損失の著者の論文を参照してください。

PSNRにも役立ちますが、これはディープラーニングではありません。


三重項損失は良い提案ですが、リンクのみの回答はスタック交換には適していません。三重項損失とは何か、なぜそれがOPが望むものを達成するのかをもっと説明できますか?
kbrose 2018

「外部リソースへのリンクをお勧めしますが、リンクの前後にコンテキストを追加して、他のユーザーがそれが何で、なぜそこにあるのかを理解できるようにしてください。ターゲットサイトにアクセスできない場合や、完全にオフラインになります。」- datascience.stackexchange.com/help/how-to-answer
kbrose

@kbroseリンクからコピーして貼り付けることができます。私はそれをする必要があると思いますか?または、TL; DRを要求しますか?
toodef

私の反対票を削除しました。@toodefのコンテキストを追加していただきありがとうございます。
kbrose 2018

1
確かに、私はその観点に感謝します。時間がないのならコメントだけでいいと思う。
kbrose

-1

あなたが投稿したように画像がより類似している場合は、-1から1の範囲の出力を提供する構造類似性インデックスを使用できます。0.9を超えるものは類似と見なすことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.