特定の画像の視覚的な注意領域を検出し、その領域に画像をトリミングしようとしています。たとえば、任意のサイズの画像と、たとえばLxW寸法の長方形を入力として、最も重要な視覚的注意領域に画像をトリミングします。そのための最先端のアプローチを探しています。
それを実装するためのツールやSDKはありますか?コードまたはアルゴリズムのどの部分も本当に役立ちます。
特定の画像の視覚的な注意領域を検出し、その領域に画像をトリミングしようとしています。たとえば、任意のサイズの画像と、たとえばLxW寸法の長方形を入力として、最も重要な視覚的注意領域に画像をトリミングします。そのための最先端のアプローチを探しています。
それを実装するためのツールやSDKはありますか?コードまたはアルゴリズムのどの部分も本当に役立ちます。
回答:
コンピュータに画像内の視覚的注意領域の周囲の境界ボックスまたは円を検出および提供させるには、注意の根拠を決定する必要があります。次に、その根拠に基づいてコンピュータシステムに選択を行わせる方法を選択できます。まず最初に。
対象となるのは顔、体、ゲームのキャラクターですか?動きの点でフレーム内で最も動的なオブジェクトになりますか?人ならいつも同じ人ですか?どちらの場合でも、彼らの顔はカメラの角度にさらされますか?静止画のみですか、それとも画像は映画のフレームになりますか?
注意が必要なオブジェクトを他のオブジェクトや背景からどのように区別するかがわかったら、コンピュータがその認識をどのようにシミュレートするかを確認できます。たたみ込みカーネル(CNNまたはたたみ込みニューラルネットワークと呼ばれます)を含む深いネットワークと、場合によっては長期短期メモリーセル(LSTM)をトレーニングする場合、認識には段階があります。
通常、物体のエッジが最初に検出されます。映画では、エッジの動きが画像の特徴として追跡されます。オブジェクトがどのような種類のオブジェクトであるかを識別する画像内の要素は2番目です。たとえば、プラスチックが光を反射する方法や、おもちゃに共通する色の種類や形によっておもちゃが検出される場合があります。顔は、目、鼻、口、あご、耳を識別することによって最初に認識される場合があります。
部品が識別された後、特徴抽出の別の段階でオブジェクト全体を識別できます。視覚システムは、人間の視覚システムが使用するのと同じ基本的な認識原理に従います。
これらのタスクを支援する多くのフレームワークとライブラリがありますが、それらを使用するには、プロセスの全体像を把握し、類似または他のオブジェクトから重要なオブジェクトを区別するものを明確にすることが重要です注意があなたが望む方法で集中できるように、完全に異なります。
持ったら 、トリミング操作の2つのコーナーの座標。これはネットワークトレーニングの目標になります。その後、任意の画像操作ライブラリがトリミングを処理できます。
それが最先端の技術です。それが何を意味するのかを明確にせずにフレーム内で最も重要なアイテムを見つけるようにコンピューターに命令することを可能にする高レベルのSDKはありません。いくつかの基準。とにかくまだ。