タグ付けされた質問 「computer-vision」

画像表現、セグメンテーション、視覚オブジェクトの分類、および画像処理アルゴリズム全般に関する質問。

3
アンバランスデータセットをたたみ込みニューラルネットワーク(CNN)で分類する方法
バイナリ分類タスクに不均衡なデータセットがあり、陽性量と陰性量は0.3%対99.7%です。ポジティブとネガティブの間のギャップは巨大です。MNIST問題で使用されている構造でCNNをトレーニングすると、テスト結果に高い偽陰性率が示されます。また、トレーニングエラーカーブは、最初はいくつかのエポックで急速に低下しますが、その後のエポックでは同じ値のままです。 この問題を処理する方法を教えてください。ありがとう!


1
セマンティックセグメンテーションの出力形式について
セマンティックセグメンテーションペーパーとそれに対応する実装を読んでいると、ソフトレベルを使用するアプローチもあれば、ピクセルレベルのラベリングにシグモイドを使用するアプローチもあることがわかりました。 たとえば、u-netペーパーの場合、出力は2つのチャネルを持つ機能マップです。 これらの2つのチャネル出力でsoftmaxを使用する実装をいくつか見ました。以下の理解が正しいかどうかわかりません。 説明のために、マスクされた部分はクラス1に属し、他の部分はクラス2に属しています。私は、マスクまたは非マスクの2つのクラスのみを想定しています。 xy出力マップを形状(1、image_row、image_col、2)で表すために使用します。次に、xy[1,0,0,0]クラス1に属する(0,0)xy[1,0,0,1]のピクセルの確率を表しますが、クラス2に属するピクセル(0,0)の確率を表します。xy[1,row,col,0]+xy[1,row,col,1]=1 私の理解は正しいですか?

2
最大プーリングと平均プーリングで抽出された機能
ディープラーニングで、それをコンピュータービジョンに適用すると、これらの2種類のプーリング抽出の機能の種類を知ることができますか?たとえば、最大プールがエッジを抽出すると言うことは可能ですか?平均プーリングに関して同様のことが言えますか? PSは、stackoverflowの方が適している場合は、お気軽にお勧めします。

1
ディープラーニング:なぜbatch_sizeを増やすとオーバーフィッティングが発生し、どうやってそれを減らすのですか?
以前はローカルマシンでモデルをトレーニングしていましたが、メモリはバッチごとに10のサンプルで十分です。ただし、モデルをAWSに移行し、より大きなGPU(Tesla K80)を使用した場合、バッチサイズ32に対応できました。しかし、AWSモデルはすべて非常に不十分であり、過剰適合を示しています。なぜこれが起こるのですか? 私が現在使用しているモデルはinception-resnet-v2モデルであり、対象としている問題はコンピュータービジョンモデルです。私が考えることができる1つの説明は、それがおそらくバッチノルムプロセスであるため、バッチイメージにより慣れているということです。緩和策として、batch_normの減衰移動平均を減らしました。 また、dropoutをbatch_normと一緒に使用する必要がありますか?この習慣は一般的ですか? 私のトレーニング画像は約5000ですが、約60エポックでトレーニングしました。これはよく考慮されますか、それとも早くトレーニングを中止する必要がありますか?

1
完全畳み込みニューラルネットワークでのパッチごとのトレーニングと完全畳み込みトレーニング
完全畳み込みニューラルネットワークの論文では、著者はパッチワイズトレーニングと完全畳み込みトレーニングの両方に言及しています。 トレーニングセットの構築に関する私の理解は次のとおりです。 与えられたM*M画像、抽出サブ画像とN*N(、 N<M)を。選択したサブ画像は、他のサブ画像と重複しています。トレーニングプロセスのバッチごとに、特定の画像または複数の画像のすべてのサブ画像を含めることができます。 私の理解は正しいですか?それでは、パッチごとのトレーニングと完全なたたみ込みトレーニングの違いは何ですか?関連セクションを参照として含めます。

1
ディープラーニングによるワンショットオブジェクト検出
近年、オブジェクト検出の分野は、ディープラーニングパラダイムの普及後、大きな進歩を遂げました。YOLO、SSD、FasterRCNNなどのアプローチは、オブジェクト検出の一般的なタスクにおいて最新技術を保持します[ 1 ]。 ただし、特定のアプリケーションシナリオで、検出するオブジェクト/ロゴの参照画像が1つしか与えられていない場合、ディープラーニングベースの方法は適用性が低く、SIFTやSURFなどの局所特徴記述子がより適切な代替手段として表示されます。導入コストはほぼゼロです。 私の質問は、ディープラーニングがオブジェクトクラスごとに1つのトレーニング画像だけでオブジェクト検出にうまく使用されているアプリケーション戦略(できれば、それらを説明する研究論文だけでなく、利用可能な実装)を指摘できますか? アプリケーションシナリオの例: この場合、SIFTは画像内のロゴを正常に検出します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.