タグ付けされた質問 「image-processing」


1
2Dたたみ込み:カーネルをめくる?
そもそもなぜ2D畳み込みでカーネルを反転させる必要があるのでしょうか。これの利点は何ですか?では、なぜそれを裏返さないままにできないのでしょうか? http://www.songho.ca/dsp/convolution/convolution2d_example.html 入力 カーネル 出力 「最初に、影付きのボックスであるカーネルを水平方向と垂直方向の両方に反転させます」


1
Google DeepDreamの詳細
このサイトでDeep Dreamに関するいくつかの質問を見てきましたが、DeepDreamが具体的に何をしているのかについて実際に話しているようには見えません。私が集めた限りでは、それらは目的関数を変更し、重み付けを更新する代わりに入力画像を更新するように逆伝播も変更したようです。 誰かがグーグルがしたことを正確に知っているのだろうかと思います。彼らは、最適化を実行するときにベイズの事前分布を課す彼らの記事の1つで言及しています。これにより、ニューラルネットが各ラベルの画像を吐き出すのはそれほど難しくないことを想像できます。ラベルを設定して、それに応じて入力ベクトルを最適化します。 ただし、ディープドリームの興味深い部分は、これをレイヤーごとに実行することです。この点で、レイヤーごとの方法で詳細を強調する方法がよくわかりません。 確かに、画像を入力すると各ニューロンの値が得られますが、その情報を使用して元の画像の詳細を誇張するにはどうすればよいでしょうか。これに関する詳細な報告を見つけるのに苦労しました。 参考資料:ここでvznが同様の質問に回答しました:https ://cs.stackexchange.com/a/44857/49671 そのリンクから、ここにDeepdreamの実装があります:http ://auduno.com/post/125362849838/visualizing-googlenet-classes ここで説明されているように、機能の誇張はありませんが、http://googleresearch.blogspot.com/2015/06/inceptionism-going-deeper-into-neural.html どちらも特定のクラスと特定のレイヤーの視覚化を示し、次のように言います。 ネットワークで増幅する機能を正確に規定する代わりに、ネットワークにその決定を任せることもできます。この場合、ネットワークに任意の画像または写真を送り、ネットワークに画像を分析させるだけです。次に、レイヤーを選択し、検出されたものを強化するようネットワークに要求します。

1
写真の日差しを検出する方法
特定の写真について、写真を撮ったときに太陽が輝いていたかどうかをアルゴリズムでどのように検出しますか? 例 山頂にあるこのウェブカメラのサンプル: 明らかに太陽が輝いています。 この他のサンプルでは、​​それほど明白ではありません。 中央の礼拝堂にある小さな教会の尖塔を特定しようとすることで、霧がかかっているかどうかはかなり簡単に検出できるでしょう。しかし、画像処理についてほとんど何も知らないので、日光があるかどうかを確実に判断できるアルゴリズム(の組み合わせ)があったとしても驚きます。

1
微分からのソーベル方程式の導出
多くのサイトでは、画像を平滑化するための畳み込みマスクとしてSobelオペレーターを提供しています。ただし、部分的な1次導関数から演算子を導出する方法を説明するサイトは1つも見つかりませんでした。誰かが派生を説明できれば、私はそれを高く評価します。

1
航空写真の水路の認識—エッジ検出画像からのポリゴン
私は航空写真(たとえばGoogleマップから)から水路を認識しようとしています。地方自治体は、水路(および道路、建物など)の場所を示すGISデータを持っていることがよくありますが、地方自治体の水データはしばしば不正確であり、航空写真を使用して改善できる可能性があります。したがって、必ずしも信頼できるとは限らないデータがすでにいくつかあります。 データに対していくつかの基本的な画像処理を行う方法を知っています(残念ながら、ここに表示するサンプル画像はまだありません。これを行う方法を想像しようとしていますが、まだ機能しているコードはありません)。 画像の水路のビットを使用して色の値のセットを収集し、これらの色に最も近いピクセルを特定できます。他のタイプのフィーチャ(草、道路、建物など)の場合も同様です。ピクセルが「十分に近い」しきい値を設定すると、おそらく水路であるピクセルのセットが得られます(ただし、ノイズが多くなります)。 画像をグレースケールに変換し、標準のエッジ検出アルゴリズムを使用して、エッジの場所を特定できます。繰り返しますが、これにより境界のようなピクセルのセットが得られますが、ノイズが発生し、エッジが考えすぎたり、ギャップが生じたりします。 出力として必要なのは、推定水路の輪郭を描く一連のポリゴンです。 直感的に、検出されたエッジを使用してポリゴンを作成し、カラー情報を使用してそれらが水であるかを判断します。おそらく、すでに持っている政府のデータを利用します。 エッジ検出アルゴリズムの結果から閉じたポリゴンの適切なセットに到達するための既知の方法はありますか?または、より良い方法がある場合、この問題を攻撃する方法に関する他のヒントはありますか?

1
コンピュータービジョン:単一座標のラベルを使用したオブジェクト検出
以下のオブジェクト検出タスクを扱った論文は文献にありますか? タスクは次のように説明できます。 画像のセットが与えられた場合、ラベルは、検出したいオブジェクトの場所を表す単なる座標(x、y)です。座標はオブジェクトの中心にある必要はなく、オブジェクトのサイズは任意です。 タスクは、人、ボート、車のいずれかであるオブジェクトを検出することです。ただし、ラベルはオブジェクトのカテゴリを示しておらず、ラベルは対象のオブジェクトに近い座標にすぎません。 画像は1時間ごとに取得され、同じシーンのスナップショットです。したがって、バックグラウンド減算技術が役立つ場合があります。 同じシーンの約2000枚の画像があり、各画像には通常2つの対象オブジェクトがあります。 以前にそのような仕事に取り組んだことがあるのだろうか? Hog機能とSVMは、画像内の人間の検出に大きな成功を収めています。ただし、関連する文献では、関心のあるオブジェクトが単一の座標ではなく境界ボックスを使用してラベル付けされているトレーニングデータを使用しています。 主な3つの課題は次のとおりです。 オブジェクトのサイズは任意であるため、分類子の境界ボックスを選択することは困難です。 シーンのスナップショットは1時間ごとに取得されます(カメラもわずかに動く可能性があります)。そのため、バックグラウンド減算の使用は簡単ではありません。 ラベル付けされたデータはあまりありません。 人々がこれらの課題にどのように対処したかを見るのは興味深いでしょう。 ありがとう!

3
画像のシャノンのエントロピー
画像のシャノンのエントロピー[plog(1 / p)]は、2つのピクセルまたはピクセルのグループを比較するための確率論的方法です。3x3のマトリックスを持つ画像にピクセル強度値があるとします。 1 1 2 2 3 3 4 4 5 3x3マトリックスの別の画像には、強度値を持つピクセルのグループがあります。 5 5 6 6 7 7 8 8 9 その場合、画像のシャノンのエントロピーは同じになります。この場合、エントロピー値は、実際には画像が異なるものの同じであることを示します。したがって、この手法を使用した画像マッチングは役に立ちません。監視された分類に基づくと、私はシャノンのエントロピーの訓練されたデータベースに基づいて画像を分類します、私たちはエントロピーの概念を使用して2つの画像間の類似性を見つけます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.