タグ付けされた質問 「image-processing」

一般に、画像処理は、写真やビデオフレームなどの入力が画像である信号処理の任意の形式です。

5
エッジ検出アルゴリズムを選択する際に考慮すべき要素は何ですか?
Sobel、Laplacian、Cannyメソッドなどのアルゴリズムを含む、多くのエッジ検出アルゴリズムについて学びました。私には最も人気のあるエッジ検出器はキャニーエッジ検出器であるようですが、これが使用するのに最適なアルゴリズムではない場合はありますか?使用するアルゴリズムを決定するにはどうすればよいですか?ありがとう!

5
この例のドキュメント画像のしきい値処理に最適なアルゴリズムは何ですか?
表示されている画像にさまざまな二値化アルゴリズムを実装しようとしています: コードは次のとおりです。 clc; clear; x=imread('n2.jpg'); %load original image %画像のサイズを変更して、後で計算作業が簡単になるようにします。 size(x); x=imresize(x,[500 800]); figure; imshow(x); title('original image'); z=rgb2hsv(x); %extract the value part of hsv plane v=z(:,:,3); v=imadjust(v); これで、niblackおよび%sauvolaアルゴリズムに必要な平均と標準偏差が見つかりました m = mean(v(:)) s=std(v(:)) k=-.4; value=m+ k*s; temp=v; niblackしきい値アルゴリズムを実装する%: for p=1:1:500 for q=1:1:800 pixel=temp(p,q); if(pixel>value) temp(p,q)=1; else temp(p,q)=0; end end end figure; imshow(temp); …

5
森林画像の軌跡の検出
森のシーンの画像で(トレイルに沿って立っているカメラの視点から)トレイルを特定するための研究/論文/ソフトウェアを知っている人はいますか? 私は次のような画像を取ることができるアルゴリズムを見つけようとしています: 次のような「トレイル」を特定するマスクを作成します。 ご覧のとおり、元の画像は少しぼやけており、意図的です。画像ソースは完全な焦点を保証することはできないため、適度な量のノイズとぼやけを処理できる必要があります。 私が最初に考えたのは、ガウスぼかしを適用し、画像をブロックに分割し、隣接するブロックを比較してシャープな色の違いを探します(トレイルの「エッジ」を示します)。しかし、私はすぐに、影や照明の他の変化が簡単にそれを放散することに気付きました。 私はSURFの特徴を抽出することを考えていましたが、画像が完全に鮮明で一貫した照明である場合にのみ、SURF / SIFTで成功しました。 また、画像とマスクをはるかに小さいサイズ(100x75など)に縮小し、1xNベクトルに変換し、それらを使用してFANNベースのニューラルネットワークをトレーニングしようとしました(画像は入力で、マスクが必要です)出力)。入力ベクトルの75%のサイズの1つの隠れ層があるこのような小さなサイズでさえ、トレーニングに6時間かかりましたが、それでもテストセット内のマスクを予測できませんでした。 誰もが主題に関する他の方法や論文を提案できますか?

5
ガウスフィルターが画像処理のローパスフィルターとして使用されるのはなぜですか?
1D信号処理では、多くのタイプのローパスフィルターが使用されます。ただし、ガウスフィルターはほとんど使用されません。 なぜ画像処理アプリケーションでそんなに人気があるのですか?これらのフィルターは、任意の基準を最適化した結果ですか、それとも単に画像の「帯域幅」が適切に定義されていないため、アドホックなソリューションです。

5
コンピュータービジョンに適した言語ですか?
コンテンツベースの画像検索システムを実装しようとしていますが、その前に、このタスクに適したいくつかのプログラミング言語の概要を取得したいと思います(優れたライブラリなどを持っています)。 誰もその種のタスクのためのいくつかの良い言語とライブラリを知っていますか?PythonやJavaはどうですか? ベスト

4
植物顕微鏡画像で気孔を見つける
画像処理の専門家への質問です。 私は難しいコンピュータービジョンの問題に取り組んでいます。タスクは、DIC顕微鏡画像で気孔(以下にマーク)をカウントすることです。これらの画像は、モルフォロジー演算やエッジ検出など、ほとんどの表面的な画像処理技術に耐性があります。また、他のセルカウントタスクとは異なります。 OpenCVを使用しています。私の計画は、気孔の識別に役立つ可能性のある機能を確認することです。 テクスチャ分類子 DCT(離散コサイン変換/周波数領域分析) LBP(ローカルバイナリパターン) HOG(方向付けられた勾配のヒストグラム) 堅牢な特徴検出器(私は懐疑的です) ハリスコーナー SIFT、SURF、STARなど Haarカスケード分類器/ Viola-Jonesの機能 そして、おそらく新しい機能記述子を設計します。今のところ、分類子の選択は省略しています。 私は何を見逃しましたか?これをどのように解決しますか?同様のオブジェクト検出問題の解決策は非常に役立ちます。 サンプル画像はこちら。 バンドパスフィルター後: キャニーエッジの検出は有望ではありません。一部の画像領域は焦点が合っていません。

3
一連の画像から3D構造を再構築するにはどうすればよいですか?
次のようにグループ化された輪郭のセット(線分セットのセット)があります。 Si={I0,Iπ4,I2π4,…,I7π4}Si={I0,Iπ4,I2π4,…,I7π4}S_i = \{I^0, I^\frac{\pi}{4}, I^\frac{2\pi}{4}, \ldots, I^\frac{7\pi}{4} \} どこで S私SiS_iは、1つの具体的なオブジェクトの写真のシーケンスを示します。 私jIjI^jは視点を持つ画像を表します(は正面図を意味します)。 j = 0jt hjthj^{th}j = 0j=0j=0 (背面図)の例を次に示します。 私πIπI^\pi 与えられたでオブジェクトの3D構造をどのように再構築できますか?S私SiS_i 誰かが私にいくつかの論文を教えてくれたり、キーワードを教えてもらえますか?ポイントクラウドなどで動作する多くの記事があることは知っていますが、線で動作しているため、それらは機能しません。

1
ハリスの角点検出の数学
この質問は、Signal Processing Stack Exchangeで回答できるため、Stack Overflowから移行されました。 7年前に移行され ました。 これは、ハリスコーナー検出の数式です。 しかし、次の疑問があります。 とvの物理的な意味は何ですか?多くの参考文献は、それがウィンドウwがシフトする大きさだと言っています。それでは、ウィンドウはどのくらいシフトされますか?1ピクセルですか2ピクセルですか?uuuvvvwww ピクセル位置の合計はウィンドウでカバーされていますか? 単に仮定、I (X 、Y )における単一の画素の強度であり(X 、Y )または中心とするウィンドウ内の強度の和(X 、Y )?w(x,y)=1w(x,y)=1w(x,y) = 1I(x,y)I(x,y)I(x,y)(x,y)(x,y)(x,y)(x,y)(x,y)(x,y) Wikiによると、画像は2Dであり、Iで示され、エリア上の画像パッチを考慮するように求められ、I (x 、y )という表記を使用します。(x,y)(x,y)(x,y)I(x,y)I(x,y)I(x,y) 数学的な説明を理解するのはわかりにくいです。誰もがアイデアを持っていますか?


1
さまざまな画像リサンプリング方法の実際に関連する違いは何ですか?
MathematicaのImageResize関数は多くのリサンプリング方法をサポートしています。 この領域に精通していない、最も近い隣、双線形、双二次、双三次(名前から明らか)を超えて、私は失われています。 これらの方法の基本的な(数学的な)違いを説明するソースを教えてください。特に、実際の違いを指摘してください(たとえば、方法の選択が本当に重要で顕著な違いをもたらすサンプル画像を表示するなど)。 私は信号処理の背景を持っていないので、「穏やか」で簡潔な紹介を好むでしょう:-) ここで、ImageResizeこれらの「怠yな」リンクをクリックするためのメソッドのリストをコピーします。 「最も近い」最近傍のリサンプリング 「双一次」双一次補間 「双二次」双二次スプライン補間 「双三次」双三次スプライン補間 「ガウス」ガウス再サンプリング 「Lanczos」ランチョス多変量補間法 「コサイン」コサイン補間 「ハミング」コサインロールオフハミング補間 「ハン」コサインロールアップ補間 「ブラックマン」三項一般化コサインロールオフ 「バートレット」三角ウィンドウ補間 「コネス」二乗ウェルチ補間 「ウェルチ」ウェルチ二次補間 「Parzen」区分的3次補間 「カイザー」ゼロ次修正ベッセル補間

5
「Lena」、「Mandrill」、「Cameraman」などの画像の音声相当物は何ですか?
これらの画像を何と呼ぶか​​わかりませんが、画像処理の世界では、特定の操作の出力を表示するための標準的な例として頻繁に使用されています。Lenaを「標準テストイメージ」として説明しているページへのリンクを次に示します。特定のオーディオフィルターまたは操作の効果を示すために使用される類似の標準的なオーディオクリップはありますか?

4
エッジが互いに接触しているときに、個別のオブジェクトを検出するにはどうすればよいですか?
この質問は、Signal Processing Stack Exchangeで回答できるため、Stack Overflowから移行されました。 8年前に移行され ました。 カメラから取得した画像内のすべての輪郭を見つける必要があります。そこで、まずエッジ検出器を使用してエッジを見つけ、次に輪郭を見つけます。ものすごく単純。 しかし、私の輪郭は「マージ」されます。たとえば、下の画像では、明らかに4つの異なるオブジェクトがあります。ただし、エッジはいくつかのポイントでわずかに接触しているため、4つの別々の輪郭ではなく、1つの大きな輪郭を取得します。しきい値、侵食、モルフォロジー操作などを変更してみましたが、エッジが少し触れたままです。下の画像に似た画像で別々の輪郭を取得する方法について誰か提案はありますか?(以下の画像は明らかに単なる例であり、実際の画像ははるかに複雑ですが、基本的な問題は同じです)。

3
距離変換の最速アルゴリズム
距離変換に利用可能な最速のアルゴリズムを探しています。 このサイトhttp://homepages.inf.ed.ac.uk/rbf/HIPR2/distance.htmによると、次のように説明しています。 距離変換は、2つのパス(例、RosenfeldとPfaltz 1968)で巧妙なアルゴリズムを使用して、はるかに効率的に計算できます。 あちこち検索して、「Rosenfeld、A and Pfaltz、J L. 1968. Digital Picturesの距離関数。パターン認識、1、33-61」を見つけました。 しかし、すでに1968年のアルゴリズムよりも優れた高速なアルゴリズムが必要だと思います。実際、1968年のソースを見つけることができなかったので、助けていただければ幸いです。

3
高次フィルターのカスケードバイカッドセクションはどのように機能しますか?
私は8次のIIRフィルターを実装しようとしていますが、これまで読んだすべてのアプリケーションノートと教科書には、2次のセクションとして2を超える次数のフィルターを実装するのが最善であると書かれています。tf2sosMATLABで2次セクションの係数を取得するために使用しましたが、予想どおり、4 2次セクションの6x4係数が得られました。SOSとして実装する前は、8次フィルターには7つの以前のサンプル値を保存する必要がありました(および出力値も)。ここで、2次セクションとして実装するとき、フローが入力から出力までどのように機能するか、2つの前のサンプル値のみを保存する必要がありますか?または、最初のフィルターの出力はx_in2番目のフィルターのように送られますか?
20 filters  filter-design  infinite-impulse-response  biquad  audio  image-processing  distance-metrics  algorithms  interpolation  audio  hardware  performance  sampling  computer-vision  dsp-core  music  frequency-spectrum  matlab  power-spectral-density  filter-design  ica  source-separation  fourier-transform  fourier-transform  sampling  bandpass  audio  algorithms  edge-detection  filters  computer-vision  stereo-vision  filters  finite-impulse-response  infinite-impulse-response  image-processing  blur  impulse-response  state-space  linear-systems  dft  floating-point  software-implementation  oscillator  matched-filter  digital-communications  digital-communications  deconvolution  continuous-signals  discrete-signals  transfer-function  image-processing  computer-vision  3d 

6
ウォルシュアダマール変換とは何ですか?
私はWHTについて自分自身を学ぼうとしていますが、どこでもオンラインでそれについて多くの良い説明があるようには見えません。WHTを計算する方法を理解したと思いますが、画像認識ドメイン内でWHTが有用であると考えられる理由を本当に理解しようとしています。 それについて特別なことは何ですか?また、古典的なフーリエ変換や他のウェーブレット変換では現れない信号にどのような特性をもたらしますか?ここで指摘したように、なぜオブジェクト認識に役立つのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.