タグ付けされた質問 「image-processing」

一般に、画像処理は、写真やビデオフレームなどの入力が画像である信号処理の任意の形式です。

1
Matlabを使用した肝臓セグメンテーションの適応しきい値処理
適応しきい値法を使用して腹部CT画像から肝臓をセグメント化する必要があります。しかし、前景全体を背景だけから分離しています。前景の肝臓部分だけを分離する必要があります。http://www.ijcaonline.org/casct/number1/SPE34T.pdf にあるpdfファイルを確認してください。図6に示すような出力が必要です。 ここにコーディングを添付します。親切に私を助けてください。 %testadaptivethresh.m clear;close all; im1=imread('nfliver2.jpg'); bwim1=adaptivethreshold(im1,11,0.03,0); figure,imshow(im1); figure,imshow(bwim1); imwrite(bwim1,'at2.jpg'); function bw=adaptivethreshold(IM,ws,C,tm) %ADAPTIVETHRESHOLD An adaptive thresholding algorithm that seperates the %foreground from the background with nonuniform illumination. % bw=adaptivethreshold(IM,ws,C) outputs a binary image bw with the local % threshold mean-C or median-C to the image IM. % ws is …

2
Photoshopの「白黒」調整レイヤーの背後にあるアルゴリズムは何ですか?
フォトショップの「白黒」調整レイヤーの背後にあるアルゴリズムについて誰かが説明できますか? 画像から赤/マゼンタではないピクセルを強調するアプリケーション(パーセントのような構成可能な許容誤差を使用)をC ++を使用して再現する必要があり、このリソースは私が期待する動作を示しました。 それでも再現できませんでしたが、手がかりを見つけました。 各ピクセルは、最大2つのコントロール、1つの加算(RGB)と1つの減算(CMY)によって定義されます。

2
画像の再構成:位相とマグニチュード
図1.(c)は、MAGNITUDEスペクトルのみから再構成されたテスト画像を示しています。低頻度ピクセルの強度値は、高頻度ピクセルよりも比較的多いと言えます。 図1.(d)は、PHASEスペクトルのみから再構成されたテスト画像を示しています。高頻度(エッジ、ライン)ピクセルの強度値は、低頻度ピクセルよりも比較的多いと言えます。 強度の変化(または交換)のこの魔法の矛盾が、MAGNITUDEスペクトルのみから再構築されたテストイメージとPHASEスペクトルのみから再構築されたテストイメージの間に存在するのはなぜですか? clc; clear all; close all; i1=imread('C:\Users\Admin\Desktop\rough\Capture1.png'); i1=rgb2gray(i1); f1=fftn(i1); mag1=abs(f1); s=log(1+fftshift(f1)); phase1=angle(f1); r1=ifftshift(ifftn(mag1)); r2=ifftn(exp(1i*phase1)); figure,imshow(i1); figure,imshow(s,[]); figure,imshow(uint8(r1)); figure,imshow(r2,[]); r2=histeq(r2); r3=histeq(uint8(r2)); figure,imshow(r2); figure,imshow(r3);

3
最も一般的な現代の画像セグメンテーション技術
私は画像セグメンテーションテクニックについていくつか読んでいて、現代の最先端のセグメンテーションアルゴリズムについて疑問に思っていました。 「必読」である現在のセグメンテーション手法、つまり現在コミュニティで最も一般的に使用されているものは何ですか?どの技術に接触し、最も効果的かつ有用であると思いましたか(そしてどのアプリケーションについて)?


4
畳み込みはどのように行列乗算(行列形式)として表現できますか?
この質問はプログラミングにはあまり関係がないかもしれませんが、画像処理の背後にある理論を理解しなければ、実際に何かを実装することはできません。 ガウスフィルターは、ピクセルの近傍の加重平均を計算し、エッジ検出に非常に役立ちます。これは、ぼかしを適用して画像を同時に導出できるためです。単にガウス関数の導関数とたたみ込みます。 しかし、誰かが私を説明したり、それらがどのように計算されたかについていくつかの参照を私に与えたりできますか? たとえば、Cannyのエッジ検出器は5x5ガウスフィルターについて話しますが、それらはどのようにしてこれらの特定の数値を取得しましたか?そして、それらはどのようにして、継続的な畳み込みから行列の乗算に移行しましたか?

3
YCbCr色空間のCbおよびCrコンポーネントについて
アディティブ(RGB)、サブストラクティブ(CMYK)、HSVのような色空間に精通していますが、私が現在理解しようとしている記事は、画像のセグメンテーション/オブジェクト定義のためにYCbCr色空間を操作しています。 私は朝のほとんどを費やして、YCbCrを自然に説明できるものを探していますが、理解できません。ここで、この色空間の背後 にある一般的なアイデアについてのわかりやすい直観的な説明と、これらの人たちからの画像のコーディング/圧縮にどのように使用されているかについての説明(すべてphoto.SEについて)を得ました。 RGBからYCbCrを計算するための式は、ウィキペディアで簡単にアクセスできます。 この表現の動機がわかりました。Y成分には、画像に関する(人間の目にとって)最も重要なグレースケール情報が含まれています。 私は約そのCb、Crのキャリー情報だ色を、その(人間の目(感性)中のため)、これらは品質に見える失われずに圧縮することができます。しかし、各クロミナンスコンポーネントは実際には何を表していますか? 記事の執筆者が彼らのアプローチで「クロミナンス情報はオブジェクトの定義において最重要である」と述べているように、私は現在の「Yは強度、CbとCrは何とか色情報を運ぶ」レベルで読んでいることを完全に理解できません。 YCbCrを理解する。 「Cbは...、Crは...」、または「XYを介して/またはXYを使用して見ている場合、実際にはCbコンポーネントを見て...」などの答えを探しています。他の方法で、コンポーネントが一緒に色情報を運ぶだけでなく、各コンポーネントが別々に運ぶ情報を理解するのに役立ちます。 編集 私が探しているタイプの他の色空間の直感的な説明の例を挙げましょう: RGB:黒い壁に色付きの懐中電灯を照らすように:青い懐中電灯で照らすと、青い反射が見えます。赤い懐中電灯を追加すると、青と赤の混合であるマゼンタの反射が表示されます。 CMYK:水彩絵の具を混ぜるように、「表面が反射する色に追加する」(つまり、背景から色を差し引く)ので、黄色のものとシアンのものを混ぜると、緑を反映して緑の色になります。 HSV:小さな子供は、明るい(価値)ではなく、彩度の高いオブジェクトに惹かれます。色相コンポーネントは「色を与える」ものですが、彩度が低いと、色は白で「薄く」なります。価値の変化は全体を明るくしたり暗くしたりします。 この定義により、それぞれのチャートを覚えることなく、各色空間の色表現が何を意味するかについて直感的に感じることができました。

2
ガウスの違い、ガウスのラプラス、メキシカンハットウェーブレットの違いは何ですか?
CVで使用されている3つの手法は非常に似ていますが、微妙な違いがあります。 ガウスのラプラシアン:∇2[g(x,y,t)∗f(x,y)]∇2[g(x,y,t)∗f(x,y)]\nabla^2\left[g(x,y,t)\ast f(x,y)\right] ガウスの差:[g1(x,y,t)∗f(x,y)]−[g2(x,y,t)∗f(x,y)][g1(x,y,t)∗f(x,y)]−[g2(x,y,t)∗f(x,y)] \left[g_1(x,y,t)\ast f(x,y)\right] - \left[g_2(x,y,t)\ast f(x,y)\right] リッカーウェーブレットとの畳み込み:リッカー(x、y、t )∗ f(x 、y)Ricker(x,y,t)∗f(x,y)\textrm{Ricker}(x,y,t)\ast f(x,y) 私が現在理解しているように:DoGはLoGの近似です。どちらもブロブ検出で使用され、どちらも基本的にバンドパスフィルターとして機能します。メキシカンハット/リッカーウェーブレットを使用した畳み込みでも、ほぼ同じ効果が得られるようです。 私は3つのテクニックすべてをパルス信号に適用しました(マグニチュードを類似させるために必要なスケーリングを使用)、結果はかなり近いです。実際、LoGとRickerはほとんど同じに見えます。私が気付いた唯一の本当の違いは、DoGとの違いです。LoGとRickerではなく、調整する2つの無料パラメーター(と)がありました。また、ウェーブレットが最も簡単/最速であることがわかりました。これは、DoGの場合は1回のたたみ込み(カーネルのFTを使用したフーリエ空間での乗算によって行われる)と、DoGの場合は2回、LoGの場合はコンボリューションとラプラシアンで実行できるためです。 σ 1σ1σ1\sigma_1σ1σ1\sigma_1 各手法の比較の長所/短所は何ですか? 一方が他方より優れているさまざまなユースケースはありますか? また、はカーネルとして実装できるため、LoGとRickerは別々のサンプルで同じ操作に縮退すると直観的に考えています。 。[ - 1 、2 、- 1 ]∇2∇2\nabla^2[ − 1 、2 、− 1]または⎡⎣⎢0− 10− 14− 10− 10⎤⎦⎥2D画像用[−1,2,−1]or[0−10−14−10−10]for 2D images\begin{bmatrix}-1,& 2,& -1\end{bmatrix}\quad\text{or}\quad\begin{bmatrix} 0 & -1 & 0 \\ -1 & 4 …

3
満たされたガラス物体の検出
私はこの質問からstackoverflowでここに送信されました。質問が具体的すぎて、ここの方法ではない場合は失礼します:) タスクは、特定の液体が入っているガラスを見つけることです。写真を見せて、私が達成しようとしていることと、これまでに達成しようとしていたことを、写真の下の説明で説明しましょう。 写真:(写真とリンクを投稿するには、少なくとも10の評判が必要なようです。リンクはこれを行う必要があります:(そうでなければ、スタックオーバーフローの質問を見ることができます) 詳細な説明:opencvで特定の形状のガラスを検出するアルゴリズムを実装しようとしました(ガラスは異なるカメラショットの角度/距離によって変換される可能性があります)。他の形の他のグラスもあります。私が探しているガラスも、他の色を含むガラスと区別するために、いくつかの着色された液体で満たされます。 これまでのところ、私はSIFT特徴抽出機能を使用してグラスのいくつかの特徴を見つけ、それをグラスの中にある他の写真と照合することを試みました。 このアプローチは、ガラスが非常に特定の位置にあり、背景が学習画像に似ているような非常に特定の条件でのみ機能しました。問題はまた、ガラスが3Dオブジェクトであり、そこから特徴を抽出する方法がわからないことです(おそらく、異なる角度からの複数の写真がリンクされているのでしょうか?)。 今、私は他にどんなアプローチが使えるのか分かりません。私はこれについていくつかの手掛かりを見つけましたが(ここでは/programming/10168686/algorithm-improvement-for-coca-cola-can-shape-recognition#answer-10219338)、リンクが壊れているようです。 別の問題は、そのようなガラスのさまざまな「空のレベル」を検出することですが、ガラス自体を適切に見つけることさえできませんでした。 このタスクでのアプローチについての推奨事項は何ですか?ローカル3Dオブジェクトフィーチャーを見つけるには別の方法を使用する方が良いでしょうか?それとも、他のアプローチを完全に使用する方が良いでしょうか?複数の写真のセットからオブジェクトを「学習」するアルゴリズムについて聞いたことがありますが、実際にはこれを見たことがありません。 任意のアドバイスは本当にいただければ幸いです




1
CT再構成ボリュームでの解剖学的ランドマークの検出に関するアドバイス
私は、CT再構成ボリューム内のいくつかの医学的に定義された解剖学的ランドマークを自動的に検出しようとしています。医師はこれらのランドマークを使用して、いくつかの患者固有のパラメータを測定します。これらの解剖学的ランドマークは「キーポイント」の一種であるため、SIFT機能記述子を使用しようとしました。ランドマークは、SIFTで定義されている「注目点」ではない点(または小さな領域)であるため、これはあまりうまく機能しませんでした。多くのパターン/テンプレートマッチングアルゴリズムを探していましたが、回転/平行移動/スケールの問題がない場合、抽出された機能では各ランドマークが(残りのランドマークおよび残りの非ランドマークから)十分に区別されないことがわかりますランドマークパッチ)十分に機能する(少なくとも検出精度の80%)分類器をトレーニングします。 問題を十分に明確に述べていない場合はお知らせください。 アドバイスをいただければ幸いです。 ありがとう! 画像の例: 小さなxの十字と小さな四角が、検出したいランドマークの上にあります(ラベル付けされたランドマークを含むトレーニングセットがあることを忘れていました)。白い線は実行された対策を表します。これらはさまざまなケースの一部です(もちろん、3Dボリューム全体を投稿することはできません)。

2
時間周波数画像のノイズ除去について
ウェルチの方法を使用して作成された次の例の時間-周波数画像を「ノイズ除去」するためにどのような手法が利用できるのかと思います。次のプロットは、ロボットセンサーから作成されました。(これはカラーイメージではありません -グレースケールイメージです-色は視覚的な目的でのみ追加されます)。 ゴール: 私の目標は、最終的には、このようなパルスが存在する場合に、ここに表示されるパルス間隔を推定することです。これは鶏と卵のようなものかもしれません。そのため、私は自分に「この反復率+/- 10%のパルスが存在するのか」と自問し、それらを検出します。ここに表示されているのは信号(パルス)ですが、その他の不要な干渉があります。ただし、Emreが示唆したように、時間-周波数空間ではありますが、それらには構造があります。時間周波数フィルター自体は存在しますか? ここで適用される画像処理ソリューションを強く望んでいますが、どのようなソリューションでも受け入れられます。 したがって、目標は、反復パルス(y軸のインデックス300の近くにあります)を除いて、すべての高輝度信号を削除することです。他のすべての高強度信号は「干渉」と見なすことができます。 想定できること: ここに表示されているパルス長を大まかに知っていると想定するかもしれません。(+/- 10%以内としましょう)。言い換えれば、この長さのパルスを探すことにしました。(+/-) パルスの反復率も大まかに知っていると仮定することができます(ここでも、+ /-10%としましょう)。 残念ながら、あなたは彼らの頻度をもはや正確に知りません。つまり、この画像ではパルスは300にありますが、100、50、または489などに簡単に合わせることができます。ただし、良いニュースは、ここに示されている周波数は互いに非常に近いことです。 私のいくつかの考え: 画像処理POV: 形態学的な操作が私に起こりました、しかし、私はそれらがうまくいくかもしれないかどうかを知るためにそれらに精通しています。私はアイデアが「閉じる」ことで、それゆえ「より大きい」汚れを取り除くことであると思いますか? Row-wize DFT操作は、最も高い繰り返しパターンを持つ対象の行に基づいて、どの行をnullにするかを示す可能性がありますが、パルスが少なく、間隔が遠い場合や、画像のノイズが多い場合は、実行可能なソリューションにならない場合があります。 画像を見るだけで、分離を「報奨」し、接続を「罰する」ことを望んでいます。このような操作を行う画像処理方法はありますか?(再び自然の形態学)。 ここで役立つ方法は何ですか? 信号処理POV: ここに示されている周波数範囲はすでに非常に狭いため、ノッチフィルター操作が役立つかどうかはわかりません。さらに、この狭い範囲内で示されるパルスの正確な周波数は、事前にわかっていません。 ここで関心のあるパルス(長さと繰り返し時間)に基づいて推測を行うことで、「テンプレート」の2次元DFTを計算し、これを2D ケプストラル時間フィルターとして利用できます。上記のウェルチイメージを単純に乗算してから、逆2次元DFTを実行しますか? OTOH ガボールフィルターは、ここで良い一致でしょうか?結局のところ、これらは方向に敏感なフィルターであり、独自の組み込みV1ビジュアルプロセッサーに似ています。彼らはどのようにここで悪用される可能性がありますか? このドメインで役立つ方法は何ですか? 前もって感謝します。

1
キャニーエッジ検出器のさまざまなパラメーターの影響を説明できますか?
Cannyエッジ検出器に関する最後の2つの質問 キャニーエッジ検出器の制限は何ですか? そして 葉の静脈を分割する最良の方法? アルゴリズムの基本的な概要は次のとおりです。 a。ガウスたたみ込みを適用します。(ここで作成する選択) b。2D導関数を適用する c。ヒステリシス下限および上限T0およびT1(ここでT 0およびT 1の選択を選択)を使用して、このエッジの隆起を追跡し、しきい値処理(エッジにないピクセルをゼロに設定)します。 σσ\sigmaT0T0T0T1T1T1 詳細については、こちらをお読みください。 一方、キャニーは最適であると主張されています。実際的な結果が重要な場合は、上記のおよびT 1を調整することで大きな違いが生まれます。σ,T0,σ,T0,\sigma, T0,T1T1T1 では、これらの(微調整)パラメータを実際にどのように選択するのでしょうか。明確なアプローチや価値がない場合でも、これを知るための一般的な手法は何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.