タグ付けされた質問 「image-processing」

一般に、画像処理は、写真やビデオフレームなどの入力が画像である信号処理の任意の形式です。

2
OCR処理用の「ハーフトーン」画像のフィルタリング
スキャンしたPDF資料に非表示のテキストレイヤーを追加したいので、ドキュメントにインデックスを付けます。私はghostscript白黒のtiff出力デバイス(tiffg4)を使用して、ページをtiff画像として抽出しました。以下に、それらがどのように見えるかの例を示します。 この画像をテッセラクトで処理しても、良い結果は得られません。 ghostscript出力DPI(600、300、150、96)を変更すると、96 DPIの画像がテッセラクトから最良の結果が得られることを示していますが、それでも十分ではありません。 次に、OCR処理用にこのフィルターを強化するフィルターについてアドバイスを求めようと思いました。 imagemagick、またはnumpy / scipy / ndimageを使用できます

2
「同じ」の畳み込み形状の2Dカーネルの畳み込み行列を生成する
特定の2DカーネルHH H 畳み込み行列を見つけたい。 たとえばImg、サイズがm×nm×n m \times n 画像の場合、(MATALBで)欲しい: T * Img = reshape(conv2(Img, H, 'same'), [], 1); ここで、T畳み込み行列であり、same入力されたサイズと一致した畳み込み形状(出力サイズ)を意味します。 理論的には、Hはテプリッツ行列に変換する必要があります。MATLAB関数を使用していますconvmtx2()。 T = convmtx2(H, m, n); ただし、MATLABはのたたみ込み形状に一致するたたみ込み行列を生成するため、Tサイズは(m+2)(n+2)×(mn)(m+2)(n+2)×(mn) (m+2) (n+2) \times (mn) convmtx2ですfull。 畳み込み形状パラメーターconv2()との使用に一致する畳み込み行列を生成する方法はありsameますか?

1
歯科用X線撮影からのノイズの除去
私はアクティブシェイプモデル を適用して、歯科用X線写真で歯を見つけるプロジェクトに取り組んでいます。この手法に詳しい方のために、現在、各ランドマークの法線ベクトルに沿ってサンプリングを試みています。このペーパーでは、サンプリングされたピクセルの導関数を使用することを推奨しています。 したがって、私の問題は、デリバティブオペレーターを適用するために歯科用X線をフィルター処理するための最良の方法です。私は現在、中央値フィルターの組み合わせを使用して、量子ノイズ(まだら)だと思うもののほとんどを削除しています。その後、バイラテラルフィルターが続きます。次に、Scharr演算子を適用して、サンプリングする実際の勾配を計算します。 結果を以下に示します。 最初の画像は元のデータを示しています。2番目と3番目の画像では、フィルター処理されたデータが、最初にFFT後のスペクトルの大きさとして、次にフィルター処理された画像データとして表示されます。4番目の画像は、3番目の画像にScharr演算子を適用した結果を示しています。 私の質問は: 私のアプローチとは異なる、歯科用X線写真のノイズを減らすためのよく知られたアプローチはありますか? エッジと「フラット」(非エッジ)領域の「煙のような」外観の原因は何ですか?フィルタリングされた画像にある種の残りのノイズですか、それとも勾配演算子に固有のものですか?それが実際にノイズである場合、どのフィルターを使用するのが最も適していますか?メディアンフィルターは、小さなノイズのあるブロブの除去に優れていましたが、カーネルが大きいと、エッジがぼやけすぎてしまいます。そのため、バイラテラルフィルターを使用して、大きなブロブをフィルターで除去し、エッジを損なわずに領域全体で色を均一化しますが、このスモーキーな構造をフィルターすることはできません。 この場合、勾配を作成するためにScharr演算子よりも優れたオプションはありますか? おまけ:これはアクティブシェイプモデルの適切な入力と見なされますか?どれほど堅牢かはまだわかりません。

2
ハフ変換の前にSobel / Prewittエッジ検出の代わりにキャニーエッジ検出が使用されるのはなぜですか?
ハフ変換が画像で機能するためには、バイナリ画像である必要があることを知っています。グレースケール画像から変換するには、エッジ検出アルゴリズムを使用する必要があります。私は人々が常にキャニーエッジ検出を他のもの(Sobelなど)の代わりに使用していることに気づきました。何故ですか?


1
スペースプローブイメージからアーティファクトを削除
これは私たちの故郷の写真で、Juno宇宙船が最近木星に向かう途中でスリングショットを撮っています。それがスピードで得たもの、私たちは私たちのもので負けました、しかし、ありがたいことに私たちは太陽に落ちることはありません。 南アメリカ大陸が左側にあると思います。 ただし、画像全体に一種のアーチファクトがあり、画像全体にかすかな種類の青いバーが存在していることがわかります。何が原因なのか、私は知りたいです。 私が本当に知りたいのは、このアーティファクトを削除するために、私たちがおかしな人間が必要とするかもしれない画像処理技術は何ですか?

2
SURF機能の計算プロセスについて
それで、私はSURF(ベイ、エッス、トゥイテラー、ヴァングール:高速化された堅牢な機能(SURF))に関する論文を読んでいましたが、以下のこの段落を理解できません。 ボックスフィルターとインテグラルイメージを使用しているため、以前にフィルターしたレイヤーの出力に同じフィルターを繰り返し適用する必要はありませんが、代わりに元のイメージに直接同じ速度で任意のサイズのボックスフィルターを直接適用できます。並列でも(後者はここでは利用されませんが)。したがって、画像サイズを繰り返し縮小するのではなく、フィルターサイズを拡大することにより、スケールスペースが分析されます(図4)。 This is figure 4 in question. PS:論文にはインテグラルイメージの説明がありますが、論文の内容全体は上記の特定の段落に基づいています。誰かがこのペーパーを読んだ場合、ここで何が起こっているのか簡単に説明できますか。全体の数学的説明は、最初に十分に理解するために非常に複雑なので、いくつかの支援が必要です。ありがとう。 編集、問題のカップル: 1。 各オクターブは、一定数のスケールレベルに細分されます。インテグラルイメージの離散的な性質により、2つの後続のスケール間の最小スケール差は、派生方向(xまたはy)での部分2次導関数の正または負のローブの長さloに依存します。フィルターサイズの長さの3分の1。9x9フィルターの場合、この長さloは3です。2つの連続するレベルでは、サイズを不均一に保ち、中央のピクセルの存在を確保するために、このサイズを最低2ピクセル(各辺に1ピクセル)増やす必要があります。 。これにより、マスクサイズが6ピクセル増加します(図5を参照)。 Figure 5 私は与えられた文脈での線を理解できませんでした。 2つの連続するレベルでは、サイズを不均一に保ち、中央のピクセルの存在を保証するために、このサイズを最低2ピクセル(各辺に1ピクセル)増やす必要があります。 私は彼らが画像の長さで何かをしようとしていることを知っています、たとえそれらが奇数にしようとしているのなら、彼らがピクセル勾配の最大または最小を計算できるようにする中央のピクセルがあります。私はその文脈上の意味について少し不確かです。 2。 記述子を計算するために、Haarウェーブレットが使用されます。 ∑ d バツΣ dバツ\sum\ dx∑ | d x |Σ |dバツ|\sum\ |dx| 3。 近似フィルターを使用する必要性は何ですか? 4. フィルターのサイズの確認方法に問題はありません。彼らは経験的に何かを「した」。しかし、私はこの行のいくつかのしつこい問題を抱えています 前のセクションで紹介した9x9フィルターの出力は、最初のスケールレイヤーと見なされます。これをスケールs = 1.2と呼びます(σ= 1.2でガウス微分を近似します)。 彼らはどのようにしてσの値を知りましたか。さらに、下の画像に示されているスケーリングの計算はどのように行われますか?この画像について述べているのは、その値s=1.2についてはその起源について明確に述べずに、繰り返しの値が続くためです。 5.で 表現されるヘッセ行列Lは、ガウスフィルターと画像の2次勾配のたたみ込みです。 ただし、「近似」行列式には、2次ガウスフィルターを含む項のみが含まれていると言われています。 の値wは次のとおりです。 なぜ行列式が上記のように計算されるのか、おおよそのヘッセ行列とヘッセ行列の間の関係は何ですか?

2
パラメータ悪魔—グラウンドトゥルースに対する検証が不可能な場合にそれらを設定する方法[終了]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 6年前休業。 質問: Groundtruthに対する検証が不可能な場合(おそらくGroundtruthを取得できないか、取得が非常に困難/面倒なため)、人々がアルゴリズムパラメーターを設定する方法についての議論を始めたいと思います。 私は多数の論文を読み、基礎となるアルゴリズムを実装しました---一連のパラメーターは「経験的に」設定されたと言われています---そして、これらがアルゴリズムの一般性に影響を与えるものであることがよくあります(たとえメソッドの基礎となる理論は、エレガントで魅力的で健全です)。 ご意見をお聞かせいただければ幸いです。そして、この質問には正しい答えも間違った答えもありません。他の皆がこれにどう対処するか知りたいだけです。 背景/質問の出典: 私は画像解析、コンピュータービジョン、機械学習の分野で働いているコンピューターサイエンティストで、新しいアルゴリズムを設計するたびに何度も何度もこのジレンマに直面しているため、この質問はしばらくの間私の心の奥底にありましたパラメータの調整にかなりの時間を費やしていることに気づきました。 また、ここでの質問は、計算アルゴリズムに深く関わっているすべての領域に一般的であり、関係するすべての領域の人々の考えを招待したいと思います。 私はあなたにいくつかの具体的な例を挙げたかったので、それはあなたが考えるのを助ける: ---特徴検出の場合を考えてみましょう(円形のブロブまたは特徴点としましょう)。いくつかのフィルター(パラメーターが必要)を異なるスケール(スケールパラメーター)で実行し、おそらく応答にしきい値を設定します(しきい値パラメーター)。通常、検証するグラウンドトゥルースを取得して、そのようなシナリオでパラメーターを自動的に調整することはできません。 ---多数の信号処理コンポーネントを含む計算フレームワークを取り上げます。常に調整するパラメーターがあり、通常は根拠はありません。データセットの小さなランダムなサブセットで主観的にそれらを調整すると、いつかは一般化されないケースに遭遇します。 アルゴリズムのいくつかの中間ステップのパラメーターを設定する場合、このパラメーターの悪魔はより厄介です。 そして、私はしばしばこれらのパラメーターの適切な値を見つける問題を、導関数を取り、それによって標準の最適化アルゴリズムを使用して適切な値を見つけることができる目的関数の最適化問題としてキャストすることは不可能だと気付きました。 また、多くのシナリオでは、これらのパラメーターをエンドユーザーに公開することはオプションではありません。非計算エンドユーザー(生物学者、医師など)向けのアプリケーション/ソフトウェアを開発することが多く、チューニングを依頼すると、それらは通常無知になります。非常に直感的でない限り(おおよそのオブジェクトサイズなど)。 あなたの考えを共有してください。

1
画像内の車両を数える
私は、画像内の車をうまく数えるアルゴリズムを実装しようとしています。交通画像に複数車両のオクルージョンがある場合の車両カウント方法の実装を試みました さまざまな画像のセットから背景を推定します。私はこの目的のために他のさまざまな手法を検討しましたが、これらすべての方法のいずれかで、画像のセットからの背景推定を使用するか、ビデオを必要とします。私は入力として、背景(おそらくほとんどの論文では道路)がほとんど見えない交通画像を持っています。さらに、画像は異なる領域のものなので、共通の背景もありません。その場合、どうすればよいですか? どういうわけか私が車(車)の構造を一致させることができれば、おそらくそれらを一致させることができると考えています。しかし、これが実現可能かどうか、また、画像には複数の遮蔽された車両が含まれているため、それがどのように進むかはわかりません。 ヒントや研究論文も大歓迎です。 サンプル画像は次のとおりです。

1
エッジのノイズを除去(圧縮効果)
圧縮された漫画の画像があります。例: それらにはそのようなノイズがあり、削除するのは容易ではありません。 ピクセルが灰色の背景にある場合でも、ノイズピクセルは非常に異なる色になる可能性があり、そのような画像の(グレースケール画像の)ヒストグラムを見ると、メインカラーのビンの周りに多数のビンが見られます。ただし、重要な機能(目など)を削除するリスクがあるため、メインカラーではない値の色だけを削除することはできません。また、画像をポスタリゼーション化しようとしましたが(例では8色を表示しています)、一部のピクセルがまだ残っています。 また、メジアンフィルターを試しましたが、そのような重いノイズを消すことはできません(私は3 * 3フィルターを使用しています)。 この場合、ノイズを効果的に除去できる方法をいくつか教えてください。私はどんな助けにも感謝します!

1
3D画像の回転
等方性でないボクセルの3D画像を取得し、それに一般的な回転を適用しています。回転した画像の適切なボクセルサイズを決定するにはどうすればよいですか?情報の損失を最小限に抑える必要がありますが、画像が大きくなりすぎないようにするために、過度のスーパーサンプリングは避けてください。

2
わかりやすい英語のデジタル画像の瞬間
私はOpenCVを勉強しています。コンピュータービジョンと画像処理では、人々はブロブ、輪郭、接続された領域について話します。「画像の瞬間」というフレーズを時々耳にします。 ウィキペディアの記事を知っていますが、あまりにも専門的すぎると思います。私は数学の背景に深く入りたくありませんが、私が話していることを知りたいです。 誰かが私に画像の瞬間は平易な英語であると説明してもらえますか?

2
輪郭と面積、生(空間)、中央の画像モーメント
最近、バイナリ画像の画像処理に画像モーメントを使用し始めました。私はそれを読み取る0th0th0^{th}順序輪郭モーメントが境界と0th0th0^{th}順序面積モーメントである領域。これらの生の瞬間は両方によって与えられます: Mij=∑x∑yxiyjMij=∑x∑yxiyjM_{ij} = \sum_{x}\sum_{y}x^iy^jです。 つまり、次のような画像(ただし、バイナリの前景ピクセルは青で表示されます)がある場合、輪郭の画像であるため、モーメントは外周に対応します。0th0th0^{th} 私はこの(フォアグラウンド一方として示される)のようなイメージを持っている一方、私が取得する領域としてオブジェクトのモーメント:0th0th0^{th} コンターを使用してより多くのプロパティを取得したいので、高次(、2 n d、3 r dオーダ)の生のコンターモーメントも計算します。これらを使用して中心的な瞬間を取得したいと思います。1st1st1^{st}2nd2nd2^{nd}3rd3rd3^{rd} 中心的なモーメントを取得するために使用している式は次のとおりです。 μ00=M00μ00=M00\mu_{00} = M_{00} μ01=0μ01=0\mu_{01} = 0 μ10=0μ10=0\mu_{10} = 0 μ11=M11M00−xc∗yc=M11M00−(M10M00)∗(M01M00)μ11=M11M00−xc∗yc=M11M00−(M10M00)∗(M01M00)\mu_{11} = \frac{M_{11}}{M_{00}} - x_c*y_c = \frac{M_{11}}{M_{00}} - (\frac{M_{10}}{M_{00}})*(\frac{M_{01}}{M_{00}}) 0th0th0^{th}0th0th0^{th} さらに、等高線の生のモーメントに基づいて中心モーメントを計算できますか?

2
特徴検出前の画像処理
Harrisコーナーに基づいて特徴検出器を実装しました。ほとんどの場合正常に機能しますが、パフォーマンスが低下する場合があります。個別に構成せずに、さまざまな画像で機能させる必要があります。 問題は、検出器のしきい値にあります。設定が低すぎると、検出器が何度も起動し、その結果、膨大な数の機能が発生します。高すぎる設定では、機能が少なすぎます。 私はこれをANMS(Adaptive Non-Maximal Suppression)で部分的に解決し、記述子ベクトルを割り当てる前に機能の数を減らしました。 ただし、次のような画像に問題があります。 コントラストが低く、すべての画像に対してしきい値を低く設定しすぎることは「ありません」。検出器がこれらの画像を処理するようになりますが、他の画像には何千もの機能が含まれるため、ANMSでのフィルタリングが遅くなり、全体的なパフォーマンスが低下します。 特徴検出の前に画像を調整することを考えていました。たぶん、ヒストグラムの等化がうまくいくでしょう。コントラストのグローバルな変更はフィーチャ記述子に影響を与えないため、これは有効な操作である可能性があります(輝度とコントラストの変更に対して不変です)。 たぶん、適応しきい値またはいくつかのヒューリスティックを使用するほうがうまくいくでしょう。 他に何か提案はありますか?

2
CTスキャンDICOM画像の肺結節を測定する方法は?
この質問では、CTスキャンの強度値に焦点を当てたいと思います。まず、下の画像を見てください。 上の画像は元の画像で、下の画像はしきい値バージョンです。任意の形状のボリュームを測定するために、理論的には、単に画像内のボクセルの数を数えることが可能です。ただし、オブジェクトの最も外側の層(結節など)の輝度は暗く、オブジェクト内のすべてのボクセルの輝度は非常に高くなっています。しきい値バージョンのボクセルを単純に数えると、肺結節の実際のボリュームよりも大きい結果ボリュームが得られる可能性が非常に高くなります。 また、DICOM画像の輝度情報を調整するために使用できるウィンドウの中心(レベル)やウィンドウの幅などの変数があることもわかります。強度が異なると、結果のボリュームが変わる可能性があります。 だからここに質問があります:私が特定の肺結節を測定する場合、可能な限り最高の精度を達成するために何をすべきですか?強度の低いボクセルはいつ無視すべきですか?それとも他の方法でこれを行う必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.