タグ付けされた質問 「image-processing」

一般に、画像処理は、写真やビデオフレームなどの入力が画像である信号処理の任意の形式です。

5
テキスト内の「川」の検出
TeXスタック交換については、この質問の段落で「川」を検出する方法について議論してきました。。 この文脈では、川はテキスト内の単語間スペースの偶発的な整列から生じる空白のバンドです。これは読者にとって非常に注意をそらす可能性があるため、悪い川はタイポグラフィの悪さの症状であると考えられています。川のあるテキストの例はこれです。2本の川が斜めに流れています。 これらの川を自動的に検出することに関心があり、それらを回避することができます(おそらくテキストを手動で編集することによって)。RaphinkはTeXレベル(グリフの位置と境界ボックスのみを知っている)である程度進歩していますが、川を検出する最良の方法は画像処理を使用することだと確信しています(グリフの形状は非常に重要であり、TeXでは利用できないため) 。上記の画像から川を抽出するさまざまな方法を試しましたが、少量の楕円形のぼかしを適用するという私の単純なアイデアは十分ではないようです。私もいくつか試しましたラドンハフ変換ベースのフィルタリングですが、これらのいずれにもアクセスできませんでした。川は人間の目/網膜/脳の特徴検出回路に非常に見えており、何らかの形でこれを何らかのフィルタリング操作に変換できると思いますが、機能させることはできません。何か案は? 具体的には、上記の画像で2つの河川を検出する操作を探していますが、他の誤検出はあまりありません。 編集: Endolithは、TeXではグリフの位置、間隔などにアクセスできるため、画像処理ベースのアプローチを追求している理由を尋ねました。実際のテキストを調べるアルゴリズムを使用する方がはるかに高速で信頼性が高いかもしれません。物事を別の方法で行う理由は、その形がグリフの大きさは川の目立ち方に影響を与える可能性があり、テキストレベルでは、この形状(フォント、合字などに依存)を考慮することは非常に困難です。グリフの形状がどのように重要であるかの例については、次の2つの例を検討してください。それらの違いは、いくつかのグリフをほぼ同じ幅の他のグリフに置き換えたことです。それらも同様に良い/悪い。ただし、最初の例の川は2番目の例よりもはるかに悪いことに注意してください。

6
画像の場合、周波数領域は何を示していますか?
私は画像の周波数領域について学んでいました。 波の場合の周波数スペクトルを理解できます。波に存在する周波数を示します。我々はの周波数スペクトルを描く場合cos(2πft)cos⁡(2πft)\cos(2\pi f t)、私たちはでインパルス信号を取得−f−f-fと+f+f+f。また、対応するフィルターを使用して特定の情報を抽出できます。 しかし、画像の場合、周波数スペクトルは何を意味しますか?OpenCVで画像のFFTを取得すると、奇妙な画像が表示されます。この画像は何を示していますか?そして、そのアプリケーションは何ですか? 私はいくつかの本を読みましたが、それらは物理的な意味よりも多くの数学的な方程式を与えます。だから誰も画像処理でそれを簡単に適用して画像の周波数領域の簡単な説明を提供できますか?




10
ディープラーニングは画像処理/コンピュータービジョンを破壊しますか?
私は信号および画像処理、または多分コンピュータービジョン(まだ決定していません)の修士課程に登録することを楽しみにしており、この質問が浮上しました。 私の懸念は、ディープラーニングは特徴抽出と入力前処理をほとんど必要としないため、画像処理(または一般的な信号処理)を殺すことですか? 私はディープラーニングの専門家ではありませんが、他の手法のような特徴ベクトルの代わりに画像を直接取得する認識および分類タスクで非常にうまく機能しているようです。 画像処理技術を使用して、従来の特徴抽出+分類アプローチの方が良い場合はありますか、またはこれはディープラーニングのために死にかけていますか?

4
オーディオ処理/分析用のOpenCVの類似ライブラリ
OpenCVは、C / C ++で画像処理をプログラミングするための事実上のライブラリです。オーディオ処理用のそのようなCまたはC ++ライブラリがあるかどうか疑問に思っています。基本的に、マイクからの生の波をフィルタリングし、いくつかの機械学習アルゴリズムで分析したいと思います。しかし、私は最終的にも必要になる場合があります: マルチプラットフォームオーディオキャプチャおよびオーディオ再生 DSP-オーディオフィルター トーン検出 色調特性分析 トーン合成 いくつかの認識コーパスとモデルを与えられた認識 音声/音楽合成 アドバイスをいただければ幸いです。

6
葉の静脈を分割する最良の方法は?
私は多くの研究をしており、葉の静脈を検出するのに使用できる適応しきい値や流域などの方法を見つけました。ただし、多くのノイズが発生するため、しきい値設定は適切ではありません。 私の画像はすべて灰色の画像です。緊急の助けが必要なこの問題を考慮しながら、誰がどのアプローチを採用するか提案してください 編集:元の画像 しきい値処理後 答えが示唆するように、私は次のエッジ検出を試みました キャニー 多すぎるノイズと不要な妨害 ソーベル ロバーツ 編集:もう1つの操作を試みましたが、次の結果が得られました。キャニーとアダプティブで試したものよりも良いですか?

5
点パターン認識
2つの異なるサイズのポイント(簡単にするために2D)の2つの異なるサイズを2つの異なるサイズの正方形に分散させると、問題は次のとおりです。 1- 小さいものから大きいものまでを見つける方法 2-次の図に示すように、発生をランク付けする方法についてのアイデアはありますか? 質問の簡単なデモンストレーションと望ましい解決策は次のとおりです。 更新1: 次の図は、調査中の問題のもう少し現実的なビューを示しています。 コメントに関して、次のプロパティが適用されます。 ポイントの正確な位置が利用可能です ポイントの正確なサイズが利用可能です サイズはゼロ(〜1)=ポイントのみ 白い背景にすべてのポイントが黒です グレースケール/アンチエイリアシング効果はありません 以下にendolith、いくつかの小さな変更を加えてで提示したメソッドの実装を示します(回転が小さくて高速なので、ソースではなくターゲットを回転しました)。以前にそれについて考えていたので、「endolith」の答えを受け入れました。RANSACについて私はこれまで経験がありません。さらに、RANSACの実装には多くのコードが必要です。


1
食品瓶のラベルの画像を平らにする方法は?
食品の瓶のラベルの写真を撮り、ラベルが平らになるようにラベルを変換できるようにしたいです。右側と左側が画像の中央に合わせてサイズ変更されます。 理想的には、エッジを見つけて補正を適用するために、ラベルと背景のコントラストを使用したいと思います。それ以外の場合は、ユーザーに画像の角と辺を何らかの方法で識別するように依頼できます。 私は、球状に(私の場合は円筒状に)歪んだ画像を撮影し、画像を平坦化できる一般的な手法とアルゴリズムを探しています。現在、瓶またはボトルに巻き付けられているラベルの画像には、画像の右または左に後退するにつれて縮小する機能とテキストがあります。また、ラベルの端を示す線は、画像の中央でのみ平行であり、ラベルの左右の端で互いに向かって傾斜します。 画像を操作した後、まるで瓶や瓶にないときにラベルの写真を撮ったように、テキストと機能が均一なサイズになっているほぼ完璧な長方形を残したいと思います。 また、適切な修正を適用するために、この手法がラベルの端を自動的に検出できれば、それが欲しいです。それ以外の場合、ラベルの境界を示すようにユーザーに要求する必要があります。 私はすでにグーグルで検索して、次のような記事を見つけました: カーブしたドキュメントを平坦化するが、シンプルなカーブのラベルが必要なため、もう少しシンプルなものを探しています。

6
画像圧縮において、特定のウェーブレットが他のウェーブレットよりも「優れている」のはどのプロパティですか?
私は、ウェーブレット変換法を使用した画像圧縮について、より多くを学ぼうとしています。私の質問は次のとおりです。画像を圧縮するときにそれらを好ましいものにする特定のウェーブレットについてはどうですか?計算は簡単ですか?彼らはより滑らかな画像を生成しますか?等... 例:JPEG 2000はCohen-Daubechies-Feauveau 9/7 Waveletを使用しています...これはなぜですか?

3
適応しきい値処理の最も一般的なアルゴリズムは何ですか?
適応しきい値設定については、以前のいくつかの質問で説明されています。 Matlabを使用した肝臓セグメンテーションの適応しきい値処理 この例のドキュメント画像のしきい値処理に最適なアルゴリズムは何ですか? もちろん、適応しきい値処理には多くのアルゴリズムがあります。あなたが最も効果的で便利だと思うものを知りたいです。 最も使用した適応アルゴリズムとアプリケーション。どうやってこのアルゴリズムを選ぶようになったのですか?

7
画像内の正方形を見つける
OpenCVを使用して画像内の正方形を見つける必要があります(matlabやその他の問題はありません。一般的に、私はいくつかのアイデアを期待しています)。 以下のテスト画像を検討してください。 上の画像で色の付いた正方形を正確に見つける必要があります(白い長いストリップではありません)。 私がしたこと : 一般的な方法(OpenCVサンプルに付属)を適用しました。つまり、すべてのカラープレーンで輪郭を見つけ、近似し、要素数= 4をチェックします。いくつかの四角形、特に暗い四角形が検出されると、ある程度拡張されます。 次のステップは予測でした。すなわち、この配置は固定されています。そのため、いくつかが取得された場合、残りのものを予測できます。また、さらに拡張されました。しかし、精度は非常に悪かった。 しかし、ここでは予測は良い方法ではなく、最初のステップで与えられたように正確な答えを常に提供するとは限りません。 必要なもの: 1)これらの正方形をより正確に検出する他のより良い方法はありますか?または複数の方法? 1つの重要なポイントは、ここでは時間は問題ではないということです。アルゴリズムは遅くなる可能性がありますが、問題ではありません。しかし、精度が主要な基準です。 時々、画像がはるかにぼやけることがあります。 そして、私が直面した主要な問題の1つは、いくつかの正方形が背景の色とほぼ同じ色を持つことです(3列目の1番目と2番目の正方形を確認してください)。 アイデアを探して、事前に感謝します 更新: 以下は、私が得た最大の正確な結果です: もちろん、結果画像のサイズは少し変更されます。 更新2: 私は以下の回答でより良いソリューションを提供しました:https : //dsp.stackexchange.com/a/7526/818

2
ハフ変換とラドン変換の違いは何ですか?
私はCTスキャンについて学ぶことからラドン変換に精通していますが、ハフ変換については知っていません。ウィキペディアによると (r、θ)平面は、2次元の一連の直線のハフ空間と呼ばれることもあります。この表現により、ハフ変換は概念的に2次元ラドン変換に非常に近くなります。(それらは同じ変換を見る異なる方法として見ることができます。[5]) 彼らの出力は私には同じように見えます: Wolfram Alpha:ラドン Wolfram Alpha:ハフ だから私は違いが何であるか理解していません。それらは異なる方法で見られる同じものですか?それぞれの異なるビューの利点は何ですか?なぜそれらは「ハフ・ラドン変換」に結合されないのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.