タグ付けされた質問 「image-processing」

一般に、画像処理は、写真やビデオフレームなどの入力が画像である信号処理の任意の形式です。

2
DFTを使用したサブピクセル画像シフトは実際にどのように機能しますか?
サブピクセルシフト画像の生成を伴うアプリケーションのいくつかの画像補間方法の品質を評価しようとしています。これらすべての補間バリアントを使用してサブピクセルシフトの結果を完全にシフトした画像と比較できると思いましたが、おそらくそれを取得することはできません(補間の必要性はどうなりますか?)。 私は、周波数領域でDFT +シフトを使用することを考えていましたが、画像を明示的に補間する(バイリニア、バイキュービックなどを使用する)場合と比較して、実際にどのように機能するのかわかりません。完全にシフトした画像を生成することはできないと確信していますが、指を置くことはできません。DFTを使用したサブピクセルシフトは、補間の適用と同等ですか?この方法を使用して取得した画像のピクセル値のバイアスはどのくらいですか?ありがとう! 編集: 問題を考えた後、FFTは高調波(正弦関数)の観点から元の関数の近似(さらにはDFT)であるため、何らかの三角補間に相当すると考えました。離散データの「フーリエ級数補間」式は三角補間でしたが、接続されているかどうかはわかりません。

1
葉に覆われた木の枝の再構築
枝の一部が葉で覆われている木の写真で、どのように枝をほぼ再構成しますか? スレッシュホールドして、いくつかの異なる角度で線分で開くことで、枝の可視部分を抽出できます。しかし、葉で覆われたスペースをどのように(およそ)埋めるのでしょうか? このツリーの描画から開始するとします。 画像をグレースケールとしてロードします uu = mmreadgray( 'tree2.jpg') 暗い色のしきい値。バイナリに変換します。200pxエリアの下の接続された領域を削除します vv = mmareaopen(mmbinary(mmthreshad(mmneg(uu)、200))、20) 90度、180度、135度、45度の10pxラインセグメントでvvを開きます。これらの画像を追加して、マーカー画像zzを形成します zz = mmaddm(mmaddm(mmaddm(mmopen(vv、mmseline(10、90))、mmopen(vv、mmseline(10、180)))、mmopen(vv、mmseline(10、135)))、mmopen(vv、 mmseline(10、45))) マーカー画像zzからvvの可視の四肢部分を再構成します aa = mminfrec(zz、vv) 元の画像uuの上に結果aaを表示します。手足の合理的な抽出が達成されます mmshow(uu、aa) 今、手足全体をほぼ再構築する方法についての考えをいただければ幸いです。(または上記の手順の改善)。ありがとうございました!

1
DCTとPCAの関係
画像とビデオの圧縮に使用される2D 8x8 DCTの基本的な実装知識があります。主成分分析について読んでいると、PCAの方が明らかに一般的であるにもかかわらず、多くの類似性が見られます。以前DCTについて読んだとき、DFTに関連して常に提示されていました。私の質問は、PCTの観点からDCTをどのように導き出すことができるのでしょうか?(手作業での説明でも十分です) どうもありがとう

4
産業用マシンビジョンシステムにおけるソフトウェアとメカニクス/光学系のトレードオフに関する参考文献はありますか?
簡単な例で質問を説明します。 これらの主な要件を備えたアイテムの自動検査用の産業用ビジョンシステムを設計できます。 良い作品の画像は黒い背景で、作品は灰色でなければなりません。 欠陥は灰色の領域内に白い領域として表示される必要があります。 これらの要件により、システムのソフトウェア部分が大幅に簡素化されます。アイテムを不良品として分類するために、アルゴリズムは白いピクセルを数えるだけです。 しかし、この簡単なアルゴリズムを実現するには、システムの照明/光学/機械部分の設計が非常に上手でなければならず、その部分はソフトウェアよりもコストがかかるかもしれません。 たぶん過去に、「メカニックはできるだけ使い、ソフトウェアはできるだけ使いません」のような文章を読んだかもしれません。1990年代(または1980年代)の実用的なマシンビジョンに関する本に載っていたようですが、適切な引用/参照が見つかりません。

2
検出された線に基づいてホモグラフィを計算する
「完全なモデル」と画像点の間の対応点を使用して、画像からカメラ平面までのホモグラフィを計算できることを知っています。 私はサッカーのピッチ/フィールドでそれをやっており、エッジ検出を使用してピッチ内の白い線を見つけました。 しかし、カメラは(常に)すべてのピッチをカバーしているわけではないため、すべてのコーナーを見ることができません...そして、モデルのコーナーのみが100%既知のポイントです(他の顕著なポイントはありません)。 問題は、線が別の線と交差して角を形成しない限り、線の画像点のみを知っていることであり、モデルの対応する「完全/現実世界」座標ではありません。 検出された線が互いに交差せずにコーナーを作成していても、検出された線を使用してホモグラフィを計算する方法、または候補ホモグラフィのセットだけを計算する方法はありますか? ピッチ、視野、および対応する実世界/モデル座標(緑色の円)を知ることができるピッチのポイント、および視野内ではまったく役に立たない可能性がある2行の例を示す画像の例、私は彼らがピッチの対応する現実世界/モデルで開始または停止する正確な手がかりがありません: 赤い線は、使用したい線の例ですが、実際の座標はわかりません。カメラのポーズによっては、対応する点が「どこでも」になる可能性があるため、推定するのは難しいです。

3
画像の解像度を上げる
数百kS / sで繰り返しサンプリングして数GHzの信号を再構成するオシロスコープ(DSA8300)を知っています。これが2D信号(写真)に拡張できるかどうか疑問に思っていました。市販の16MPカメラを使用して一連の静止画(たとえば4)を撮影して、最終的に32MP画像を再構築できますか?これを行うと、各画像のエイリアスが削除されますか? そのようなことを単一の画像から試みた場合、新しい情報が導入されていないため、明らかに機能しません。撮影したすべての写真が完全に同一である場合、1つの画像があるのと同じ時点になりますか?バリエーションは不可欠ですか?CCD / CMOSノイズは、そのようなものが機能するのに十分なバリエーションですか? そのような技術やアルゴリズムの名前はありますか?何を探すべきですか?

4
画像内のシマウマのようなパターンの検出(写真からの構造化された光の縞の中心線の検出)
私は、被写体に対してフリンジを投影し、写真を撮るプロジェクトに取り組んでいます。タスクは、フリンジの中心線を見つけることです。フリンジの中心線は、フリンジ平面と被写体表面の間の交差の3D曲線を数学的に表します。 写真はPNG(RGB)であり、以前の試みでは、グレースケールと差分しきい値を使用して、白黒の「ゼブラのような」写真を取得し、そこから各フリンジの各ピクセル列の中間点を簡単に見つけました。問題は、しきい値処理と離散ピクセル列の平均高さの取得により、精度の低下と量子化が発生することです。これはまったく望ましくありません。 私の印象では、画像を見ると、いくつかの統計的掃引法によって、しきい値なしの画像(RGBまたはグレースケール)から直接検出された場合、中心線はより連続的(より多くのポイント)およびより滑らか(量子化されない)になる可能性があります(いくつかのフラッディング/反復畳み込み、何でも)。 以下は実際のサンプル画像です。 どんな提案でも大歓迎です!

2
ファブリック画像内の糸の数の検出
私は画像処理の初心者ユーザーであり、布地画像の糸の数、つまり縦糸と横糸(x軸に垂直および平行な糸)を決定するプロジェクトに取り組んでいます。 私は縦糸と横糸のそれぞれの列と行の合計を取得することで糸を検出しようとしていますが、画像の焦点が合っておらずシャープではないため、機能していないようです。また、この方法は、ファブリック内の糸の配列に非常に敏感です。 可能であれば、糸の検出のためのより良いアルゴリズムを提案してください。また、キャプチャされたすべての画像に対して糸を真っ直ぐにする可能性がある場合。IMROTATEを試しましたが、画像の黒い領域が作成され、行の合計が乱れ、アルゴリズムが失敗します。 この点での助けは私にとって非常に価値があります。ありがとう。

2
自動焦点推定?
「焦点が合っている」という相対的な品質を推定または比較するために、2Dモノクロ画像マトリックスまたはビットマップのセットでどのような分析を使用できますか?全体的なコントラスト、輝度のスパース性、または焦点のぼけから生じるその他のアーティファクトなどのスカラーメトリックを効率的に計算する方法はありますか?

2
ガウスのラプラシアンのシグマとガウスの違いの2つのシグマの関係は何ですか?
ラプラシアンオブガウスフィルターは差分オブガウスフィルターで近似できること、および後者の2つのシグマの比率は最適な近似を得るために1:1.6である必要があることを理解しています。ただし、ガウス分布の違いの2つのシグマが、ガウスのラプラシアンのシグマとどのように関係するのかはわかりません。前者の小さいシグマは後者のシグマに等しいですか?大きいシグマですか?それとも関係は別のものですか?

1
より良いエッジ保存による画像ノイズ除去
私は入力画像を持っています: そして、ガボールフィルターを使用した葉の静脈検出の出力ですが、出力は本当にノイズが多くなります。 トータルノイズ除去を使用してみましたが、結果は良くありません: しかし、葉脈の細かい部分を失いたくないので、中央値フィルターは私の問題に合わない

1
複数行にわたるアラビア語の詩の検出
コーランアプリを構築する必要があり、ユーザーがそれに触れたときに詩を読みたいです。私が直面している問題は、一部の詩が1.5行に拡大する場合があります(ハイライトされた赤色の詩)または1/4行にちょうど収まることです(強調された緑色の詩)。したがって、各詩をtextviewまたは他のビューに追加しても機能しないようです。 2番目の画像の赤い部分のような詩を検出したい。詩の音声ファイルがあるので、テキストを音声に変換する必要はありません

2
ラベルを貼る正しい場所を特定する
以下の画像では、というラベルの付い[0,1,2,3]た4つのクラスターを特定した2Dデータセットがあります。各形状に対してラベルを自然な方法で配置するアルゴリズムを探しています。私の最初の推測は、それらを以下に示すクラスターの「重心」に配置することでした。連続したクラスターの場合、これは正常に機能します。0ただし、クラスターのような形をとるクラスターの場合、アプローチは失敗します。凡例を使用せずに、この画像にラベルを配置するより良い方法は何でしょうか? * ここでの自然はある程度主観的ですが、ラベルのポイントは、視聴者がxy平面内の特定の領域を数値に関連付けるのを助けることです。

2
GLCMを使用してテクスチャを取得し、SVM Classifierを使用して分類するにはどうすればよいですか?
私は肝臓腫瘍のセグメンテーションと分類のプロジェクトをしています。肝臓と腫瘍のセグメンテーションにはそれぞれRegion GrowingとFCMを使用しました。次に、テクスチャフィーチャの抽出にグレーレベルの共起行列を使用しました。分類にはサポートベクターマシンを使用する必要があります。しかし、特徴ベクトルをSVMへの入力として与えることができるように、特徴ベクトルを正規化する方法がわかりません。誰でもMatlabでそれをプログラムする方法を教えてもらえますか? GLCMプログラムに、入力として腫瘍のセグメント化された画像を与えました。私は正しかったですか?もしそうなら、私の出力も正しいと思う。 私のglcmコーディングは、私が試した限りでは、 I = imread('fzliver3.jpg'); GLCM = graycomatrix(I,'Offset',[2 0;0 2]); stats = graycoprops(GLCM,'all') t1= struct2array(stats) I2 = imread('fzliver4.jpg'); GLCM2 = graycomatrix(I2,'Offset',[2 0;0 2]); stats2 = graycoprops(GLCM2,'all') t2= struct2array(stats2) I3 = imread('fzliver5.jpg'); GLCM3 = graycomatrix(I3,'Offset',[2 0;0 2]); stats3 = graycoprops(GLCM3,'all') t3= struct2array(stats3) t=[t1,t2,t3] xmin = min(t); xmax = max(t); …

2
異なる(音楽的?)トーンの識別に使用する方法論
私はこの問題をどのように攻撃するのが最善かを研究し、解明しようとしています。音楽処理、画像処理、信号処理にまたがるので、それを見る方法は無数にあります。純粋なsig-procドメインでは複雑に見えるかもしれないことは、画像や音楽の処理を行う人々によって簡単に(そしてすでに解決されているので)アプローチするための最良の方法について尋ねたかったのです。とにかく、問題は次のとおりです。 問題の私の手描きを許せば、次を見ることができます: 上の図から、3つの異なる「タイプ」の信号があります。最初のパルスは、からまで周波数を「ステップアップ」して、繰り返すパルスです。特定のパルス持続時間と特定のパルス繰り返し時間を持っています。f 4f1f1f_1f4f4f_4 2番目のものはにのみ存在しますが、パルス長が短く、パルス繰り返し周波数が高速です。f1f1f_1 最後に、3番目はトーンです。f1f1f_1 問題は、信号1、信号2、および信号3を区別できる分類器を作成できるように、どのようにこの問題に取り組むかです。つまり、シグナルの1つをフィードすると、このシグナルがそうであることがわかります。対角線混同行列を与える最適な分類子は何ですか? いくつかの追加のコンテキストと私がこれまで考えてきたこと: 私が言ったように、これは多くの分野にまたがっています。私が座ってこれと戦争に行く前に、どの方法論がすでに存在しているのかを尋ねたかった。ホイールを誤って再発明したくありません。さまざまな視点から見た考えをいくつか紹介します。 信号処理の観点: 私が検討したことの1つは、ケプストラム分析を行い、ケプストラムのGabor Bandwidthを他の2と区別するために使用し、次にケプストラムの最高ピークを測定することでした。シグナル-2から1。それが私の現在の信号処理作業ソリューションです。 画像処理の観点:ここでは、スペクトログラムに対して実際に画像を作成できるので、その分野の何かを活用できるのではないかと考えています。私はこの部分に精通していませんが、ハフ変換を使用して「ライン」検出を行い、ラインを「カウント」(ラインとブロブではない場合はどうですか?)してそこから行くのはどうですか?もちろん、スペクトログラムを撮影する任意の時点で、表示されるすべてのパルスが時間軸に沿ってシフトする可能性がありますので、これは問題になりますか?わからない... 音楽処理の観点:確かに信号処理のサブセットですが、signal-1には特定の、おそらく反復的な(音楽的?)品質があり、music-procの人々は常に見ており、すでに解決済みです多分楽器を区別する?確かではありませんが、考えは私に起こりました。おそらく、この立場はそれを見る最良の方法であり、時間領域の塊を取り、それらのステップレートをからかいますか?繰り返しますが、これは私の分野ではありませんが、これは以前に見られたものだと強く疑っています... 3つの信号すべてを異なる種類の楽器として見ることができますか? また、かなりの量のトレーニングデータがあることも付け加える必要があります。そのため、これらの方法のいくつかを使用すると、特徴抽出を行うことができ、K-Nearest Neighborを使用できますが、それは単なる考えです。 とにかく、これは私が今立っている場所です、どんな助けも感謝しています。 ありがとう! コメントに基づく編集: はい、、、、はすべて事前に知られています。(いくつかの差異が、は非常に少ない。例えば、私たちがいることを知っていると言うことができます = 400kHzには、それは401.32 kHzででてくるかもしれません。しかしまでの距離ので、高いです比較して500 kHzであるかもしれない。)信号-1常にこれらの4つの既知の周波数を踏むことになります。Signal-2には常に1つの周波数があります。f 2 f 3 f 4 f 1 f 2 f 2f1f1f_1f2f2f_2f3f3f_3f4f4f_4f1f1f_1f2f2f_2f2f2f_2 信号の3つのクラスすべてのパルス繰り返し率とパルス長もすべて事前にわかっています。(ある程度の分散がありますが、非常にわずかです)。ただし、信号1と2のパルス繰り返し率とパルス長は常にわかっていますが、それらは範囲です。幸いなことに、これらの範囲はまったく重複していません。 入力はリアルタイムで入力される連続時系列ですが、信号1、2、および3は相互に排他的であると仮定できます。つまり、信号の1つだけが任意の時点で存在するということです。また、任意の時点で処理するためにどれだけの時間チャンクを使用するかについて、多くの柔軟性があります。 データはノイズを含む可能性があり、既知の、、、ない帯域に偽のトーンなどがある可能性があります。これはかなり可能です。ただし、問題を「始める」ために、中程度のSNRを想定できます。f 2 f 3 f 4f1f1f_1f2f2f_2f3f3f_3f4f4f_4

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.