タグ付けされた質問 「computer-vision」

コンピュータビジョンには、シーンや画像の高度な理解と認識を形成するために、画像や高次元データを処理、分析する方法が含まれます。

2
歩行者カウントアルゴリズム
現在、歩行者カウンタープロジェクトを開発しています(LinuxでOpenCV + QTを使用)。アプローチについての私の考えは次のとおりです。 フレームをキャプチャする バックグラウンド減算を行う 明確なノイズ(侵食、拡張) BLOBの検索(cvBlobslib)-フォアグラウンドオブジェクト 各BLOBについて、ROIを設定し、これらのBLOBで歩行者(detectMultiScaleを使用したLBP)を検索します(パフォーマンス向上のため) 見つかった歩行者ごとに、ネストされた上半身検索を実行します(不明)(信頼性の向上) 同じ歩行者が連続するフレーム(3〜4フレーム)で見つかった場合-その領域をカムシフトとトラックに追加-歩行者としてマークする 次のフレームのBLOB検出からカムシフト追跡領域を除外する 歩行者が行のインクリメント数を超える場合 順調に進んでいるかどうかを確認したい。私のアプローチを改善する方法について何か提案はありますか?誰かが似たようなことに取り組んだ場合、この問題に関する有用なヒント、リソース(および批判)をいただければ幸いです。

1
より良いエッジ保存による画像ノイズ除去
私は入力画像を持っています: そして、ガボールフィルターを使用した葉の静脈検出の出力ですが、出力は本当にノイズが多くなります。 トータルノイズ除去を使用してみましたが、結果は良くありません: しかし、葉脈の細かい部分を失いたくないので、中央値フィルターは私の問題に合わない

2
GLCMを使用してテクスチャを取得し、SVM Classifierを使用して分類するにはどうすればよいですか?
私は肝臓腫瘍のセグメンテーションと分類のプロジェクトをしています。肝臓と腫瘍のセグメンテーションにはそれぞれRegion GrowingとFCMを使用しました。次に、テクスチャフィーチャの抽出にグレーレベルの共起行列を使用しました。分類にはサポートベクターマシンを使用する必要があります。しかし、特徴ベクトルをSVMへの入力として与えることができるように、特徴ベクトルを正規化する方法がわかりません。誰でもMatlabでそれをプログラムする方法を教えてもらえますか? GLCMプログラムに、入力として腫瘍のセグメント化された画像を与えました。私は正しかったですか?もしそうなら、私の出力も正しいと思う。 私のglcmコーディングは、私が試した限りでは、 I = imread('fzliver3.jpg'); GLCM = graycomatrix(I,'Offset',[2 0;0 2]); stats = graycoprops(GLCM,'all') t1= struct2array(stats) I2 = imread('fzliver4.jpg'); GLCM2 = graycomatrix(I2,'Offset',[2 0;0 2]); stats2 = graycoprops(GLCM2,'all') t2= struct2array(stats2) I3 = imread('fzliver5.jpg'); GLCM3 = graycomatrix(I3,'Offset',[2 0;0 2]); stats3 = graycoprops(GLCM3,'all') t3= struct2array(stats3) t=[t1,t2,t3] xmin = min(t); xmax = max(t); …

2
異なる(音楽的?)トーンの識別に使用する方法論
私はこの問題をどのように攻撃するのが最善かを研究し、解明しようとしています。音楽処理、画像処理、信号処理にまたがるので、それを見る方法は無数にあります。純粋なsig-procドメインでは複雑に見えるかもしれないことは、画像や音楽の処理を行う人々によって簡単に(そしてすでに解決されているので)アプローチするための最良の方法について尋ねたかったのです。とにかく、問題は次のとおりです。 問題の私の手描きを許せば、次を見ることができます: 上の図から、3つの異なる「タイプ」の信号があります。最初のパルスは、からまで周波数を「ステップアップ」して、繰り返すパルスです。特定のパルス持続時間と特定のパルス繰り返し時間を持っています。f 4f1f1f_1f4f4f_4 2番目のものはにのみ存在しますが、パルス長が短く、パルス繰り返し周波数が高速です。f1f1f_1 最後に、3番目はトーンです。f1f1f_1 問題は、信号1、信号2、および信号3を区別できる分類器を作成できるように、どのようにこの問題に取り組むかです。つまり、シグナルの1つをフィードすると、このシグナルがそうであることがわかります。対角線混同行列を与える最適な分類子は何ですか? いくつかの追加のコンテキストと私がこれまで考えてきたこと: 私が言ったように、これは多くの分野にまたがっています。私が座ってこれと戦争に行く前に、どの方法論がすでに存在しているのかを尋ねたかった。ホイールを誤って再発明したくありません。さまざまな視点から見た考えをいくつか紹介します。 信号処理の観点: 私が検討したことの1つは、ケプストラム分析を行い、ケプストラムのGabor Bandwidthを他の2と区別するために使用し、次にケプストラムの最高ピークを測定することでした。シグナル-2から1。それが私の現在の信号処理作業ソリューションです。 画像処理の観点:ここでは、スペクトログラムに対して実際に画像を作成できるので、その分野の何かを活用できるのではないかと考えています。私はこの部分に精通していませんが、ハフ変換を使用して「ライン」検出を行い、ラインを「カウント」(ラインとブロブではない場合はどうですか?)してそこから行くのはどうですか?もちろん、スペクトログラムを撮影する任意の時点で、表示されるすべてのパルスが時間軸に沿ってシフトする可能性がありますので、これは問題になりますか?わからない... 音楽処理の観点:確かに信号処理のサブセットですが、signal-1には特定の、おそらく反復的な(音楽的?)品質があり、music-procの人々は常に見ており、すでに解決済みです多分楽器を区別する?確かではありませんが、考えは私に起こりました。おそらく、この立場はそれを見る最良の方法であり、時間領域の塊を取り、それらのステップレートをからかいますか?繰り返しますが、これは私の分野ではありませんが、これは以前に見られたものだと強く疑っています... 3つの信号すべてを異なる種類の楽器として見ることができますか? また、かなりの量のトレーニングデータがあることも付け加える必要があります。そのため、これらの方法のいくつかを使用すると、特徴抽出を行うことができ、K-Nearest Neighborを使用できますが、それは単なる考えです。 とにかく、これは私が今立っている場所です、どんな助けも感謝しています。 ありがとう! コメントに基づく編集: はい、、、、はすべて事前に知られています。(いくつかの差異が、は非常に少ない。例えば、私たちがいることを知っていると言うことができます = 400kHzには、それは401.32 kHzででてくるかもしれません。しかしまでの距離ので、高いです比較して500 kHzであるかもしれない。)信号-1常にこれらの4つの既知の周波数を踏むことになります。Signal-2には常に1つの周波数があります。f 2 f 3 f 4 f 1 f 2 f 2f1f1f_1f2f2f_2f3f3f_3f4f4f_4f1f1f_1f2f2f_2f2f2f_2 信号の3つのクラスすべてのパルス繰り返し率とパルス長もすべて事前にわかっています。(ある程度の分散がありますが、非常にわずかです)。ただし、信号1と2のパルス繰り返し率とパルス長は常にわかっていますが、それらは範囲です。幸いなことに、これらの範囲はまったく重複していません。 入力はリアルタイムで入力される連続時系列ですが、信号1、2、および3は相互に排他的であると仮定できます。つまり、信号の1つだけが任意の時点で存在するということです。また、任意の時点で処理するためにどれだけの時間チャンクを使用するかについて、多くの柔軟性があります。 データはノイズを含む可能性があり、既知の、、、ない帯域に偽のトーンなどがある可能性があります。これはかなり可能です。ただし、問題を「始める」ために、中程度のSNRを想定できます。f 2 f 3 f 4f1f1f_1f2f2f_2f3f3f_3f4f4f_4

1
KLTトラッカーでの逆ヘッセ行列の固有値の解釈
私は修士課程の学生で、コンピュータービジョンのセミナーを準備しています。トピックには、Kanade-Lucas-Tomasi(KLT)トラッカーがあります。 J. Shi、C。Tomasi、「追跡する優れた機能」。Proceedings CVPR '94。 KLTトラッカーを理解するために使用しているWebリソースを次に示します。私は線形代数に少しさびていて、コンピュータービジョンの経験がないので、数学の助けが必要です。 この式ではΔpΔp\Delta p(概要ステップ5)、ヘッシアン逆に注意してください。 Δp=H−1Σx[∇I∂W∂p]T[T(x)−I(W(x;p))]Δp=H−1Σx[∇I∂W∂p]T[T(x)−I(W(x;p))]\Delta p = H^{-1}\Sigma_x\left[\nabla I \frac{\partial W}{\partial p}\right]^\mathsf{T} \left[T(x) − I(W(x; p))\right] min(λ1,λ2)>thresholdmin(λ1,λ2)>threshold\min(\lambda_1,\lambda_2)>threshold 直感は、これがコーナーを表すということです。Tわかった。それは固有値と何の関係がありますか?ヘッセ行列の値が低い場合、変化はなく、コーナーではないと思います。彼らが高い場合、それはコーナーです。KLTトラッカーの反復全体でΔpΔp\Delta pを決定するために、逆ヘッセ行列の固有値でコーナーネスの直感がどのように作用するかを知っている人はいますか? 逆ヘッセ行列が画像共分散行列に相関すると主張するリソースを見つけることができました。さらに、画像の共分散は強度の変化を示しており、それは理にかなっています...しかし、私は画像共分散行列が正確に何であるかを見つけることができませんでした。ベクトルまたは画像のコレクションではありません。 また、固有値には主成分分析で意味があるため、画像共分散行列のアイデアを得ることができますが、これは通常画像に適用されるため、これをヘッシアンに適用する方法がわかりません。私が理解する限り、ヘッセ行列は、特定の位置で、、およびの2次導関数を定義する行列です。2×22×22\times 2xxxyyyxyxyxy(x,y)(x,y)(x,y) 私は3日以上それを続けてきたので、これに役立つことを本当に感謝します、それはほんの1つの小さな式であり、時間が不足しています。

1
ノイズの多いポイントのコレクションから曲線を復元する
背景:ビデオ内の多数の泡を追跡するシステムを作成しようとしています Circular Hough Transformを使用して、単一画像のケースでバブル検出を実装しています。オクルージョン、ブラー、その他の要因により、この検出は100%正確になることはありません。精度を犠牲にして、再現率が高くなるように検出手順を調整しています。 これが行われ、ビデオの一連のフレームに適用されると、4D空間内のポイントとして特徴付けることができるいくつかの検出があります-x位置、y位置、半径、およびフレームインデックス。 この4D点群から曲線を復元できる手順はありますか?


4
画像認識
商業的に使用できる2D画像の膨大で有機的に成長するコレクションで画像認識を行うことができるオープンソースシステムを探しています。 画像のスケーリングサイズ、 写真の撮る角度、 カラー同期オフセット。つまり、ソースイメージのキャプチャとレンダリングの不規則性のために、インスタンスごとに色が異なります。 写真のトリミング、 透かしやテキストの追加、 可能性のあるフォーカスのバリエーション。つまり、キャプチャーにフォーカスがなかったことを意味し、画像操作フィルターが適用されていません。 アプリケーションをトレーニングしなければならないことは問題ありませんが、そうすることで利益が得られる限り、長期的には、2Dインスタンスの数が最初の数千から数百を超えると予想されます数千; しかし、それは長期的であり、1000インスタンスのトレーニングセットとインスタンスあたり10サンプルのトレーニングセットで十分に理解できるソリューションがあれば幸いです。 更新:ライセンスは、バイナリを持っているすべての人の内部でさえ、ソースコードのリリースなしで商用内部配布に使用できる必要があります。コードが販売されることはなく、内部で使用されるだけですが、すべてのユーザーがソースコードにアクセスできるわけではなく、インターフェイスだけにアクセスできます。

1
コンピュータビジョンを支援するためにオブジェクトにテクスチャを作成するための推奨パターンはありますか?
ではこの回答へのコメント、表面上のテクスチャを提供するために、レーザダイオードと回折格子を使用してコンピュータビジョンシステムにおける高さの計算を支援するために示唆されました。 私がよく知っているパターンは、オブジェクトにチェス盤パターンを投影していると思います。投影された画像の変形が何らかの形で直接使用されていることを(不完全に)理解していました。つまり、以前は投影されていた正方形のパターンが湾曲したポリゴンになり、正方形に戻す変換によって3D構造に関する情報が得られます。これは間違っていますか? 推奨パターンはありますか?パターンを選択する際の依存関係は何ですか?それはターゲットオブジェクトの形状、材質などに依存しますか、それともフィーチャの変動性の量の関数ですか?

2
ガラスなどの半透明材料のセグメンテーション
ガラス状のオブジェクトのセグメンテーションに関する問題に完全に行き詰まっています。オブジェクトをできるだけ正確に取得する必要があります。私のアプローチは異なっていました。最初は、背景を削除して、一部の鋭い輪郭だけが残るようにしました。しかし、それは鋭いエッジ/グラデーションを持つオブジェクトに対してのみ機能します。それ以外の場合は、オブジェクト自体も削除されます。2つの異なる画像を投稿しました。 グレースケールの膨張やそれに対する分割などの形態学的操作によって背景を削除しようとしました。しかし、それはあまり役に立ちませんでした。その後、変更された背景をガラスの灰色と黒色の値から分離するために、k = 3のk-meansを試しました。それはいくつかのケースでは成功しなかったが、全体的/平均的には成功しなかった。また、全体的にぼかしたフィルターを使用してキャニーエッジ検出を実行しようとしましたが、これにより、輪郭が開いた形やノイズが多くなるなど、結果が低下します。 自動しきい値の結果を持つキャニー: testimg = imread('http://i.imgur.com/huQVt.png'); imshow(testimg) imedges = edge(testimg,'canny'); imshow(imedges); 同じことが2番目の画像にも当てはまります。 ご覧のとおり、内側と外側に多くのノイズがあり、ガラス境界からのエッジが2重になっています。縁にも隙間があります。 したがって、これら2つの画像だけでなく、半透明のマテリアルのこの問題に対処するための一般的なアプローチを得るために、あなたのアドバイスが必要です。 1)オブジェクトを損傷することなく背景を削除するための他のアイデア? 2)オブジェクトを背景から分離するための他のセグメンテーション方法は? 可能であれば、Matlab、IPT、または統計ツールボックスのヒントを使用します。他のヒントも大歓迎です! よろしくお願いします。心から

1
Matlabを使用した肝臓セグメンテーションの適応しきい値処理
適応しきい値法を使用して腹部CT画像から肝臓をセグメント化する必要があります。しかし、前景全体を背景だけから分離しています。前景の肝臓部分だけを分離する必要があります。http://www.ijcaonline.org/casct/number1/SPE34T.pdf にあるpdfファイルを確認してください。図6に示すような出力が必要です。 ここにコーディングを添付します。親切に私を助けてください。 %testadaptivethresh.m clear;close all; im1=imread('nfliver2.jpg'); bwim1=adaptivethreshold(im1,11,0.03,0); figure,imshow(im1); figure,imshow(bwim1); imwrite(bwim1,'at2.jpg'); function bw=adaptivethreshold(IM,ws,C,tm) %ADAPTIVETHRESHOLD An adaptive thresholding algorithm that seperates the %foreground from the background with nonuniform illumination. % bw=adaptivethreshold(IM,ws,C) outputs a binary image bw with the local % threshold mean-C or median-C to the image IM. % ws is …


1
ビデオから数えた車両
免責事項:この質問をStackOverFlowに投稿しましたが、こちらの方が適していることがわかりました。 私は画像処理に少し慣れていないので、コードではなく、問題の最適な解決策を見つけることについてお聞きしたいと思います。いいアイデアはまだ思いつかなかったので、アドバイスをお願いしたいです。 私はOpenCVを使用して、ビデオファイルまたはライブカメラから車両を数えるプロジェクトに取り組んでいます。そのようなプロジェクトに取り組んでいる他の人々は、通常、動いているオブジェクトを追跡してからカウントしますが、その代わりに、私は別の視点で作業したいと思いました。以下に示すように、ユーザーにビデオウィンドウにROI(関心領域)を設定し、この領域でのみ作業するよう依頼します(理由は、フレーム全体を処理しないことやパフォーマンスの向上など)。(ユーザーは複数のROIを設定することができ、ユーザーはROIの高さを通常の車の約2倍に比例感で設定するように求められます。) これまでに、背景の更新、形態学的フィルター、しきい値処理、移動オブジェクトをバイナリイメージとして以下のような基本的な進歩を遂げました。 それらを行った後、私は最終的なしきい値処理された前景フレームの白ピクセルを数え、それが車であるかどうかを合計白ピクセル数をチェックすることで推定しようとしました(ROIの高さを知って静的計算により下限を設定しました) 。説明のために、サンプルグラフィックを描きました。 ご覧のとおり、白いピクセルを計算して、時間までに曲線を描くかどうかを確認し、車やノイズのようなものかどうかを判断するのは簡単でした。 問題 2台の車が同時にROIを通過するまで、私はかなり成功しました。私のアルゴリズムはそれらを1台の車として誤って数えました。私はこの問題にさまざまなアプローチを試みましたが、長い車のようにこれに似ていますが、満足のいく解決策が見つかりませんでした。 質問 このピクセル値カウントのアプローチでこのタスクを処理することは可能ですか?そうでない場合、何を提案しますか?

3
カメラのキャリブレーション/ピンホールカメラモデルと3D位置の計算
キャリブレーションされたカメラと固有のパラメーターがあります。また、現実世界の平面上の点(世界の原点)に関連する外部パラメーターもあります。この点は、法線が[0,0,1]の実世界座標[0,0,0]の原点として設定しました。 これらの外部パラメーターから、これを使用して、ワールドプレーン3D座標でのカメラの位置と回転を計算できます:http : //en.wikipedia.org/wiki/Camera_resectioning これで、[x、y]の画像座標を抽出した2番目のポイントができました。ワールド座標系でこのポイントの3D位置を取得するにはどうすればよいですか? ここでの直感は、カメラの光学面(上記のように3Dの位置になりました)からカメラの画像面[x、y]を通過する光線を追跡する必要があると思います。上部で定義した実世界の平面を通して。 法線を知っていて、その平面上を指すように、世界座標の3Dレイを平面と交差させることができます。私が得られないのは、ピクセルを介してイメージプレーンを離れるときの3Dの位置と方向を見つける方法です。私を混乱させているのは、異なる座標系による変換です。

3
クロマサブサンプリング:データレートを適切に計算する方法
たとえばY'UV画像でクロマサブサンプリングを利用するときにデータレートを計算する方法を理解するのに苦労しています。 以下の計算例があります。 画像解像度:352*288 周波数:25 fps 以下のために(:4:4 4)以下のように計算例を行きます: (352px * 288px) * 3 color channels * 25 fps * 8 bit = 60 825 600 bit/s ここまでは順調ですね。 しかし、今来る(4:2:0): (352px*288px) * 1.5 color channels * 25 * 8 = 30 412 800 bit/s さて、この例を例(4:1:1)に変換しようとすると、1.5カラーチャネルの比率がどのように計算されるかを正しく理解しているかどうかわかりません。 計算の最初の推測は(4:2:0)の場合でした: 2/4*3=1.5 color channels 同様に(4:1:1)の場合、カラーチャネルの比率を次のように計算します。 1/4*3=0.75 color channels …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.