タグ付けされた質問 「computer-vision」

コンピュータビジョンには、シーンや画像の高度な理解と認識を形成するために、画像や高次元データを処理、分析する方法が含まれます。

1
スケール空間理論の理解
スケール空間理論の信号のスケール空間表現、(画像の場合には、D = 2)のように与えられる: L (X 、y ; t )= g (x 、y ; t )∗ f (x 、y )ここでg (x 、f(x),x=(x1,...,xd)f(x),x=(x1,...,xd)f(x), x = (x_1, ..., x_d)d=2d=2d = 2L(x,y;t)=g(x,y;t)∗f(x,y)L(x,y;t)=g(x,y;t)∗f(x,y)L(x, y; t) = g(x, y; t) * f(x, y)はパラメーター tのガウスカーネルで、 *はたたみ込みです。tパラメータを変更することにより、多かれ少なかれ平滑化された画像を受け取ります。その結果、粗い表現(パラメーター t)には小さなオブジェクトやノイズが含まれなくなります。g(x,y;t)g(x,y;t)g(x, y; t)ttt∗∗*tttttt 主なポイントは、スケール不変の特徴検出の方法を見つけることですよね?そのため、一部の画像のサイズが縮小された場合、他のノイズキーポイントを見つけることなく、キーポイントなどの機能がサイズが異なっていても正しく検出されます。 この論文では、彼らは正規化導関数を使用しています。 δ ξ 、γ - N 、O …

1
異なる音波波形を区別するための特徴ベクトルの設計
次の4つの波形信号を考えてみます。 signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821 -72.3029 -74.8313 -77.8124] signal3 = [-225.5691 -192.8458 -145.6628 151.0867 172.0412 172.5784 164.2109 160.3817 164.5383 171.8134 178.3905 180.8994 172.1375 149.2719 …

2
指先や爪を検出するためのアルゴリズム
画像の指先/爪の検出に使用するのに最適なアルゴリズムは何かについてアドバイスをいただけますか。最初に気が付いたのはビオラ・ジョーンズでした。再考した後、エッジ検出を適用した後にヒュー変換のみを使用することが可能である可能性があると結論付けました。しかし、もう少しアドバイスをお願いします。また、これは学習を目的とした学生のプロジェクトになるため、OpenCVまたは同様のフレームワークを使用することは許可されていません。以下は、処理される典型的な画像です。(トップダウンビューではないことに注意してください)。親指を検出する必要はありません。 典型的な画像http://www.deviantpics.com/images/BwgPX.jpg

2
「同じ」の畳み込み形状の2Dカーネルの畳み込み行列を生成する
特定の2DカーネルHH H 畳み込み行列を見つけたい。 たとえばImg、サイズがm×nm×n m \times n 画像の場合、(MATALBで)欲しい: T * Img = reshape(conv2(Img, H, 'same'), [], 1); ここで、T畳み込み行列であり、same入力されたサイズと一致した畳み込み形状(出力サイズ)を意味します。 理論的には、Hはテプリッツ行列に変換する必要があります。MATLAB関数を使用していますconvmtx2()。 T = convmtx2(H, m, n); ただし、MATLABはのたたみ込み形状に一致するたたみ込み行列を生成するため、Tサイズは(m+2)(n+2)×(mn)(m+2)(n+2)×(mn) (m+2) (n+2) \times (mn) convmtx2ですfull。 畳み込み形状パラメーターconv2()との使用に一致する畳み込み行列を生成する方法はありsameますか?

1
歯科用X線撮影からのノイズの除去
私はアクティブシェイプモデル を適用して、歯科用X線写真で歯を見つけるプロジェクトに取り組んでいます。この手法に詳しい方のために、現在、各ランドマークの法線ベクトルに沿ってサンプリングを試みています。このペーパーでは、サンプリングされたピクセルの導関数を使用することを推奨しています。 したがって、私の問題は、デリバティブオペレーターを適用するために歯科用X線をフィルター処理するための最良の方法です。私は現在、中央値フィルターの組み合わせを使用して、量子ノイズ(まだら)だと思うもののほとんどを削除しています。その後、バイラテラルフィルターが続きます。次に、Scharr演算子を適用して、サンプリングする実際の勾配を計算します。 結果を以下に示します。 最初の画像は元のデータを示しています。2番目と3番目の画像では、フィルター処理されたデータが、最初にFFT後のスペクトルの大きさとして、次にフィルター処理された画像データとして表示されます。4番目の画像は、3番目の画像にScharr演算子を適用した結果を示しています。 私の質問は: 私のアプローチとは異なる、歯科用X線写真のノイズを減らすためのよく知られたアプローチはありますか? エッジと「フラット」(非エッジ)領域の「煙のような」外観の原因は何ですか?フィルタリングされた画像にある種の残りのノイズですか、それとも勾配演算子に固有のものですか?それが実際にノイズである場合、どのフィルターを使用するのが最も適していますか?メディアンフィルターは、小さなノイズのあるブロブの除去に優れていましたが、カーネルが大きいと、エッジがぼやけすぎてしまいます。そのため、バイラテラルフィルターを使用して、大きなブロブをフィルターで除去し、エッジを損なわずに領域全体で色を均一化しますが、このスモーキーな構造をフィルターすることはできません。 この場合、勾配を作成するためにScharr演算子よりも優れたオプションはありますか? おまけ:これはアクティブシェイプモデルの適切な入力と見なされますか?どれほど堅牢かはまだわかりません。

2
SURF機能の計算プロセスについて
それで、私はSURF(ベイ、エッス、トゥイテラー、ヴァングール:高速化された堅牢な機能(SURF))に関する論文を読んでいましたが、以下のこの段落を理解できません。 ボックスフィルターとインテグラルイメージを使用しているため、以前にフィルターしたレイヤーの出力に同じフィルターを繰り返し適用する必要はありませんが、代わりに元のイメージに直接同じ速度で任意のサイズのボックスフィルターを直接適用できます。並列でも(後者はここでは利用されませんが)。したがって、画像サイズを繰り返し縮小するのではなく、フィルターサイズを拡大することにより、スケールスペースが分析されます(図4)。 This is figure 4 in question. PS:論文にはインテグラルイメージの説明がありますが、論文の内容全体は上記の特定の段落に基づいています。誰かがこのペーパーを読んだ場合、ここで何が起こっているのか簡単に説明できますか。全体の数学的説明は、最初に十分に理解するために非常に複雑なので、いくつかの支援が必要です。ありがとう。 編集、問題のカップル: 1。 各オクターブは、一定数のスケールレベルに細分されます。インテグラルイメージの離散的な性質により、2つの後続のスケール間の最小スケール差は、派生方向(xまたはy)での部分2次導関数の正または負のローブの長さloに依存します。フィルターサイズの長さの3分の1。9x9フィルターの場合、この長さloは3です。2つの連続するレベルでは、サイズを不均一に保ち、中央のピクセルの存在を確保するために、このサイズを最低2ピクセル(各辺に1ピクセル)増やす必要があります。 。これにより、マスクサイズが6ピクセル増加します(図5を参照)。 Figure 5 私は与えられた文脈での線を理解できませんでした。 2つの連続するレベルでは、サイズを不均一に保ち、中央のピクセルの存在を保証するために、このサイズを最低2ピクセル(各辺に1ピクセル)増やす必要があります。 私は彼らが画像の長さで何かをしようとしていることを知っています、たとえそれらが奇数にしようとしているのなら、彼らがピクセル勾配の最大または最小を計算できるようにする中央のピクセルがあります。私はその文脈上の意味について少し不確かです。 2。 記述子を計算するために、Haarウェーブレットが使用されます。 ∑ d バツΣ dバツ\sum\ dx∑ | d x |Σ |dバツ|\sum\ |dx| 3。 近似フィルターを使用する必要性は何ですか? 4. フィルターのサイズの確認方法に問題はありません。彼らは経験的に何かを「した」。しかし、私はこの行のいくつかのしつこい問題を抱えています 前のセクションで紹介した9x9フィルターの出力は、最初のスケールレイヤーと見なされます。これをスケールs = 1.2と呼びます(σ= 1.2でガウス微分を近似します)。 彼らはどのようにしてσの値を知りましたか。さらに、下の画像に示されているスケーリングの計算はどのように行われますか?この画像について述べているのは、その値s=1.2についてはその起源について明確に述べずに、繰り返しの値が続くためです。 5.で 表現されるヘッセ行列Lは、ガウスフィルターと画像の2次勾配のたたみ込みです。 ただし、「近似」行列式には、2次ガウスフィルターを含む項のみが含まれていると言われています。 の値wは次のとおりです。 なぜ行列式が上記のように計算されるのか、おおよそのヘッセ行列とヘッセ行列の間の関係は何ですか?

2
パラメータ悪魔—グラウンドトゥルースに対する検証が不可能な場合にそれらを設定する方法[終了]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 6年前休業。 質問: Groundtruthに対する検証が不可能な場合(おそらくGroundtruthを取得できないか、取得が非常に困難/面倒なため)、人々がアルゴリズムパラメーターを設定する方法についての議論を始めたいと思います。 私は多数の論文を読み、基礎となるアルゴリズムを実装しました---一連のパラメーターは「経験的に」設定されたと言われています---そして、これらがアルゴリズムの一般性に影響を与えるものであることがよくあります(たとえメソッドの基礎となる理論は、エレガントで魅力的で健全です)。 ご意見をお聞かせいただければ幸いです。そして、この質問には正しい答えも間違った答えもありません。他の皆がこれにどう対処するか知りたいだけです。 背景/質問の出典: 私は画像解析、コンピュータービジョン、機械学習の分野で働いているコンピューターサイエンティストで、新しいアルゴリズムを設計するたびに何度も何度もこのジレンマに直面しているため、この質問はしばらくの間私の心の奥底にありましたパラメータの調整にかなりの時間を費やしていることに気づきました。 また、ここでの質問は、計算アルゴリズムに深く関わっているすべての領域に一般的であり、関係するすべての領域の人々の考えを招待したいと思います。 私はあなたにいくつかの具体的な例を挙げたかったので、それはあなたが考えるのを助ける: ---特徴検出の場合を考えてみましょう(円形のブロブまたは特徴点としましょう)。いくつかのフィルター(パラメーターが必要)を異なるスケール(スケールパラメーター)で実行し、おそらく応答にしきい値を設定します(しきい値パラメーター)。通常、検証するグラウンドトゥルースを取得して、そのようなシナリオでパラメーターを自動的に調整することはできません。 ---多数の信号処理コンポーネントを含む計算フレームワークを取り上げます。常に調整するパラメーターがあり、通常は根拠はありません。データセットの小さなランダムなサブセットで主観的にそれらを調整すると、いつかは一般化されないケースに遭遇します。 アルゴリズムのいくつかの中間ステップのパラメーターを設定する場合、このパラメーターの悪魔はより厄介です。 そして、私はしばしばこれらのパラメーターの適切な値を見つける問題を、導関数を取り、それによって標準の最適化アルゴリズムを使用して適切な値を見つけることができる目的関数の最適化問題としてキャストすることは不可能だと気付きました。 また、多くのシナリオでは、これらのパラメーターをエンドユーザーに公開することはオプションではありません。非計算エンドユーザー(生物学者、医師など)向けのアプリケーション/ソフトウェアを開発することが多く、チューニングを依頼すると、それらは通常無知になります。非常に直感的でない限り(おおよそのオブジェクトサイズなど)。 あなたの考えを共有してください。

1
画像内の車両を数える
私は、画像内の車をうまく数えるアルゴリズムを実装しようとしています。交通画像に複数車両のオクルージョンがある場合の車両カウント方法の実装を試みました さまざまな画像のセットから背景を推定します。私はこの目的のために他のさまざまな手法を検討しましたが、これらすべての方法のいずれかで、画像のセットからの背景推定を使用するか、ビデオを必要とします。私は入力として、背景(おそらくほとんどの論文では道路)がほとんど見えない交通画像を持っています。さらに、画像は異なる領域のものなので、共通の背景もありません。その場合、どうすればよいですか? どういうわけか私が車(車)の構造を一致させることができれば、おそらくそれらを一致させることができると考えています。しかし、これが実現可能かどうか、また、画像には複数の遮蔽された車両が含まれているため、それがどのように進むかはわかりません。 ヒントや研究論文も大歓迎です。 サンプル画像は次のとおりです。

2
わかりやすい英語のデジタル画像の瞬間
私はOpenCVを勉強しています。コンピュータービジョンと画像処理では、人々はブロブ、輪郭、接続された領域について話します。「画像の瞬間」というフレーズを時々耳にします。 ウィキペディアの記事を知っていますが、あまりにも専門的すぎると思います。私は数学の背景に深く入りたくありませんが、私が話していることを知りたいです。 誰かが私に画像の瞬間は平易な英語であると説明してもらえますか?

2
CTスキャンDICOM画像の肺結節を測定する方法は?
この質問では、CTスキャンの強度値に焦点を当てたいと思います。まず、下の画像を見てください。 上の画像は元の画像で、下の画像はしきい値バージョンです。任意の形状のボリュームを測定するために、理論的には、単に画像内のボクセルの数を数えることが可能です。ただし、オブジェクトの最も外側の層(結節など)の輝度は暗く、オブジェクト内のすべてのボクセルの輝度は非常に高くなっています。しきい値バージョンのボクセルを単純に数えると、肺結節の実際のボリュームよりも大きい結果ボリュームが得られる可能性が非常に高くなります。 また、DICOM画像の輝度情報を調整するために使用できるウィンドウの中心(レベル)やウィンドウの幅などの変数があることもわかります。強度が異なると、結果のボリュームが変わる可能性があります。 だからここに質問があります:私が特定の肺結節を測定する場合、可能な限り最高の精度を達成するために何をすべきですか?強度の低いボクセルはいつ無視すべきですか?それとも他の方法でこれを行う必要がありますか?

2
iPhone iOS UIImageカメラフィード上の「レーザーポインター」ドットを検出する方法
追跡ロボットのおもちゃを手に入れ、iPhoneでそれを操作しています。ロボットが既知のフレームサイズのライブカメラフィードを出力し、UIImageに表示しています。 レーザーポインターをロボットに追加し、ロボットの軸に沿って固定しました。画像のレーザーポインタードットを検出して、オブジェクトの近接度を計算しようとしています。レーザードットが中心から離れている場合、ロボットが壁に貼り付いており、バックアップする必要があることがわかります。 画面上の明るい白赤のピクセルのドットを検出するにはどうすればよいですか?1つの解決策は、中心の特定の半径内のピクセルの色をサンプリングし、ブロブの明るい色を検出することです。誰かがこの活動のアルゴリズムを提案できますか? 別のアプローチは、最後の数フレームにわたるドットの平均位置を追跡して、推定半径を減らすことです。事前定義された領域内にドットがない場合、検索領域が拡大されることがあります。 最後に、ロボットに周囲のカーペットを検出するように教えたいです。カーペットはレーザーポインターを一定の方法で反射します。ロボットの周りのフレームが同様の特性を持つフレームがいくつあるかを知りたいのです。レーザーポインターが画面のどこにあるかわかっている場合は、その画像から小さな四角形を切り取り、それらを互いに比較できます。複数の小さな画像を互いに比較して、それらのシルエットが一致するかどうかを理解する効率的な方法はありますか? レーザーが光沢のある表面で反射していることに気付きました。この反射の方向から、屈折の法則に従って、空間での表面の向きがわかります。 ありがとうございました!

2
ハリスの角に配置された視覚的特徴のオクターブとサイズを推定する方法
私は現在、OpenCVによって提供されるいくつかの機能検出器のパフォーマンスを比較し、視覚的な機能マッチングの基礎として比較しています。 SIFT記述子を使用しています。MSER機能とDoG (SIFT)機能を検出するときに、(不正な一致を拒否した後)満足できる一致を達成しました。 現在、私はGFTT(追跡のための優れた機能-Harrisコーナー)でコードをテストして比較を行っています。また、最終的なアプリケーションでは、一連のGFTT機能が視覚的機能追跡プロセスから利用できるようになるためです。 私が使用しcv::FeatureDetector::detect(...)ているのはstd::vector<cv::KeyPoint>、検出された機能/キーポイント/関心領域で満たされたものです。構造にcv::KeyPointは、フィーチャの場所に関する基本情報、sizeおよびoctaveキーポイントが検出された情報が含まれています。 GFTTを使用した最初の結果は、さまざまなタイプの機能の典型的なパラメーターsizeとoctaveパラメーターを比較するまではひどいものでした。 MSERはサイズ(10〜40px)を設定し、オクターブを0のままにします DoG(SIFT)はサイズとオクターブの両方を設定します(サイズとオクターブの比率は20から40の間) パラメータは常にGFTTです:サイズ= 3、オクターブ= 0 これは、GFTT機能の主な目的が照合ではなく追跡のみに使用されていたためだと思います。このような小さな特徴から抽出された記述子は、小さな1ピクセルのシフトを含む多くのものに対して差別的で不変ではなくなるため、これはマッチング結果の質の低さを説明しています。 私は手動で設定する場合sizeのGFTTをする10から12まで、私が使用しているときに非常に似て良い結果、取得MSERかのDoG(SIFT)を。 私の質問は、「go-with-with-10-see-if-it-works」よりもsize(および/またはoctave)をどれだけ増やすかを判断するより良い方法はありますか?可能な場合は増加をハードコーディングせずにプログラムで決定したいのですが、新しい/ 増加 / 推定アルゴリズムの選択を裏付けるいくつかの確かな引数がある限り、ハードコーディングで問題ありません。sizesizesizesize

2
特に深度画像を対象とするコンピュータービジョンアルゴリズムはありますか?
私はkinectベースのアプリケーションで使用するマーカー検出アルゴリズムを調査してきました。私が見つけることができた作業の大部分は、明らかに「通常の」画像の特徴検出に焦点を当てています。 ただし、kinectハードウェアは、ピクセルごとに11ビットの深度値を提供します(基本的に、調整後)。 この深度画像には、オブジェクトのエッジの周りに投影された影からのさまざまな視覚的なアーティファクトもあります(たとえば、このビデオの濃い黒の境界線http://www.youtube.com/watch?v=-q8rRk8Iqww&feature=relatedを参照してください)。 一部の従来のマシンビジョンテクニック(エッジ検出など)はこれでうまく機能しますが、他のマシンビジョンテクニックはうまくいかず、これについて議論しているネット上の情報はほとんどないようです。 簡単な例として、depth値を使用すると、マーカーブロックを見つけたら、その方向を簡単に検出できます。 それで、特徴検出のための深度画像の処理をカバーする議論/論文などを見た人はいますか? 「深度」マーカーを検出するための優れたアルゴリズムを推奨できますか? 私がこれまでに行ったことは、イメージを処理するためにopencvを使用したアドホックな実験でしたが、安定していないか、十分に高速ではありません。 なんらかの試用をせずに市販のマシンビジョン製品にリンクする場合は、それが適切だと思う理由を回答に含めてください。

1
画像で車のモデルを認識するための優れた機能/アルゴリズム
オブジェクトの認識、特に車種の認識について質問があります。同じ車種を異なる画像で特定する作業の始めにいます。現時点では、3Dオブジェクト認識の最良のアルゴリズムの1つはSIFTだと思いますが、デモの実装で少し遊んだ後、このアルゴリズムには車などの光沢のある金属製のオブジェクト、特に色が異なる場合に問題があるという不思議な感じがします。 誰かがこの領域でいくつかの作業を一般的にいくつかの異なるアルゴリズムで同じ車モデルを見つけるタスクに適したアルゴリズムを知っていますか? よろしくお願いします!

1
2つの画像で計算されたホモグラフィと、同じ画像で逆さまに計算されたホモグラフィとの間のリンクは何ですか?
OpenCVの、私はこれらの二つの画像、たとえば、間のホモグラフィを計算します: そして 右側の変な白いフォルムは気にしないでください。これは私が使用するスマートフォンホルダーによるものです。findHomography()関数によって与えられるホモグラフィ(Fast機能検出器とHammingLUT記述子マッチャーで検出された点を使用)は次のとおりです。 A = [ 1.412817430564191, 0.0684947165270289, -517.7751355800591; -0.002927297251810, 1.210310757993256, 39.56631316477566; 0.000290600259844, -9.348301989015293e-05, 1] ここで、同じプロセスを使用して、imagemagickを使用して、180度回転した(逆さまにした)同じ画像間のホモグラフィを計算します(実際には、90度の回転または270度...)どうぞ: そして これらの画像を使用すると、ホモグラフィは次のようになります。 B = [ 0.7148688519736168, 0.01978048500375845, 325.8330631554814; -0.1706219498833541, 0.8666521745094313, 64.72944905752504; -0.0002078857275647, -5.080048486810413e-05, 1] ここで問題は、AとBをどのように関連付けるかです。Aの最初の2つの対角値はBの最初の対角値に近いですが、あまり正確ではありません(0.71486885ではなく.707805537)。私の最終的な目的は、必要な関係を使用して最終的なマトリックスを変換し、コストのかかる画像回転の計算を回避することです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.