タグ付けされた質問 「computer-vision」

コンピュータビジョンには、シーンや画像の高度な理解と認識を形成するために、画像や高次元データを処理、分析する方法が含まれます。

1
一連の基準間の相対距離を正確に測定(拡張現実アプリケーション)
5つのマーカーのセットがあるとします。ARToolkitなどの拡張現実フレームワークを使用して、各マーカー間の相対距離を見つけようとしています。私のカメラフィードでは、最初の20フレームに最初の2つのマーカーのみが表示されるため、2つのマーカー間の変換を計算できます。2番目の20フレームには、2番目と3番目のマーカーのみが表示されます。最後の20フレームは、5番目と1番目のマーカーを示しています。5つのマーカーすべてのマーカー位置の3Dマップを作成したいと思います。 私の質問は、ビデオフィードの品質が低いために距離が不正確になることを知っているのですが、収集したすべての情報から、不正確さを最小限に抑えるにはどうすればよいですか。 私の素朴なアプローチは、最初のマーカーを基点として使用することです。最初の20フレームから、変換の平均を取り、2番目のマーカーを配置し、3番目と4番目のマーカーを配置します。5番目のマーカーの場合、5番目と1番目の間の変換と4番目と5番目の間の変換の平均の中央に配置して、4番目と1番目の間に配置します。ただし、このアプローチでは、最初のマーカー配置に偏りがあり、フレームごとに3つ以上のマーカーが表示されるカメラは考慮されていません。 最終的には、システムでx個のマーカーのマップを計算できるようにしたいと考えています。任意のフレームで最大x個のマーカーが表示される可能性があり、画質に起因する非システムエラーがあります。 この問題への正しいアプローチに関する支援があれば大歓迎です。

2
表面検出
大きな領域の灰色(白から黒までの範囲)を画像からどのように分割しますか?(opencvでこれを知っている場合は、opencvで何をするかを言うことで答えることができます)。たとえば、次の図を考えてみます。 これはグレーの大きな領域であり、他の領域とは明確に区別できます。この領域にグレーの濃淡があり、リアルタイムで機能する必要がある場合、これをどのようにセグメント化できますか。 事前にTHX。

1
コンピュータステレオビジョンで、「見る」とはどういう意味ですか?
理解しようとするには、この答えに私の以前の質問に、それが重要である理由、誰かが焦点距離は、カメラと被写体との間の間隔に比べて大きいときにカメラが同一平面上にないことを説明することができますか? 「調べる」とはどういう意味ですか? ビュー/カメラの数が増えると、これは変わりますか?

2
勾配ベースのハフ変換を実装する方法
私はエッジ検出にハフ変換を使用しようとしています、そして基礎として勾配画像を使用したいと思います。 私はこれまでやっていること、画像所与のIサイズの[M,N]とその偏導関数gx、gy、各画素の勾配角度を計算することですthetas = atan(gy(x,y) ./ gx。同様に、勾配の大きさをとして計算しmagnitudes = sqrt(gx.^2+gy.^2)ます。 ハフ変換を作成するには、次のMATLABコードを使用します。 max_rho = ceil(sqrt(M^2 + N^2)); hough = zeros(2*max_rho, 101); for x=1:M for y=1:N theta = thetas(x,y); rho = x*cos(theta) + y*sin(theta); rho_idx = round(rho)+max_rho; theta_idx = floor((theta + pi/2) / pi * 100) + 1; hough(rho_idx, theta_idx) = hough(rho_idx, theta_idx) + …

5
直交特徴を持つ任意画像上の回転角度の自動検出
次のサンプル(マイクロチップ写真の一部)のように、画像の角度を検出する必要があるタスクがあります。画像には直交する特徴が含まれていますが、解像度やシャープネスが異なるため、サイズが異なる場合があります。一部の光学的な歪みと収差のため、画像はわずかに不完全になります。サブピクセル角度検出精度が必要です(つまり、誤差は0.1°未満である必要があり、0.01°程度が許容されます)。参考までに、この画像の最適な角度は約32.19°です。 現在、私は2つのアプローチを試しました。どちらも、2°ステップの極小値に対してブルートフォース検索を実行してから、勾配を0.0001°ステップサイズまで下げます。 メリット関数はsum(pow(img(x+1)-img(x-1), 2) + pow(img(y+1)-img(y-1))画像全体で計算されます。水平/垂直線が揃っている場合-水平/垂直方向の変化が少ない。精度は約0.2°でした。 メリット関数は、画像の一部のストライプ幅/高さにわたって(最大-最小)です。このストライプも画像全体にループされ、メリット関数が蓄積されます。このアプローチは、水平/垂直線が整列しているときの明るさの小さな変化にも焦点を当てますが、大きなベース(ストライプ幅-約100ピクセル幅になる可能性があります)全体で小さな変化を検出できます。これにより、最高0.01°までの精度が向上しますが、微調整するパラメータが多数あります(たとえば、ストライプの幅/高さは非常に敏感です)。これは、現実の世界では信頼できない場合があります。 エッジ検出フィルターはあまり役に立ちませんでした。 私の懸念は、ワーストアングルとベストアングルの間の両方のケースでメリット関数の非常に小さな変化(<2x差)です。 角度検出のためのメリット関数の記述について、何か良い提案はありますか? 更新:フルサイズのサンプル画像はここにアップロードされます(51 MiB) 結局のところ、このようになります。

1
CIE標準オブザーバーの小さな赤いピーク
人間の目には、赤、緑、青の3種類の色錐体があります。それらのスペクトル感度は、短波長(S、420〜440 nm)、中波長(M、530〜540 nm)、長波長(L、560〜580 nm)でピークに達します。下の図を参照してください。 次に、CIE標準オブザーバーがあります。ウィキペディアによると、CIE三刺激値X、Y、Zを生成する3つの線形光検出器の分光感度曲線と考えることができます。 CIE標準オブザーバーのカラーマッチング関数の赤い線も440 nmでピークになる理由がわかりません。より具体的に言うと、CIE標準オブザーバーのカラーマッチング関数のx線が約440nmでピークになる原因は何ですか? 誰かが私にそれを説明できますか?

3
シンプルなテクニックのみを使用したジェスチャー認識
私はコンピュータビジョンのコースをたどっていて、この演習を行っています。手の画像が与えられると、手を開いているか、閉じているか、パンチを開いているか、または「OK」の姿勢を保持しているかを、これまでに提供された手法(ピクセル4/8接続、接続領域、輪郭検出、穴検出、重心のようなブロブプロパティ、面積、周長、偏心、画像モーメント、反転/パワー/ログ/ガンマ補正/コントラストストレッチのような画像変換、ヒストグラム計算とイコライゼーション)。 私はいくつかの基本的なブロブプロパティでそれを行いました(閉じた手は偏心度が低く、「ok」は穴があります、開いた手はブロブの内接楕円の面積と偏心度が低いブロブ領域自体の間に大きな違いがあります) ..動作するようですが、最初の画像は少し問題があります。 より堅牢なアルゴリズムを作成するために、もっと何かがあると思います。たぶん、ある種のモーメントプロパティ?いくつかのblob軸/方向/極値が役立ちますか? PSテスト画像:

1
人のセグメンテーションと人のポーズの識別のための最先端の方法は何ですか
HOGは人検出の最先端技術であることは知っていますが、元の形式ではHOGは単なる検出方法であり、特に高速であるとは思えません(スライディングウィンドウを取得して拒否する大幅な高速化があります)初期の可能性は低いですが、特許を取得しています)。 人のポーズ(ヘッドショットやハンドショットなどの近いポーズを含む)を決定し、背景から人をセグメント化するための現在の最先端のアプローチは何ですか? ここでの設定は静止画です。

2
コンピュータービジョンアルゴリズムの精度
タスクが画像上の要素の位置を決定することであるとしましょう。最初に非常に重要なことは、オブジェクトを正しく検出することです。次に、位置を計算するいくつかのアルゴリズムが使用されます(問題のあるブロブ分析のため)。すべては複数のものに依存します(検出の正確さ、使用されるアルゴリズムなど) カリブレーションされた画像があり、カリブレーションによって与えられたエラーを知っているとしましょう。コンピュータ(およびマシン)ビジョンアルゴリズムの精度を確実に計算する方法は何ですか?それは分析的に、または実験とテストによってのみ行うことができますか? 質問は、要素の位置やその他のコンピュータービジョンの問題を検出した場合のケースを追加します。 コンピューター/マシンビジョン、特に要素の位置検出に関連する問題への参照を取得し、この正確さを示すための分析的または実験的アプローチのいくつかの正確さの計算を提示します。 この質問を改善する方法の提案も歓迎します。

1
ノイズのある勾配から関数を数値で計算するにはどうすればよいですか?
モデルます。 s (x 、y)= x2+ y2、0 ≤ X ≤ 1 、0 ≤ Y≤ 1 s(バツ、y)=バツ2+y2、0≤バツ≤1、0≤y≤1\ s(x,y)=x^2+y^2, 0 \leq x \leq 1, 0 \leq y \leq 1 モデルを直接観察する代わりに、モデルの派生物といくつかのノイズ(e)を観察しています。 p (x 、y)= sバツ+ e 、q(x 、y)= sy+ e p(バツ、y)=sバツ+e、q(バツ、y)=sy+e\ p(x,y)=s_x+e, q(x,y)=s_y+e p(x、yおよびq(x、y)の測定値からs(x)を推定したいのですが、s(0,0)= 0だと知っています。 勾配定理によれば、 s (x 、y)= ∫(x 、y)(0 、0 )[ sバツ、sy] …

1
画像から反射を取り除く方法は?
私は画像をより良いものにし、不要な妨害をすべて取り除いて遊んでいます。主な懸念は、来るかもしれない不要な反射を取り除くことだとわかりました。 私は、これらの反射を取り除くためにICAを使用する論文を読みました。他にどのような方法が機能しますか? 画像があるとしましょう: 別の画像: CMYKに変換しました このセミブラック部分を削除するにはどうすればよいですか?

1
通常のパターンの覆われた部分を再構築するにはどうすればよいですか
私はかなり規則的なパターンからなる画像のセットを持っています-本質的にはほぼ同心円状に歪んだ楕円のセット-円形のディスクで小さな領域(画像領域全体の1%未満)が隠れています。ディスクに隠れていない場合に見えるので、ディスクによって隠されているパターンの部分をデジタルで再構築し、「完全な」イメージを生成できるようにしたいと思います。 パターンは完全に規則的ではありませんが(楕円が歪んでいて、中心が画像から画像へと移動します)、パターンの覆い隠された部分がどのように見えるかは人間の観察者にはかなり明白です-鉛筆でそれを描くことができます瞬間!したがって、これを自動的に行うことができる画像処理アルゴリズムが存在するかどうかを疑問視します。たとえば、画像を円形ディスクをパターンの残りの部分から分離する適切なスペースに変換し、ディスクをフィルタリングしてから、画像を再構築するための逆変換。しかし、この分野の専門家ではないので、何を探しているのか本当にわかりません。誰か提案はありますか?

3
オブジェクト検出とオブジェクト認識
オブジェクト認識とオブジェクト検出を区別するのに少し混乱があります。一部の人々は、オブジェクト検出はオブジェクト認識のサブトピックであると言いますか?誰かがこれら2つのトピックの違いを明確にできますか? 私の知る限りでは: 物体認識は「画像内の物体は何ですか」という質問に答えていますが、物体検出は「その物体はどこにありますか」という質問に答えています。 誰かがそれぞれに例を惜しみなく提供することによって、誰かが違いを説明できることを願っています。

3
2Dから3Dへの変換は可能ですか?
ビデオから異なるフレームでの車の位置をキャプチャしました。 仮定車の(画像で私たちの方に来ているegleft側車)ビデオ・フレーム1の重心は、ビデオ・フレーム4でP(x1、y1)とQ(x2、y2)があります。 PおよびQポイントを3Dに表すことはできますか?正しいピクセル距離d(PQ)を計算し、最後に実際の距離を計算できるように 注:uはカメラが静止しており、地面から10 mの高さに配置されていると想定できます。u は、次の図も参照できる場合は、適切なデータを想定できます。

2
背景の減算で照明の問題に対処するための最先端の方法は何ですか?
私はこれについてよく引用されたアプローチを見つけるのに苦労してきました。基本的に、私はさまざまな背景減算アルゴリズムを試していますが、照明の変化が大きい場合(たとえば、シーン内のウィンドウが特定の時間に大きなグレアを得る場合)は、うまく機能しないようです。 質問は(比較的)単純です。突然の照明の変化を伴うバックグラウンド減算の最先端の方法は何ですか?私のシナリオは監視カメラです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.