タグ付けされた質問 「computer-vision」

コンピュータビジョンには、シーンや画像の高度な理解と認識を形成するために、画像や高次元データを処理、分析する方法が含まれます。

2
視覚追跡および平面マーカーの段階的なカメラポーズ推定
私は拡張現実のカメラポーズ推定と視覚追跡アプリケーションのトピックにしばらく取り組んでおり、タスクに関する詳細な情報はたくさんありますが、依然として多くの混乱と誤解があると思います。 次の質問は、段階的な詳細な回答に値すると思います。 カメラの組み込み機能とは何ですか? カメラ外部機能とは何ですか? 平面マーカーからホモグラフィを計算するにはどうすればよいですか? ホモグラフィを使用している場合、カメラポーズを取得するにはどうすればよいですか?

3
高次フィルターのカスケードバイカッドセクションはどのように機能しますか?
私は8次のIIRフィルターを実装しようとしていますが、これまで読んだすべてのアプリケーションノートと教科書には、2次のセクションとして2を超える次数のフィルターを実装するのが最善であると書かれています。tf2sosMATLABで2次セクションの係数を取得するために使用しましたが、予想どおり、4 2次セクションの6x4係数が得られました。SOSとして実装する前は、8次フィルターには7つの以前のサンプル値を保存する必要がありました(および出力値も)。ここで、2次セクションとして実装するとき、フローが入力から出力までどのように機能するか、2つの前のサンプル値のみを保存する必要がありますか?または、最初のフィルターの出力はx_in2番目のフィルターのように送られますか?
20 filters  filter-design  infinite-impulse-response  biquad  audio  image-processing  distance-metrics  algorithms  interpolation  audio  hardware  performance  sampling  computer-vision  dsp-core  music  frequency-spectrum  matlab  power-spectral-density  filter-design  ica  source-separation  fourier-transform  fourier-transform  sampling  bandpass  audio  algorithms  edge-detection  filters  computer-vision  stereo-vision  filters  finite-impulse-response  infinite-impulse-response  image-processing  blur  impulse-response  state-space  linear-systems  dft  floating-point  software-implementation  oscillator  matched-filter  digital-communications  digital-communications  deconvolution  continuous-signals  discrete-signals  transfer-function  image-processing  computer-vision  3d 

5
カメラからの2つの写真を比較して、動きを検出するのに十分な違いがあるかどうかを確認するにはどうすればよいですか?
電話をCCTVシステムとして使用して、家の部屋を制御し、何かが動いているときにアラートを表示したい。 今のところ、私が成功したのは、毎分画像を取​​得し、PHPスクリプト経由でサーバーにアップロードすることです。ここで、現在の写真と1分前の写真を比較して、誰かが部屋に入ったかどうかを検出したいと思います。したがって、基本的には、写真のピクセルの違いを比較する必要があります(ただし、雲が1分間に挨拶し、明るさを変えただけであることも考慮に入れます) 誰がそれを達成するか、または読むためのドキュメントの手がかりを持っていますか?

2
画像のサイズ変更は、固有のカメラマトリックスにどのように影響しますか?
サイズがHxWの画像で知られているカメラマトリックス(固有パラメーターと外部パラメーターの両方を知っています)があります。(必要な計算にこのマトリックスを使用します)。 もっと小さな画像を使いたい、例えば:(元の半分)。同じ関係を維持するために、マトリックスにどのような変更を加える必要がありますか?H2×W2H2×W2\frac{H}{2}\times \frac{W}{2} 私は、持っている固有パラメータ、(AS、回転と並進)KKKRRRTTT cam=K⋅[RT]cam=K⋅[RT]\text{cam} = K \cdot [R T] K=⎛⎝⎜ax000ay0u0v01⎞⎠⎟K=(ax0u00ayv0001)K = \left( \begin{array}&a_x &0 &u_0\\0 &a_y &v_0 \\ 0 &0 &1\end{array} \right) KKKは3 * 3です、、、およびに0.5(画像のサイズが変更された係数)を掛けることを考えましたが、ません。axaxa_xayaya_yu0u0u_0v0v0v_0

2
この特定のシフト/スケール不変テンプレートマッチングに最適な画像処理技術は何ですか?
ここで最初に説明した問題は進化しており、さらに詳しく調べて新しい情報を得たため、少し簡単になったかもしれません。 結論として、コンピュータービジョン/画像処理技術を使用して、ここに示されているこのパターンを検出できるようにしたいと思います。ご覧のとおり、理想的なパターンは4つの「ping」で構成されています。オブジェクト認識は次のようになります。 不変シフト 水平方向では、画像は周期的になります。(つまり、右に押す、左に出る、およびその逆)。 (幸いなことに)垂直的には、周期的ではありません。(つまり、上または下に押すと停止します)。 スケール不変(表示されるように、pingの「厚さ」は異なる場合があります。) 私はそれについて続けることができますが、私が意味することをカバーする画像を添付しています、以下をご覧ください: もちろん、このファミリーからわかるように、それらは異なる「スケール」でもあります。 そして最後に、実際に受信する可能性のある「現実的な」シナリオをいくつか示します。ノイズがあり、行が下に行くにつれて「フェード」する可能性があり、もちろん、画像にはたくさんの偽の線、アーチファクトがありますなど そしてもちろん、グランドフィナーレとして、この「極端な」シナリオの明確な可能性があります。 そこで、もう一度、最高の検出のためにここでどのコンピューターマシンビジョンテクニックを利用すべきかについてのガイダンスをお願いしたいと思います。パターンの発生ます。また、現実的なシナリオで適切な結果を得ることができます。(良いニュースは、回転不変である必要はないということです)。これまでに思いついたのは、2次元相関だけです。 現実には、色付きの画像がないことを付け加えます-数字の大群を取得するだけなので、「グレースケール」について話していると思います。 前もって感謝します! PSその価値のために、おそらくオープンC Vを使用します。 編集#1: コメントに基づいて、あなたがリクエストした詳細をここに追加しました: データを定義する特性については、次のことを想定できます。 各pingの水平方向の長さはさまざまですが、上限と下限はわかっています。この範囲内のすべての場合はYES、外部の場合はNO。(たとえば、pingの長さは1〜3秒の範囲であることがわかっています)。 すべてのpingは、YESの場合は「可視」である必要がありますが、最後の行が欠落している可能性があり、それでも「YES」と言いたい場合があります。そうでなければNO。 各pingの垂直方向の長さ(「厚さ」)は異なる場合がありますが、ここでも上限と下限を知っています。(これらの画像に表示されるものと同様)。その範囲内のすべてに対してはい。外のものは一切ありません。 YESの場合、各ping間の高さは常に同じである必要があります。そうでない場合、NO。(例、すべてのpingが互いに相対的に同じ高さであることがわかります(垂直軸で〜110))。したがって、110 +/- 5はYESになりますが、それ以外はNOでなければなりません。 私はそれについてだと思います-しかし、私が追加できるものを教えてください...(また、ここに示されているものはすべて、YESとして登録する必要があります)


4
カルマンフィルターによる追跡の直感的な説明
カルマンフィルターを使用した(視覚的な)追跡の直感的な説明をいただければ幸いです。私が知っていること: 予測ステップ: 動的システム状態:時刻ターゲットの場所xt\mathbf x_ttt 測定:時間インデックス画像(??)zt\mathbf z_ttt 画像/測定に基づいて状態を予測したいですか?(動的方程式を使用)それは正しいですか?1→(t−1)1\rightarrow(t-1)xt\mathbf x_t 修正手順をこれらの用語(画像、ターゲットの場所)に解釈するにはどうすればよいですか?

2
キーポイント記述子を使用する理由
私はSURFについて勉強したばかりで、その実装に行きますが、それでも記述子を使用する理由がわかりませんでした。 キーポイントとその目的を理解していますが、キーポイントを抽出するとき、なぜ記述子を使用する必要があるのでしょうか?認識における彼らの重要性と役割は何ですか?

5
スケールおよび回転不変フィーチャ記述子
フィーチャ検出で使用するために、いくつかのスケールおよび回転不変フィーチャ記述子をリストできますか。 このアプリケーションは、マルチクラス分類器を使用して、UAVによってキャプチャされたビデオ内の車と人間を検出するためのものです。 これまでのところ、SIFTとMSER(アフィン不変)を見てきました。私もLESHを見ました、LESHはローカルエネルギーモデルに基づいていますが、回転不変ではない方法で計算され、ローカルエネルギーを利用して回転不変を構築する方法を考えようとしています機能記述子、私はここを読みます商用アプリケーションで使用できるSIFT / SURFの無料の代替手段は何ですか?、「関心点に方向を割り当て、それに応じて画像パッチを回転させると、回転不変性が無料で得られます」が、これがさらに当てはまるかどうか、またはこれを私の問題にどのように適用できるかわかりません感謝します、ありがとう

4
上からの人の検出
私は、地上3メートルのカメラを1つだけ使用して、人を検出する方法を見つけようとしています。これはカメラによって返されるフレームです: 更新:ビデオテスト-> http://dl.dropbox.com/u/5576334/top_head_shadow.avi そのためには、まず、バックグラウンドとフォアグラウンドのセグメンテーションを実行する必要があることを理解します。それは簡単な部分です。 前景マスクを使用すると、ハフ変換などの簡単な操作で円を見つけることができますが、この方法では、多くの誤検出を含む頭部の60%しか検出されません。 色分けのような他の簡単なテクニックを使用することもできますが、髪型、色、髪の量などのために、人々の頭は上とは大きく異なることがわかりました... 私がそれについて持っている他のオプションは、HOG記述子、またはHaarのような機能を使用する可能性ですが、モデルを訓練するには上から見た人々の広範なデータベースが必要です。私はそのようなものを見つけていません。 これは非常に頻繁に起こる問題だと思っていましたが、文学やインターネットではあまり見つけることができません。このタスクを解決するための助けをいただければ幸いです:-) 更新:詳細については、目標は歩行者の流れを追跡するための一般的な方法を実装することです。最初のプロトタイプはモールでテストされます。

1
SVD / PCA計算からの新しい画像のフィッティング
ウィキペディアのEigenfaceページからアイデアを複製しようとしています。数百サンプル画像データで表される行列(各画像は、長さのベクトルに平坦ここで、従ってであるによって行列)、IはSVD分解を計算しました。XX\bf XnnnXX\bf X100100100nnn X=UΣVTX=UΣVT\begin{equation} \bf X = U \Sigma V^{T} \end{equation} したがって: XXT=UΣ2UTXXT=UΣ2UT\begin{equation} \bf X X^{T} = U \Sigma^2 U^{T} \end{equation} 最大の固有モードのサブセットを取得することにより、行列を近似できます()。qqqσ1≥σ2≥⋯σ1≥σ2≥⋯\sigma_1 \ge \sigma_2 \ge \cdots X≈σ1u1vT1+σ2u2vT2+⋯+σquqvTqX≈σ1u1v1T+σ2u2v2T+⋯+σquqvqT\begin{equation} {\bf X} \approx \sigma_1 u_1 v_1^{T} + \sigma_2 u_2 v_2^{T} + \cdots + \sigma_q u_q v_q^{T} \end{equation} ない画像を表す新しいベクトル与えられた場合、新しい画像を最もよく表すために固有ベクトル重み付けを決定するにはどうすればよいですか?病的な場合を除いて、この表現はユニークですか?yyyXX\bf XqqqUU\bf Uyyy 要するに、私がやりたいことはこれです(wikiページから): これら固有顔は、現在既存および表現するために使用することができる新たな顔を:我々ができ突出固有顔に新しい(平均減算)画像をすることにより、記録方法、平均面からの新しい顔が異なります。 その投影法をどのように行うのですか?

2
強度レベルの深さに基づく画像の3D再構成?
オブジェクトがビューアーからどれくらい離れているかに基づいてオブジェクトをセグメント化する方法はありますか? 色の値はこの種のことを私たちのために評価できますか?強度レベルは、オブジェクトが視聴者からどれだけ離れているかを判断するのにどのように役立ちますか? 別の画像:

2
優れたオープンソース(無料)手書きOCRプログラムはありますか?
タイトルはそれをすべて求めます。私の前にはあまり熱心ではないデータ入力タスクがあります:50-100ページの手書きサインアウト/サインインログ。 ログの形式が役立つ場合があります。ページは明確に区切られた行と列に分割されます(13r x 6cに追加のヘッダー行があります)。さらに役立つのは、3つの列が日付/時刻に関連していることです(日付、タイムアウト、入力)。また、2つの列(リソースと名前)のデータは多かれ少なかれ列挙されるので、たとえば、同じ手書き文字で名前列に「Smith」という名前が何度も​​現れることがあります。最後の列「Notes」は自由形式ですが、前の6列を自動化できれば、Notesを手入力することは気にしません。 助言がありますか?(「入力を開始する」以外に) PSこれを尋ねるより良いSEサイトがあれば、私に知らせてください、私はそこで尋ねます。

3
輪郭の一致-輪郭の変位を見つける
同じオブジェクトの2つの画像で輪郭を見つけ、このオブジェクトの変位と回転を見つけたいです。私はこの輪郭の回転した境界ボックスとその角度と中心点を試しましたが、境界ボックスの回転は、角度a + 0、a + 90、a + 180などで同じであるため、輪郭の回転を正しく認識しません度。輪郭の回転と変位を見つける他の良い方法はありますか?たぶん凸包、凸欠陥のいくつかの使用?等高線のマッチングについてOpenCvの学習で読みましたが、助けにはなりませんでした。誰かが例を挙げることができますか? 例: たとえば、ピンクの四角や、2番目のケースのペンを検出したい。他の例は、いくつかの穴や星などのある正方形です。私が言ったように、私はいくつかの普遍的なものを作りたいです。可能な限り多くのメソッドをテストしたいので、提案はありがたいです。

2
なぜガウス分布の違いは空間スケール不変ですか?
ここでは例として、スケール不変の特徴変換アルゴリズムを使用します。SIFTは、画像のスケーリングされたガウスフィルタリングに基づいてスケール空間を作成し、ガウスの差を計算して潜在的な関心点を検出します。これらの点は、ガウス分布の差全体の局所的な最小値と最大値として定義されます。 このアプローチは(他の不可解な不変性の中でも)スケール不変であると主張されています。どうしてこれなの?なぜそうなのかははっきりしていません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.