タグ付けされた質問 「computer-vision」

コンピュータビジョンには、シーンや画像の高度な理解と認識を形成するために、画像や高次元データを処理、分析する方法が含まれます。

1
円形画像のOCRに推奨される前処理方法
こんにちは、これは私のサンプル画像です。このような画像でリアルタイムに文字を検出します。 前処理なしで、元の画像でSURF、SIFT、MSER、およびテンプレートマッチングを試しました。文字を検出することはできますが、画像が変化しても、画像上の文字に多くの関心のあるポイントがないため、この機能検出方法は機能しません。精度を上げるためにどのような前処理を行うべきか、正確にはわかりません。 だから私の質問は、皆さんがより高い精度で文字検出を行うためにどのような方法を提案できるかです。 前もって感謝します。

1
カメラにアクセスせずにカメラのキャリブレーションをハックすることは可能ですか?
多くの場合、カメラにアクセスせずに処理するビデオのストリームがあります。カメラマトリックスにアクセスできることは、さまざまな処理技術にとって有益です。カメラにアクセスせずにカメラのキャリブレーションをハックすることは可能ですか? 私は、道路を記録している移動中の車に取り付けられた1台のカメラからのビデオストリームを持っています(したがって、地面に複数の平行線、レーンマーカーの角はありますが、円はありません)。これを真上から見下ろしたいのですが、カメラにアクセスできません。出来ますか?もしそうなら? 私は、OpenCVの学習:OpenCVライブラリのあるコンピュータビジョンブックから、次のマトリックスが必要であることを理解しています。 組み込み関数、および ねじれ .. cv2.undistort()画像にホモグラフィcv2.getPerspectiveTransform()を計算しcv2.warpPerspective()、最終的にトップビューを取得します。 質問 組み込み関数または歪み行列/パラメーターを計算/近似/推測するにはどうすればよいですか?すべてのパラメーターは重要ですか? 他のカメラ(OpenCVソースコードサンプルなど)からパラメーターをコピーしても問題ありませんか? 事前調査: OpenCV Pythonカメラキャリブレーションチュートリアル -カメラへのアクセスが必要 カメラのAutoCalibration-「平行線または形状が既知(例:円形)のオブジェクトの複数のセットが識別された場合、キャリブレーションが取得される可能性があります」 カメラのキャリブレーションに関連する回答を理解しようとしています[ 1 ] [ 2 ] [ 3 ]私の問題に対する回答を見つけようとしています。 何か案は?事前にあなたの助けを感謝します! 更新1:透視変換実験 入力画像の4点を使用getPerspectiveTransform(pts1,pts2)しdst = cv2.warpPerspective(img,M,(x,y), flags=flags)て照合し、一種のトップダウンビューを取得しようとしました。しかし、歪みを処理する方法がわかりません: ポイントの選択:最初に、入力を拡大し、レーンマーカー上の一致する外部ポイントを正確に選択してホモグラフィマトリックスを作成し、で透視変換画像をプレビューしましたwarpPerspective。車線が歪んでいるのを見ましたが、どれほどひどいのかわかりませんでした。アイデアを得るために、両端のデルタ(50px)フラットでさらにポイントを選択しました。これは私が得るものです: カメラにアクセスしなくても歪みを修正できますか?これを修正する他の方法はありますか? 使用する入力画像が少ない: 更新2:トップダウンビューでの非平行(散乱)オプティカルフロー これは、歪みやその他の原因によるものですか?:

3
画像特徴の検出とマッチングの目的
私は画像処理とコンピュータービジョンの新人なので、この質問はあなたには馬鹿げているかもしれません。 Harris、Hessian、SIFT、SURFなど、いくつかの特徴検出および記述アルゴリズムを学びました。画像を処理してそれらのキーポイントを見つけ、それぞれの記述子を計算します。記述子は、特徴照合に使用されます。 私はSIFTとSURFを試してみましたが、2つの画像(1つは回転して少しアフィンされている)の場合、それらは機能によく一致せず、ほぼ100の特徴点のうち10マッチは良いです。 だから私は思う これらの特徴検出アルゴリズムを実際に何に使用できますか?特徴の検出とマッチングのためのより堅牢なアルゴリズムはありますか?または、SIFTとSURFは既に良好ですが、さらに使用するために調整する必要がありますか? もう1つの問題は、これらのアルゴリズムは(マルチコアの実装を考慮せずに)リアルタイムアプリケーションには適していないと思いましたが、リアルタイムで機能し応答する商用製品(Kinectなど)があることです。これらの製品も、見たものから機能を検出して照合すると思いますが、SIFTなどのアルゴリズムを使用していますか?どのようにして機能をうまく検出できるでしょうか? 知識が限られているため、2つの画像で同じオブジェクトを見つけたり、ホモグラフィを推定したりするために機能マッチングを使用できることはわかっていますが、機能マッチングの他の目的はありますか?

1
ヘッセ特徴検出器はどのように機能しますか?
私は、ハリスコーナー検出器について知って、私はその基本的な考え方を理解する二次モーメント行列を、 、エッジおよびその他の不安定なポイントはを介して削除できます。M=[I2xIxIyIxIyI2y]M=[Ix2IxIyIxIyIy2]M = \left[ \begin{array}{cc} I_x^2 & I_xI_y \\ I_xI_y & I_y^2 \end{array} \right]MMM ただし、ヘッセ行列検出器については、ヘッセ行列を使用してキーポイントを検出し、エッジを削除します。 H=[IxxIxyIxyIyy]H=[IxxIxyIxyIyy]\mathcal{H} = \left[ \begin{array}{cc} I_{xx} & I_{xy} \\ I_{xy} & I_{yy} \end{array} \right]、そしてHH\mathcal{H}エッジを削除して安定した点を検出する方法がわかりませんか?その背後にある直感的な基本的な考え方は何ですか?

1
画像処理とフーリエ変換
フーリエ変換が画像処理/コンピュータービジョンでどのように、そしてなぜ使用されるかを理解しようとしています。以下は私がこれまでに集めたものです。それに対する私の理解は正しいでしょうか?そうでない場合は、誰かに簡単でわかりやすい英語で説明してもらえますか?または、誰か追加するものはありますか?最後に重要なことですが、誰かが「離散フーリエ変換」を説明できますか? フーリエ変換は、画像をその正弦成分と余弦成分に分解します。簡単に言えば、サインとコサインはそれぞれ最小値と最大値で始まる波です。現実の世界では、観測する波が最大点と最小点のどちらから始まったのかわからないため、実際にはその2つを区別することはできません。したがって、サインとコサインは単に正弦波と呼ばれます。 FTを画像に適用するとき、それを空間ドメインから「周波数ドメイン」に変換します。これは、本質的に、時間の経過に伴う色と明るさの変化(時間ではなく空間です。ピクセル数を超えています)。 編集:なぜフーリエ変換を使用するのですか?そして、他の方法に比べてその利点は何ですか?たとえば、文学における1つのアプリケーションは、形状認識またはノイズ除去です。基本的に、FTを使用して形状認識を行うにはどうすればよいでしょうか。


2
楕円を2Dデータに合わせる方法
次のような連続した、おそらく凹状の形状に対する楕円の「最適な」適合を見つけたいのですが。 何を試しましたか? 私は1つがメジャーとマイナーの軸の方向に割り当てることができると思った座標にピクセル値をマッピングすることにより、楕円の、平均減算、およびPCAから最大2個の固有ベクトルを節約します。は方向を見つけるのにかなりうまくいくようです:a⃗ 、b⃗ a→,b→\vec a, \vec b 私の問題は、これら2つのベクトルの長さを決定することです。ここでは、PCAの固有値からを使用しました。これは長さを過小評価しているようです。をどのように判断できますか 、およびまたは、代わりに楕円をこれらの形状に最適化しますか?λ−−√1λ1\sqrt \lambda_1 λ−−√2λ2\sqrt \lambda_2|a⃗ ||a→||\vec a||b⃗ ||b→||\vec b|

1
OpenCVを使用して画像内のエッジの長さ/方向のヒストグラムを取得する
ROIに[日本語]のテキストが含まれているかどうかを推定する過程で、長さや方向によってビニングされたエッジの大まかな数を取得する必要があります...これにより、 ROIにはテキストが含まれている可能性があります。 ただし、そのようなヒストグラム(または特定の長さ/向きのしきい値のエッジの数)を取得するための効率的な(これは最終的にはビデオストリームで機能する必要があります)方法を理解できないようです。ハフ変換は、 CannyとSobelはすべてのタイプを検出しますが、特定の形状(ラインなど)に焦点を合わせますが、それらの出力は特にカウントに役立ちません... 画像からエッジのリストをすばやく抽出するために、使用できるいくつかのアルゴリズムについての提案やヒントをいただければ幸いです...

1
Essentialマトリックスの最小化
コンピュータービジョンと3D再構成の問題は、カメラの固有パラメーターを取得することです。一般的な解決策は、チェッカーボードなど、事前に形状の測定値がわかっているオブジェクトを使用することです。この方法の問題は、焦点距離や倍率など、カメラのパラメーターを変更するたびに行う必要があることです。 A Self Technique for Self-Calibrationで説明されているカメラのセルフキャリブレーションを実装しようとしています。必須行列は、2つの特異値によって制約されます。これを使用して、手動のキャリブレーションを実行せずに(つまり、チェッカーボードを使用して)カメラの組み込み機能を回復できます。コスト関数を最小化する方法に少し混乱しています。これが私がこれまでに理解したことです: 必須行列 E=KT2FK1E=K2TFK1E=K_2^TFK_1 固有行列 K=⎡⎣⎢αバツ00sεαバツ0あなた0v01⎤⎦⎥K=[αxsu00ϵαxv0001]K=\begin{bmatrix}\alpha_x & s & u_0 \\ 0 & \epsilon\alpha_x & v_0 \\ 0 & 0 & 1\end{bmatrix} αバツαx\alpha_x焦点距離と倍率の積 ] εϵ\epsilonアスペクト比[提供されていると仮定します。カメラまたはEXIFデータから推測しますか?] あなた0v0u0v0u_0 v_0はの座標です[0、0と仮定] sss skew [仮定0] コスト関数 sはの特異値であるC(K私、i = 1 .. n )=Σ私はjん(σ1私はj- σ2私はj)/ σ1私はjC(Ki,i=1..n)=∑ijn(σ1ij−σ2ij)/σ1ijC(K_i,i=1..n)=\sum_{ij}^n(\sigma1_{ij}-\sigma2_{ij})/\sigma1_{ij}σσ\sigmaKTjF私はjKjKjTFijKjK_j^TF_{ij}K_j 質問:このコスト関数はどのように最小化されていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.