タグ付けされた質問 「object-recognition」

5
スケールおよび回転不変フィーチャ記述子
フィーチャ検出で使用するために、いくつかのスケールおよび回転不変フィーチャ記述子をリストできますか。 このアプリケーションは、マルチクラス分類器を使用して、UAVによってキャプチャされたビデオ内の車と人間を検出するためのものです。 これまでのところ、SIFTとMSER(アフィン不変)を見てきました。私もLESHを見ました、LESHはローカルエネルギーモデルに基づいていますが、回転不変ではない方法で計算され、ローカルエネルギーを利用して回転不変を構築する方法を考えようとしています機能記述子、私はここを読みます商用アプリケーションで使用できるSIFT / SURFの無料の代替手段は何ですか?、「関心点に方向を割り当て、それに応じて画像パッチを回転させると、回転不変性が無料で得られます」が、これがさらに当てはまるかどうか、またはこれを私の問題にどのように適用できるかわかりません感謝します、ありがとう

2
歩行者カウントアルゴリズム
現在、歩行者カウンタープロジェクトを開発しています(LinuxでOpenCV + QTを使用)。アプローチについての私の考えは次のとおりです。 フレームをキャプチャする バックグラウンド減算を行う 明確なノイズ(侵食、拡張) BLOBの検索(cvBlobslib)-フォアグラウンドオブジェクト 各BLOBについて、ROIを設定し、これらのBLOBで歩行者(detectMultiScaleを使用したLBP)を検索します(パフォーマンス向上のため) 見つかった歩行者ごとに、ネストされた上半身検索を実行します(不明)(信頼性の向上) 同じ歩行者が連続するフレーム(3〜4フレーム)で見つかった場合-その領域をカムシフトとトラックに追加-歩行者としてマークする 次のフレームのBLOB検出からカムシフト追跡領域を除外する 歩行者が行のインクリメント数を超える場合 順調に進んでいるかどうかを確認したい。私のアプローチを改善する方法について何か提案はありますか?誰かが似たようなことに取り組んだ場合、この問題に関する有用なヒント、リソース(および批判)をいただければ幸いです。

2
入力画像にガボールフィルターを適用する
特定のスケールでGaborフィルターを適用しようとしました(ラムダとシグマの私の値によると、それは(7x7)であり、4つの方向(0、、および)を入力グレースケールイメージに変換します。π4π4\frac{\pi}{4}π2π2\frac{\pi}{2}3個のπ43π4\frac{3\pi}{4} 私のコードでは、3つのステップが実行されます。 ガボールフィルターの作成 RGB画像を読み取り、それをグレースケールに変換し、最終的に2倍に変換します。 作成したガボールを入力画像に適用します(ここでは、私のコードが真であるかどうかはわかりません。そのため、あなたの意見が必要です) 1)--------------ガボールフィルターを作成します(サイズ= 7x7および4方向) %define the five parameters theta=....; %either 0 or pi/4 or pi/2 or 3pi/4 lambda=3.5; gamma=0.3; sigma=2.8; psi=0; sigma_x = sigma; sigma_y = sigma/gamma; nstds = 5; xmax = max(abs(nstds*sigma_x*cos(theta)),abs(nstds*sigma_y*sin(theta))); xmax = ceil(max(1,xmax)); ymax = max(abs(nstds*sigma_x*sin(theta)),abs(nstds*sigma_y*cos(theta))); ymax = ceil(max(1,ymax)); xmin = -xmax; ymin = …

3
満たされたガラス物体の検出
私はこの質問からstackoverflowでここに送信されました。質問が具体的すぎて、ここの方法ではない場合は失礼します:) タスクは、特定の液体が入っているガラスを見つけることです。写真を見せて、私が達成しようとしていることと、これまでに達成しようとしていたことを、写真の下の説明で説明しましょう。 写真:(写真とリンクを投稿するには、少なくとも10の評判が必要なようです。リンクはこれを行う必要があります:(そうでなければ、スタックオーバーフローの質問を見ることができます) 詳細な説明:opencvで特定の形状のガラスを検出するアルゴリズムを実装しようとしました(ガラスは異なるカメラショットの角度/距離によって変換される可能性があります)。他の形の他のグラスもあります。私が探しているガラスも、他の色を含むガラスと区別するために、いくつかの着色された液体で満たされます。 これまでのところ、私はSIFT特徴抽出機能を使用してグラスのいくつかの特徴を見つけ、それをグラスの中にある他の写真と照合することを試みました。 このアプローチは、ガラスが非常に特定の位置にあり、背景が学習画像に似ているような非常に特定の条件でのみ機能しました。問題はまた、ガラスが3Dオブジェクトであり、そこから特徴を抽出する方法がわからないことです(おそらく、異なる角度からの複数の写真がリンクされているのでしょうか?)。 今、私は他にどんなアプローチが使えるのか分かりません。私はこれについていくつかの手掛かりを見つけましたが(ここでは/programming/10168686/algorithm-improvement-for-coca-cola-can-shape-recognition#answer-10219338)、リンクが壊れているようです。 別の問題は、そのようなガラスのさまざまな「空のレベル」を検出することですが、ガラス自体を適切に見つけることさえできませんでした。 このタスクでのアプローチについての推奨事項は何ですか?ローカル3Dオブジェクトフィーチャーを見つけるには別の方法を使用する方が良いでしょうか?それとも、他のアプローチを完全に使用する方が良いでしょうか?複数の写真のセットからオブジェクトを「学習」するアルゴリズムについて聞いたことがありますが、実際にはこれを見たことがありません。 任意のアドバイスは本当にいただければ幸いです

1
歯科用X線撮影からのノイズの除去
私はアクティブシェイプモデル を適用して、歯科用X線写真で歯を見つけるプロジェクトに取り組んでいます。この手法に詳しい方のために、現在、各ランドマークの法線ベクトルに沿ってサンプリングを試みています。このペーパーでは、サンプリングされたピクセルの導関数を使用することを推奨しています。 したがって、私の問題は、デリバティブオペレーターを適用するために歯科用X線をフィルター処理するための最良の方法です。私は現在、中央値フィルターの組み合わせを使用して、量子ノイズ(まだら)だと思うもののほとんどを削除しています。その後、バイラテラルフィルターが続きます。次に、Scharr演算子を適用して、サンプリングする実際の勾配を計算します。 結果を以下に示します。 最初の画像は元のデータを示しています。2番目と3番目の画像では、フィルター処理されたデータが、最初にFFT後のスペクトルの大きさとして、次にフィルター処理された画像データとして表示されます。4番目の画像は、3番目の画像にScharr演算子を適用した結果を示しています。 私の質問は: 私のアプローチとは異なる、歯科用X線写真のノイズを減らすためのよく知られたアプローチはありますか? エッジと「フラット」(非エッジ)領域の「煙のような」外観の原因は何ですか?フィルタリングされた画像にある種の残りのノイズですか、それとも勾配演算子に固有のものですか?それが実際にノイズである場合、どのフィルターを使用するのが最も適していますか?メディアンフィルターは、小さなノイズのあるブロブの除去に優れていましたが、カーネルが大きいと、エッジがぼやけすぎてしまいます。そのため、バイラテラルフィルターを使用して、大きなブロブをフィルターで除去し、エッジを損なわずに領域全体で色を均一化しますが、このスモーキーな構造をフィルターすることはできません。 この場合、勾配を作成するためにScharr演算子よりも優れたオプションはありますか? おまけ:これはアクティブシェイプモデルの適切な入力と見なされますか?どれほど堅牢かはまだわかりません。

1
車両のセグメンテーションと追跡
私はしばらくの間、UAVからキャプチャされたビデオで車両を検出および追跡するプロジェクトに取り組んでいます。現在、車両および背景画像から抽出されたローカルフィーチャの機能のバッグ表現でトレーニングされたSVMを使用しています。次に、スライディングウィンドウ検出アプローチを使用して、画像内の車両の位置を特定し、追跡します。問題は、このアプローチははるかに遅く、私の検出器は私が望むほど信頼性が高くないため、Imがかなりの数の誤検知を取得することです。 したがって、分類器を適用する前に検索スペースを減らすために、車をバックグラウンドからセグメント化しておおよその位置を見つけることを検討してきましたが、これをどのように行うかわからず、誰かが助けてくれることを望んでいましたか? さらに、レイヤーを使用したモーションセグメンテーションについて読んでいます。オプティカルフローを使用してフローモデルでフレームをセグメント化しています。この方法の経験はありますか。この方法が当てはまるかどうかについて、何か意見があれば教えてください。私の問題。 更新:私はこの質問をスタックオーバーフローにも投稿しましたが、素晴らしい回答がありました。このアイデアはすでに実装されており、驚くほどうまく機能しており、この手法に加えてオプティカルフローを使用して調査しています。 以下は、サンプルビデオの2つのフレームです フレーム0: フレーム5:

1
画像で車のモデルを認識するための優れた機能/アルゴリズム
オブジェクトの認識、特に車種の認識について質問があります。同じ車種を異なる画像で特定する作業の始めにいます。現時点では、3Dオブジェクト認識の最良のアルゴリズムの1つはSIFTだと思いますが、デモの実装で少し遊んだ後、このアルゴリズムには車などの光沢のある金属製のオブジェクト、特に色が異なる場合に問題があるという不思議な感じがします。 誰かがこの領域でいくつかの作業を一般的にいくつかの異なるアルゴリズムで同じ車モデルを見つけるタスクに適したアルゴリズムを知っていますか? よろしくお願いします!

3
シンプルなテクニックのみを使用したジェスチャー認識
私はコンピュータビジョンのコースをたどっていて、この演習を行っています。手の画像が与えられると、手を開いているか、閉じているか、パンチを開いているか、または「OK」の姿勢を保持しているかを、これまでに提供された手法(ピクセル4/8接続、接続領域、輪郭検出、穴検出、重心のようなブロブプロパティ、面積、周長、偏心、画像モーメント、反転/パワー/ログ/ガンマ補正/コントラストストレッチのような画像変換、ヒストグラム計算とイコライゼーション)。 私はいくつかの基本的なブロブプロパティでそれを行いました(閉じた手は偏心度が低く、「ok」は穴があります、開いた手はブロブの内接楕円の面積と偏心度が低いブロブ領域自体の間に大きな違いがあります) ..動作するようですが、最初の画像は少し問題があります。 より堅牢なアルゴリズムを作成するために、もっと何かがあると思います。たぶん、ある種のモーメントプロパティ?いくつかのblob軸/方向/極値が役立ちますか? PSテスト画像:

3
照明が変化するOpenCVの皮膚色不変
照明とは無関係に肌の色をとらなければなりません。次の基準を使用しましたが(hsvとrgbを使用)、機能しません。 int h = get_hue(...); int s = get_saturation(...); int r = get_red_component(...); int g = get_green_component(...); int b = get_blue_component(...); if ((h<38)&&(h>6)&&(s>0.23)&&(s<0.68)){ // skin color } else if ((r>95) && (g>40) && (b>20) && ((maximum(r,g,b)-minimum(r,g,b))>15) && (abs(r-g)>15)&&(r>g)&&(r>b)){ // also skin color } それは私の肌が照らされている朝には機能しますが、夕方までには機能しません。 どんな助けでもありがたいです。前もって感謝します。(PS-私の肌は白くありません。)

3
オブジェクト検出とオブジェクト認識
オブジェクト認識とオブジェクト検出を区別するのに少し混乱があります。一部の人々は、オブジェクト検出はオブジェクト認識のサブトピックであると言いますか?誰かがこれら2つのトピックの違いを明確にできますか? 私の知る限りでは: 物体認識は「画像内の物体は何ですか」という質問に答えていますが、物体検出は「その物体はどこにありますか」という質問に答えています。 誰かがそれぞれに例を惜しみなく提供することによって、誰かが違いを説明できることを願っています。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.