タグ付けされた質問 「image-processing」

一般に、画像処理は、写真やビデオフレームなどの入力が画像である信号処理の任意の形式です。

2
YV12からRGB-アルゴリズムの何が問題になっていますか?
次のフラグメントシェーダーを使用してYV12をRGBに変換しようとしています。 precision mediump float; uniform sampler2D tex0, tex1, tex2; varying vec2 v_texCoord; void main(void) { float r, g, b, y, u, v; y = texture2D(tex0, v_texCoord).x; u = texture2D(tex1, v_texCoord).x; v = texture2D(tex2, v_texCoord).x; y = 1.1643 * (y - 0.0625); u = u - 0.5; v = v - …

2
フィルターカーネルを適用する方法
オーディオ、ビデオ、または画像処理などのデジタル信号に使用できるフィルターは、周囲の領域に重みを付ける行列(「カーネル」)を使用して定義できます(これは、他の人からの講義ノートで読んだ説明です)。 カーネル は、侵食フィルターを定義します。⎛⎝⎜111111111⎞⎠⎟(111111111)\left(\begin{array}{ccc} 1 & 1 & 1 \\ 1 & 1 & 1\\ 1 & 1 & 1\end{array}\right) このカーネルが、たとえば画像(したがって、ピクセルの2Dフィールド)にどのように適用されるか教えていただけませんか?前もって感謝します!

2
破損したjpegからグリッドパターンを削除するために適用できる画像フィルターはどれですか。
なんとか破損していて、バックアップイメージを失った約1,400のJPEGがあります。それらはすべて、それぞれに同じグリッド線のパターンがあるように見えます(つまり、グリッド線は画像間で移動しません。 これらの画像の1つは次のようになります。 このグリッドパターンを削除または平滑化する、Matlab固有の画像フィルタリング技術などはありますか?

2
ビデオから泥棒の車のナンバープレート番号を識別する
動機: 私は最近、ノートパソコンを盗まれました。家族の写真、研究活動、その他の非常に重要なものがたくさんありました。もちろん盗難は報告されていますが、私はここの人々は地元の警察署に比べて画像処理に優れていると思います:) ビデオ録画 盗難は防犯カメラによってキャプチャされました。元の.davファイルはここからダウンロードできます。 ch10.dav ch13.dav 変換された.aviファイルは、ここからダウンロード(またはブラウザーで再生)できます。 ch10.avi ch13.avi 説明 ch10(フルネーム:)という名前のファイルでHCVR_ch10_main_20160501143700_20160501143947は、泥棒の車が0:48に右からフレームに入ります。ch13(フルネーム:)という名前のファイルHCVR_ch13_main_20160501143811_20160501144205では、最初の2分間で、泥棒の車が右からフレームに入り、Uターンし、アイテムを盗み、もう一度Uターンして行きます。 何が試されましたか? ナンバープレートの周りのいくつかのフレームをトリミングし、プレートがすべてのフレームで同じ位置とサイズになるようにストレッチして、平均化してみました。結果は元のフレームより良くありませんでした:( どうすれば番号を取得できますか?

2
多次元信号の位相シフトと位相スペクトルの項
1D信号の位相について知っています。しかし、2D、3Dなどのより高い次元に行くと、コンセプトを把握するのが頭痛になります。 画像またはビデオ信号のような多次元(2D、3Dなど)信号の場合、位相シフトおよび位相スペクトルという用語は何を意味しますか? 位相項はどのように数学的に表されますか? 位相スペクトルをどのように分析しますか? 信号に関する位相スペクトルからどの情報を取得しますか? 誰かがプロットや図で説明できますか?

2
Photoshop CCで詳細を保持するアップサンプリングの基本的なアルゴリズムは何ですか?
Photoshop CCのディテールを維持するアップサンプリングアルゴリズムは本当に素晴らしいです。ほぼリアルタイムで詳細を保持しながら、あらゆる画像を拡大できます。そして、それがどのように実装されているのか、本当に疑問に思います。 私はキーワードで論文を検索することから始めましたsingle image super resolution。そして、現在の最先端のアルゴリズムは、欠けている高周波情報を推測するために訓練された外部データベースを必要とするようです。完全な辞書をトレーニングして配布するのは本当に難しいと思いますよね?また、画像ピラミッドを含む辞書をリアルタイムでトレーニングすることはできないと思います。 その後、アルゴリズムにimage upsampling比べて十分高速に見えるの領域に目を向けましたが、super resolution非常に多くのアルゴリズムがあり、私は完全に迷っています。 それで、誰かがそのツールをどのように実装できるかについて推測やヒントがありますか?ありがとう!

3
オブジェクト検出とオブジェクト認識
オブジェクト認識とオブジェクト検出を区別するのに少し混乱があります。一部の人々は、オブジェクト検出はオブジェクト認識のサブトピックであると言いますか?誰かがこれら2つのトピックの違いを明確にできますか? 私の知る限りでは: 物体認識は「画像内の物体は何ですか」という質問に答えていますが、物体検出は「その物体はどこにありますか」という質問に答えています。 誰かがそれぞれに例を惜しみなく提供することによって、誰かが違いを説明できることを願っています。

2
Facebookで使用される圧縮アルゴリズムとは何ですか?
Facebookが画像を圧縮するために使用する圧縮アルゴリズムは何ですか?サイズ242 Kbの画像をアップロードし、同じ画像をFacebookアルバムからダウンロードしました。ダウンロードした画像のサイズは46 Kbで、主観的な品質はほぼ同じです。元の画像(アップロード)とダウンロードした画像(Facebookから)を区別できませんでした。ダウンロードされた画像はからにダウンサンプリングされ1226 x 1600ました552 x 720。したがって、Facebookは、主観的な品質に大きな影響を与えることなく、画像をFacebookアカウントにアップロードしている間、適切な比率で画像を圧縮します。 彼らがこの目的のためにどのような圧縮アルゴリズムを使用しているのだろうか。あなたの最良の推測は何でしょうか? Original image: tamil_girl_painting (size 1226 x 1600) Downloaded (from Facebook) image: tamil_girl_painting (size 552 x 720)

2
画像からランダムなドットを削除するにはどうすればよいですか?
最近、スキャンされた画像をいくつか受け取りました。解像度はOKですが、黒い点がランダムに飛び散っています。これらは、いくつかの非常に明るい領域を除いて、すべて(衣服、顔、壁、窓など)をカバーします。彼らがどうやってそこに着いたのかもわかりません。ここにサンプルがあります: 情報コンテンツの観点からは、これらのドットはかなり明確なシグネチャを持っている可能性が高いため、おそらく削除できると思います。(たとえば、それらが均等に分散されている場合、フーリエ変換の空間マスクが不思議に思うことを知っています。)これらのアーティファクトを削除するアルゴリズムはありますか?

1
画像のノイズ除去でFFTを正しく適用する方法
画像からノイズを取り除くためのプログラム(Qtウィジェット/ c ++)を書いています。ノイズ除去方法として、非局所平均法を選択しました。この方法は、復元された画像の信じられないほどの品質を持っています(それがOpenCVで唯一のノイズ除去方法である理由です)が、計算コストが非常に高いため、この方法の多くの変更されたバリアントを作成しました(一部はマルチスレッド化、一部はアルゴリズム処理)。しかし、私はFFTを含む問題を抱えています 私はこの記事のすべての手順(1ページのみ、1430)を実行しましたが、FFTの部分を除いてすべてが完全に機能します。紙には2行しかありませんが、理解できません。 この問題は何ヶ月もの間私を悩ませてきました、どんな助けや洞察も大いに応用されます。 質問の短縮版:画像上の2つの配列の合計平方差(上に1つ、中央に1つ、値は色)をすばやく取得するにはどうすればよいですか?(O(n ^ 2)は莫大なコストであり、この種の演算はたくさんあります(上記の論文による)、これはO(n * log n)でFFTを介して行うことができます(この2つの配列が何らかの形で循環たたみ込みを形成していると言います) )

2
隠れマルコフモデルによるジェスチャー認識
現在、ジェスチャー認識システム(Androidアプリケーション用)に取り組んでいます。手の輪郭を抽出できる画像処理段階が完了したと思います(今のところ、背景の減算を避けるために手袋を着用しています)。 手の楕円/長方形、重心も手の「重要な」形状特徴として取得しています。 私の問題は、隠れマルコフモデルによる画像の分類の前の次の段階が何であるかを示す多くの文献がないことです。この「特徴抽出」の段階は非常にあいまいです。 現在、コンターの角度のリストを取得しています(これは、限られた数の角度を取得するために概算されています) 問題は、私が次に何をすべきかについて無知であることです。「HMMを使用した形状分類」として文献を検索しても、次に何をしたらよいかわかりません。 HMMのツールとして、JaHMMを使用する予定です。しかし、この分類段階への入力が何になるかわからないので、この段階ではツールを試す方法がわかりません! 高速フーリエ記述子、曲率記述子、Bスプラインなど、いくつかの文献で見つけた関数のリストに遭遇しました。しかし、私はこれらの関数を現在のデータ(つまり、角度のリスト、たとえば-63、154、3、23、54など)に適用する方法については無知です。 更新1: 情報をくれてありがとう。@ピーター・K ポーズについて:私は指で綴られたアメリカ手話の単語のセット、例えば「犬」->「d」「o」「g」(3つの状態); しかし、何をするか決めていない瞬間。 私は現在、以下のような、どのような種類の情報を抽出する必要があるかを確認するために、いくつかの論文を読んでいます。 手の重心 動きの角度 特定のポイントから手の輪郭の別のポイントまでの距離(など) 今、私がやりたいことを示しているように見える論文に遭遇しました、私にはわかりません: http://espace.library.uq.edu.au/eserv.php?pid=UQ:10700&dsID=n0273.pdf 私は現在セクション5-ベクトル量子化を読んでいます(この用語を以前聞いたことはありますが、実際にそれが何であるかはわかりません。図5では、複雑なアルゴリズムがあるようです。正しく理解すれば、達成した値のセットを変換します。手(前述)から1桁に変換します。これを観測シーケンスとして使用して、1つの特定の標識のHMMをトレーニングできます。私は正しい道を進んでいると思いますか?(私はAndroid、(NDK)で作業しています) 、JaHMMをHMMツールとして見つけ、OpenCVを画像処理に使用していることを発見しました。 @Peter K.回答ありがとうございます。データ生成については、個人データセットを作成した後、このペーパーの手順に従うことを計画していました(セクション4および5) http://www.i.ci.ritsumei.ac.jp/~shimada/papers/vi02 -tanibata.pdf 更新2:ジェスチャーは{姿勢a、姿勢b、姿勢c}で構成されることを覚えておいてください 私は今、何らかの形の分類アルゴリズムを利用する必要があると考えています。つまり、現在、一連の特徴ベクトルがあります。 姿勢A:[周囲の楕円の角度、高さ:幅の比率] 0.802985 33.909615 0.722824 31.209663 0.734535 30.206722 0.68397 31.838253 0.713706 34.29641 0.688798 30.603661 0.721395 34.880161 姿勢B:[姿勢Aと同じ構造] 0.474164 16.077467 0.483104 14.526289 0.478904 14.800572 0.483134 14.523611 0.480608 …

1
分離可能なフィルターはなぜオペレーターの計算コストを削減するのですか?
画像処理における分離可能なフィルターは、さらに2つの単純なフィルターの積として記述できます。通常、2次元畳み込み演算は2つの1次元フィルターに分離されます。これにより、オペレーターの計算コストが削減されます。 分離可能なフィルターを使用すると、なぜ計算コストが低くなりますか?理解できません。1つではなく2つのフィルタを使用するとパフォーマンスが向上する理由

1
位相相関と正規化相互相関
私はこれをMathematics Stack Exchangeで質問しましたが、この種の質問は通常ここで質問される境界とここで目にする質問の境界にあるため、ここでも質問します。(今のところ、私の質問に対する活動はありません。) 2次元の離散信号解析(具体的には画像処理)で、サイズと 2つの画像間の正規化相互相関で見つけた定義は次のとおりです。M× NM×NM\times N g1(x 、y)g1(x,y)g_1(x, y)g2(x 、y)g2(x,y)g_2(x, y) r1= (g1⋆g2)(x 、y)N O R M 、L iはZ EのD=Σm = 0M− 1Σn = 0N− 1[g1(m 、n )−g1¯¯¯¯¯] [g2(x + m 、y+ n )−g2¯¯¯¯¯]Σm = 0M− 1Σn = 0N− 1[g1(m 、n )−g1¯¯¯¯¯]2[g2(x + m 、y+ n )−g2¯¯¯¯¯]2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√r1=(g1⋆g2)(x,y)Normalized=∑m=0M−1∑n=0N−1[g1(m,n)−g1¯][g2(x+m,y+n)−g2¯]∑m=0M−1∑n=0N−1[g1(m,n)−g1¯]2[g2(x+m,y+n)−g2¯]2r_1 = (g_1 …

2
メインエッジを破壊せずにノイズを取り除く方法は?
私はプロジェクトに取り組んでいます。車からロゴを分割したいのですが、写真のサイズは3648 * 2432です。ロゴは赤い長方形で選択されています。 この領域を抽出して、グレーレベルに変換します。エリアのサイズは249 * 173です。次に、ヒストグラムイコライズを使用してエッジを強調します。最後に、適応型cannyを使用してエッジを見つけます。 ただし、結果は完璧ではありません。そこで、中央のフィルターを使って左の画像を滑らかにしました。結果は以下の通りです。 細かい部分を外します。 結果は改善されましたが、それも良くありません。また、バイラテラルフィルター、ミーンフィルター、ガウシアンフィルターを試してみましたが、あまり良くありません。ヒストグラムイコライズを通過した後、ノイズが強調されることを知っています。しかし、場合によっては、コントラストが低いため、このステップを調整して自分の写真を強調する必要があります。私に別のコメントを提供できる人はいますか?どうもありがとうございました。

1
円形画像のOCRに推奨される前処理方法
こんにちは、これは私のサンプル画像です。このような画像でリアルタイムに文字を検出します。 前処理なしで、元の画像でSURF、SIFT、MSER、およびテンプレートマッチングを試しました。文字を検出することはできますが、画像が変化しても、画像上の文字に多くの関心のあるポイントがないため、この機能検出方法は機能しません。精度を上げるためにどのような前処理を行うべきか、正確にはわかりません。 だから私の質問は、皆さんがより高い精度で文字検出を行うためにどのような方法を提案できるかです。 前もって感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.