タグ付けされた質問 「image-processing」

入力が画像である信号処理の形式。通常、デジタル画像を2次元信号(または多次元)として扱います。この処理には、画像の復元と拡張(特に、パターン認識と投影)が含まれます。

8
顔画像のデータベースで特定の顔を検出する
私は、Twitterユーザーのプロフィール写真を使用した小さなプロジェクトに取り組んでいます。 私が遭遇した問題は、鮮明なポートレート写真である画像を除くすべてを除外した後、Twitterユーザーのごく少数のかなりの割合がジャスティンビーバーの写真をプロフィール画像として使用することです。 それらを除外するために、写真がジャスティンビーバーのものかどうかをプログラムでどのように判断できますか?

4
ディープラーニングで現在の画像平均ではなく、データセットの画像平均を減算して画像を正規化するのはなぜですか?
画像を正規化する方法にはいくつかのバリエーションがありますが、ほとんどは次の2つの方法を使用しているようです。 すべての画像について計算されたチャネルごとの平均値を引きます(例: VGG_ILSVRC_16_layers) すべての画像について計算されたピクセル/チャネルで減算します(例:CNN_S、Caffeの参照ネットワークも参照) 私の考えでは、自然なアプローチで各画像を正規化します。昼光下で撮影された画像は、夜間の画像よりも多くのニューロンを発火させますが、通常、エッジなどに存在するより興味深い特徴に関心がある時間を通知する場合があります。 Pierre Sermanetは3.3.3で、画像ごとのローカルコントラスト正規化を参照していますが、これまでに見た例/チュートリアルではこれに遭遇していません。また、興味深いQuoraの質問とXiu-Shen Weiの投稿を見ましたが、上記の2つのアプローチをサポートしていないようです。 正確に何が欠けていますか?これは色の正規化の問題ですか、それとも多くの人がこのアプローチを使用する理由を実際に説明する論文がありますか?

1
単純なロジスティック回帰モデルは、MNISTで92%の分類精度をどのように実現しますか?
MNISTデータセット内のすべての画像は、同じスケールで中央に配置され、回転せずに表向きになっていますが、それらには大きな手書きのばらつきがあり、線形モデルがこのような高い分類精度をどのように実現するのか困惑しています。 私が視覚化できる限り、手書きの大きな変動を考えると、数字は784次元空間で線形に分離できないはずです。つまり、異なる数字を分離する少し複雑な(それほど複雑ではない)非線形境界があるはずです。 、正のクラスと負のクラスを線形分類器で分離できないというよく引用されたXORXORXOR例に似ています。マルチクラスロジスティック回帰が、完全に線形の特徴(多項式の特徴はない)でどのように高い精度を実現するのか、私には戸惑うようです。 例として、画像内の任意のピクセルが与えられた場合、数字222と333異なる手書きのバリエーションにより、そのピクセルを照らしたり、しなかったりすることができます。したがって、学習された重みのセットを使用して、各ピクセルは数字を222および333ように見せることができます。ピクセル値の組み合わせによってのみ、数字が222か333あるかを判断できます。これは、ほとんどの桁ペアに当てはまります。そのため、ロジスティック回帰は、ピクセル間の依存関係をまったく考慮せずに、盲目的にすべてのピクセル値に依存せずに決定を下し、そのような高い精度を達成できます。 どこか間違っているか、画像のばらつきを過大評価しているだけです。ただし、数字がどのように「ほぼ」直線的に分離できるかについての直感で誰かが私を助けることができれば素晴らしいことです。

2
ZCAホワイトニングとPCAホワイトニングの違いは何ですか?
ZCAホワイトニングと通常のホワイトニング(主成分をPCA固有値の平方根で除算して得られる)について混乱しています。私の知る限りでは、 xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},ここでUU\mathbf UはPCA固有ベクトルです。 ZCAホワイトニングの用途は何ですか?通常のホワイトニングとZCAホワイトニングの違いは何ですか?

2
ImageNet:トップ1およびトップ5エラー率とは何ですか?
ImageNet分類論文では、トップ1とトップ5のエラー率は、いくつかのソリューションの成功を測定するための重要な単位ですが、それらのエラー率はどのくらいですか? 深い畳み込みニューラルネットワークとImageNet分類 Krizhevskyらによる。1つのCNN(7ページ)に基づくすべてのソリューションには、上位5つのエラー率がありませんが、5および7 CNNのソリューションにはあります(また、7 CNNのエラー率は5 CNNよりも優れています)。 これは、トップ1のエラー率が1つのCNNの最高のシングルエラー率であることを意味しますか? トップ5のエラー率は、単に5つのCNNの累積エラー率ですか?

3
オブジェクトの色を決定する最も正確な方法は何ですか?
コンピュータービジョンの標準的な手法(ガウスぼかし、しきい値処理、ハフ変換など)を使用して、静的画像(.jpeg、.pngなど)のコインを検出できるコンピュータープログラムを作成しました。特定の画像からピックアップされたコインの比率を使用して、どのコインがどれであるかを確実に確立できます。ただし、信頼レベルに追加し、(半径比から)タイプAであると推測するコインも正しい色であるかどうかを判断します。問題は、英国のコインなどについてです。(銅、銀、金)、それぞれの色(特に銅から金)は非常に似ています。 RedGreenBlue(RGB)の「色空間」に関して特定のコインの平均色を抽出するルーチンと、この色をHueSaturationBrightness(HSBまたはHSV)の「色空間」に変換するルーチンがあります。 RGBは、3つのコインの色を区別しようとするのにあまり適していません(例については、添付の[基本]画像を参照してください)。次の範囲と、さまざまなコインタイプの色の一般的な値があります。 注:ここでの典型的な値は、実際の画像の「ピクセル単位の」平均を使用して選択された値です。 **Copper RGB/HSB:** typicalRGB = (153, 117, 89)/(26, 0.42, 0.60). **Silver RGB/HSB:** typicalRGB = (174, 176, 180)/(220, 0.03, 0.71). **Gold RGB/HSB:** typicalRGB = (220, 205, 160)/(45, 0.27, 0.86) 最初に、特定の平均コインカラー(RGBを使用)と、RGB値をベクトルとして扱う上記の各コインタイプの典型的な値との間の「ユークリッド距離」を使用しようとしました。銅の場合: Dcopper=(√(Rtype−Rcopper)2+(Gtype−Gcopper)2+(Btype−Bcopper)2)Dcopper=((Rtype−Rcopper)2+(Gtype−Gcopper)2+(Btype−Bcopper)2)D_{copper} = \sqrt((R_{type} - R_{copper})^{2} + (G_{type} - G_{copper})^{2} + (B_{type} - B_{copper})^{2}) ここで、差の最小値()は、特定のコインがどのタイプである可能性が最も高いかを示します。この方法は、非常に不正確であることが示されています。DDD また、コインの色相を上記の典型的な値と比較することも試みました。理論的には、これにより、画像のさまざまな明るさと彩度レベルを処理するためのはるかに優れた「色空間」が提供されますが、これも十分に正確ではありませんでした。 質問:(静止画像から)色に基づいてコインの種類を判断する最良の方法は何ですか? ご清聴ありがとうございました。 編集1 …

6
2つのヒストグラムの類似性を評価する方法は?
2つのヒストグラムがある場合、それらが類似しているかどうかをどのように評価しますか? 2つのヒストグラムを単に見るだけで十分ですか?単純な1対1のマッピングには、ヒストグラムがわずかに異なり、わずかにシフトする場合、目的の結果が得られないという問題があります。 助言がありますか?


6
ニューラルネットワークはどのように画像を認識しますか?
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 7年前に移行され ました。 Neural Networkが画像認識でどのように機能するかを学習しようとしています。私はいくつかの例を見て、さらに混乱しました。20x20画像の文字認識の例では、各ピクセルの値が入力レイヤーになります。だから400ニューロン。次に、ニューロンの隠れ層と26個の出力ニューロン。その後、ネットワークをトレーニングすると、完全ではなく機能します。 ニューラルネットワークについて私を混乱させたのは、画像の中にあるものについて学習する方法です。何らかの方法でネットワークが画像の比較と認識を学習するために、しきい値処理、セグメンテーション、または測定を行う必要はありません。今では魔法のようです。ニューラルネットワークの学習を開始する場所

3
画像形式(png、jpg、gif)は、画像認識ニューラルネットのトレーニング方法に影響しますか?
深い畳み込みニューラルネットでは、画像認識、画像分類などに関して多くの進歩があったことを認識しています。 しかし、たとえばPNG画像でネットをトレーニングすると、そのようにエンコードされた画像でのみ機能しますか?これに影響する他の画像プロパティは何ですか?(アルファチャンネル、インターレース、解像度など?)

4
画像のエントロピー
画像のエントロピーを計算するための最も情報/物理学的に正しい方法は何ですか?私は今、計算効率を気にしません-理論的に可能な限り正確にしたいです。 グレースケール画像から始めましょう。直感的なアプローチの1つは、画像をピクセルのバッグと見なし、を計算することです。 ここで、はグレーレベルの数、はグレーレベル関連する確率です。K p k kH=−∑kpklog2(pk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKKpkpkp_kkkk この定義には2つの問題があります。 1つのバンド(グレースケール)で機能しますが、統計的に正しい方法で複数のバンドに拡張する方法を教えてください。たとえば、2つのバンドの場合、を使用してを基にしてPMFを基にしますか?多くの( >> 2)バンドがある場合、、これは間違っているようです。(X1,X2)(X1,X2)(X_1,X_2)P(X1=x1,X2=x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)BBBP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X1=x1,...,XB=xB)∼1/NB→HMAXP(X_1=x_1, ..., X_B=x_B) \sim 1/N^B \rightarrow H_{MAX} 空間情報は考慮されません。たとえば、以下の画像(John Loomisの管理者)は同じ持っていますが、明らかに同じ情報を伝えていません。HHH 誰もが説明やアドバイスをしたい、または主題に関するまともな参考資料を参照したいですか?私は主に、2番目の問題(空間情報)の理論的に正しいアプローチに興味があります。

4
カイ二乗距離を使用した2つのヒストグラムの比較
顔の2つの画像を比較したい。LBPヒストグラムを計算しました。そこで、これら2つのヒストグラムを比較して、これらのヒストグラムがどれだけ等しいか(0〜100%)を知る必要があります。 このタスクを解決する方法は数多くありますが、LBPメソッドの著者は、ヒストグラムの交差および対数尤度統計よりもカイ二乗距離の方がパフォーマンスが優れていることを強調しています(ローカルバイナリパターンによる顔の説明:顔認識への応用。2004)。 著者は、カイ二乗距離の式も示しています。 ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} ここで、はビンの数、は最初のビンの値、は2番目のビンの値です。x i y innnxixix_iyiyiy_i いくつかの研究(たとえば、二次-チーヒストグラム距離ファミリ)で、カイ-二乗距離の公式は次のようになっています。 12∑i = 1n(x私− y私)2(x私+ y私)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} そして、そこhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm私は、カイ二乗距離の式を参照してください。 ∑i = 1n(x私− y私)2y私∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 私はそれにこだわった。いくつか質問があります。 どの表現を使用すべきですか? 差異の結果をどのように解釈すればよいですか?差が0であるということは、両方のヒストグラムが等しいことを意味しますが、両方のヒストグラムがまったく異なる場合はどうすればわかりますか?カイ二乗テーブルを使用する必要がありますか?または、しきい値を使用する必要がありますか?基本的に、差をパーセントにマッピングしたいです。 これら3つの式が異なる理由

4
画像の解像度に基づいて特徴の数を計算する方法は?
ただ、神経Netowrksのアンドリュー・ウの非線形仮説をカバーし、我々は判断するための複数の選択肢の質問持っていた機能の数を解像度の画像のために100×100のgrescale強度を。 答えは5,000万、 x 10 755510710710^7 ただし、50 x 50ピクセルのグレースケール画像の場合は以前のもの。機能の数は50x50(2500)です なぜそれは次のようになり X 10 7の代わりに、10 、000?55510710710^710 、 00010、00010,000 しかし、彼はすべての二次項()を特徴として含めると言っていますバツ私バツjバツ私バツjx_ix_j 100 x 100ピクセルの画像(RGBではなくグレースケール)から車を認識することを学習しているとします。特徴をピクセル強度値とします。すべての二次項()を特徴として含むロジスティック回帰をトレーニングする場合、いくつの特徴がありますか?バツ私バツjバツ私バツjx_ix_j また、100x100に関する以前のスライドでは、2次フィーチャ( x x j)= 300万フィーチャですが、接続に指を置くことはできません。バツ私バツ私x_iバツjバツjx_j


1
画像内のピクセルを分類するための基本的なマルコフ確率場のトレーニング
マルコフ確率場を使用して画像内の領域を分割する方法を学習しようとしています。MRFのパラメーターの一部、または実行した期待値の最大化がソリューションに収束しないことがある理由を理解できません。 ベイズの定理から始めて、。ここで、yはピクセルのグレースケール値、xはクラスラベルです。私はガウス分布を使用することを選択したP (Y | Xを)しながら、P (xは) MRFを使用してモデル化されます。p (x | y)= p (y| x)p(x) / p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)yyyバツxxp (y| x)p(y|バツ)p(y|x)p (x )p(バツ)p(x) ペアワイズクリークポテンシャルと分類されるピクセルのクラスラベルのポテンシャル値の両方を持つMRFのポテンシャル関数を使用します。単一ピクセルのポテンシャル値は、クラスラベルxに依存する定数です。ペアワイズ電位関数は、4連結近傍について評価し、プラスのリターンさβを隣接この画素と同じクラスラベルを持つ場合- βラベルが異なる場合。αα\alphaバツバツxββ\beta- β−β-\beta 対数尤度の期待値を最大化するおよびβの値を見つけなければならない期待値最大化の時点で、数値最適化手法(試行された共役勾配、BFGS、パウエル法)を使用しましたが、値ことが判明βが負になる、α sが劇的に増加し、反復又は二以降の全体像は、一つのラベルのみ(バックグラウンド:MRFパラメータはICMを使用して行われた所定のクラスラベルを割り当てる)に割り当てられます。アルファを削除した場合、つまりペアワイズクリークポテンシャルのみを使用した場合、期待値の最大化はうまく機能します。α (x )α(バツ)\alpha(x)ββ\betaββ\betaαα\alpha 各クラスのアルファの目的は何ですか?それらは画像に存在するそのクラスの量に関係すると思いましたが、そうではないようです。MRFがペアワイズポテンシャルのみで機能するようになったら、単純なガウス混合モデルと比較して、ほぼ同じ結果が得られることを確認しました。ペアワイズの可能性がクラスを少しスムーズにすることを期待していましたが、それは起こりませんでした。私がどこを間違えたか教えてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.