タグ付けされた質問 「computer-vision」

5
オブジェクト検出、セマンティックセグメンテーション、およびローカリゼーションの違いは何ですか?
私は非常に多くの出版物でそれらの言葉を読みましたが、オブジェクト検出とセマンティックセグメンテーションとローカリゼーションの違いを明確にする用語のいくつかの素晴らしい定義が欲しいです。定義のソースを提供できると便利です。


1
Google DeepDreamの詳細
このサイトでDeep Dreamに関するいくつかの質問を見てきましたが、DeepDreamが具体的に何をしているのかについて実際に話しているようには見えません。私が集めた限りでは、それらは目的関数を変更し、重み付けを更新する代わりに入力画像を更新するように逆伝播も変更したようです。 誰かがグーグルがしたことを正確に知っているのだろうかと思います。彼らは、最適化を実行するときにベイズの事前分布を課す彼らの記事の1つで言及しています。これにより、ニューラルネットが各ラベルの画像を吐き出すのはそれほど難しくないことを想像できます。ラベルを設定して、それに応じて入力ベクトルを最適化します。 ただし、ディープドリームの興味深い部分は、これをレイヤーごとに実行することです。この点で、レイヤーごとの方法で詳細を強調する方法がよくわかりません。 確かに、画像を入力すると各ニューロンの値が得られますが、その情報を使用して元の画像の詳細を誇張するにはどうすればよいでしょうか。これに関する詳細な報告を見つけるのに苦労しました。 参考資料:ここでvznが同様の質問に回答しました:https ://cs.stackexchange.com/a/44857/49671 そのリンクから、ここにDeepdreamの実装があります:http ://auduno.com/post/125362849838/visualizing-googlenet-classes ここで説明されているように、機能の誇張はありませんが、http://googleresearch.blogspot.com/2015/06/inceptionism-going-deeper-into-neural.html どちらも特定のクラスと特定のレイヤーの視覚化を示し、次のように言います。 ネットワークで増幅する機能を正確に規定する代わりに、ネットワークにその決定を任せることもできます。この場合、ネットワークに任意の画像または写真を送り、ネットワークに画像を分析させるだけです。次に、レイヤーを選択し、検出されたものを強化するようネットワークに要求します。

1
微分からのソーベル方程式の導出
多くのサイトでは、画像を平滑化するための畳み込みマスクとしてSobelオペレーターを提供しています。ただし、部分的な1次導関数から演算子を導出する方法を説明するサイトは1つも見つかりませんでした。誰かが派生を説明できれば、私はそれを高く評価します。

3
画像処理における畳み込みの直感
私は画像処理における畳み込みに関する多くの文書を読みました、そしてそれらのほとんどはその公式、いくつかの追加のパラメーターについて述べています。画像の畳み込みを行うことの背後にある直感と本当の意味を説明する人はいません。たとえば、グラフ上の導出の直感は、たとえば、それをより線形にします。 定義の簡単な要約は次のとおりだと思います。たたみ込みは、画像とカーネルの間の乗算された重複四角形であり、その合計が再びアンカーに入れられます。そして、これは私には何の意味もありません。 よると、コンボリューションについては、この記事の畳み込みは、いくつかの「信じられない」ことを行うことができますなぜ私が想像することはできません。たとえば、このリンクの最後のページでのラインとエッジの検出。適切なコンボリューションカーネルを選択するだけで、素晴らしい効果が得られます(ラインの検出またはエッジの検出)。 それをどのように行うことができるかについて、誰かが何らかの直感を提供できますか(きちんとした証拠である必要はありません)。

1
コンピュータービジョン:単一座標のラベルを使用したオブジェクト検出
以下のオブジェクト検出タスクを扱った論文は文献にありますか? タスクは次のように説明できます。 画像のセットが与えられた場合、ラベルは、検出したいオブジェクトの場所を表す単なる座標(x、y)です。座標はオブジェクトの中心にある必要はなく、オブジェクトのサイズは任意です。 タスクは、人、ボート、車のいずれかであるオブジェクトを検出することです。ただし、ラベルはオブジェクトのカテゴリを示しておらず、ラベルは対象のオブジェクトに近い座標にすぎません。 画像は1時間ごとに取得され、同じシーンのスナップショットです。したがって、バックグラウンド減算技術が役立つ場合があります。 同じシーンの約2000枚の画像があり、各画像には通常2つの対象オブジェクトがあります。 以前にそのような仕事に取り組んだことがあるのだろうか? Hog機能とSVMは、画像内の人間の検出に大きな成功を収めています。ただし、関連する文献では、関心のあるオブジェクトが単一の座標ではなく境界ボックスを使用してラベル付けされているトレーニングデータを使用しています。 主な3つの課題は次のとおりです。 オブジェクトのサイズは任意であるため、分類子の境界ボックスを選択することは困難です。 シーンのスナップショットは1時間ごとに取得されます(カメラもわずかに動く可能性があります)。そのため、バックグラウンド減算の使用は簡単ではありません。 ラベル付けされたデータはあまりありません。 人々がこれらの課題にどのように対処したかを見るのは興味深いでしょう。 ありがとう!


1
コンピュータビジョン/機械学習における「機能」と「記述子」の違いは何ですか?
私はに類似した複数の時間の文章を読んだことがあります 最後に、標準的な画像分類では、SIFT記述子に基づく単語の特徴が、高性能にとって重要であることが判明しています。最初に、画像全体の標準グリッドポイントで標準SIFTディスクリプターを計算します。 出典:「条件付きランダムフィールドとグローバル分類を使用したマルチクラス画像セグメンテーション」、Nils Plath、Marc Toussaint、中島真一 記述子とは何ですか?SIFTは、画像を操作して機能を提供するアルゴリズムだと思いました(ベクトル。ここで、は、固定サイズの画像とSIFTアルゴリズムのパラメーターに対して固定されています)?RんRn\mathbb{R}^nんnn

2
自動読み上げ:話しているビデオに基づいて、誰かが言っていることを推測する
一部の人間は、かなり上手に口読みをすることができます。話している誰かを見ると、話者が言っていることを(スピーチを聞いていなくても)知ることができます。 読唇用のコンピュータソフトウェアを作成する作業はありましたか?言い換えると、誰かが話しているビデオが与えられた場合、その人が言っていることを推測するソフトウェアを構築することは可能ですか(オーディオなしでビデオストリームにのみアクセスできます)?この問題、または展開されたシステムについての調査はありましたか? 背景と動機:米国では、特定の法律が同意なしに音声を録音することを禁止している場合があります。ただし、一般に、録画する人の同意なしにビデオを録画することは禁止されていません。(だからこそ、あちこちに監視カメラがあり、ビデオだけを記録し、音声は記録しないのです。)ビデオだけで、自動化された方法で人々が言っ​​ていることを伝えることができるかもしれないほどテクノロジーが進歩したのかどうか知りたいです。 -またはそれが近い将来実現可能になるかどうか。そして、プライバシーへの影響は別として、そのようなテクノロジーはかなり役立つかもしれません。

3
画像のシャノンのエントロピー
画像のシャノンのエントロピー[plog(1 / p)]は、2つのピクセルまたはピクセルのグループを比較するための確率論的方法です。3x3のマトリックスを持つ画像にピクセル強度値があるとします。 1 1 2 2 3 3 4 4 5 3x3マトリックスの別の画像には、強度値を持つピクセルのグループがあります。 5 5 6 6 7 7 8 8 9 その場合、画像のシャノンのエントロピーは同じになります。この場合、エントロピー値は、実際には画像が異なるものの同じであることを示します。したがって、この手法を使用した画像マッチングは役に立ちません。監視された分類に基づくと、私はシャノンのエントロピーの訓練されたデータベースに基づいて画像を分類します、私たちはエントロピーの概念を使用して2つの画像間の類似性を見つけます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.