タグ付けされた質問 「image-recognition」

9
ディープニューラルネットワークが簡単にだまされる可能性はどのようにありますか?
次のページ / 研究は、認識できない画像に対して高い信頼性の予測を与えることにより、ディープニューラルネットワークが簡単にだまされることを示しています。 これはどのように可能ですか?わかりやすい英語で説明していただけますか?

8
CNNでは、各新しいフィルターは各入力チャンネルに対して異なる重みを持っていますか、または各フィルターの同じ重みが入力チャンネル全体で使用されていますか?
私の理解では、畳み込みニューラルネットワークの畳み込み層には、input_channels、filter_height、filter_width、number_of_filtersの4つの次元があります。さらに、各新しいフィルターは、すべてのinput_channels(または前のレイヤーの機能/アクティベーションマップ)で複雑になるだけであると理解しています。 ただし、CS231の次の図は、チャネル全体で使用されている同じフィルターではなく、単一フィルターに適用されている各フィルター(赤)を示しています。これは、各チャンネルに個別のフィルターがあることを示しているようです(この場合、入力画像の3つのカラーチャンネルであると仮定していますが、すべての入力チャンネルに同じことが当てはまります)。 これは紛らわしいです-入力チャンネルごとに異なるユニークなフィルターがありますか? ソース:http : //cs231n.github.io/convolutional-networks/ 上記の画像は、O'reillyの"Fundamentals of Deep Learning"からの抜粋と矛盾しているようです。 「...フィルタは、単一の機能マップで動作するだけではありません。特定のレイヤーで生成された機能マップのボリューム全体で動作します...その結果、機能マップはボリューム上で動作できなければなりません。エリアだけでなく」 ...また、これらの画像は以下を示しているというのが私の理解ですSAMEだけ(CS231グラフィック上記に示しているものと矛盾)すべての3つの入力チャネルを介して畳み込まれるフィルタは:

4
CNNのパターン認識機能は画像処理に限定されていますか?
抽象データをグラフィカルに表現するなど、既存の画像がない問題領域でパターン認識に畳み込みニューラルネットワークを使用できますか?それは常に効率が悪いでしょうか? この開発者によると、現在の開発はさらに進む可能性があるが、画像認識以外の制限がある場合はそうではないという。

3
CNNで大きなサイズの画像を処理する方法は?
CNNで使用するには2400 x 2400のサイズの10Kイメージが必要であると仮定します。ここでの問題は、ダウンサンプリングの特権がない場合に、このような大きな画像サイズをどのように処理するかです。 システム要件は次のとおりです。 Ubuntu 16.04 64ビットRAM 16 GB GPU 8 GB HDD 500 GB 1)トレーニングされるこのような大きな画像を処理する技術はありますか? 2)どのバッチサイズを使用するのが合理的ですか? 3)実行する必要のある予防措置、またはハードウェアリソースの増減はありますか?

4
人工的に作られたメディアを認識するためのいくつかの戦術は何ですか?
偽の写真、偽のサウンドバイト、偽のビデオを安価に作成する能力が高まるにつれて、何が現実で何がそうでないかを認識することで問題が大きくなります。今でも、低コストで偽のメディアを作成するアプリケーションの例が多数あります(Deepfake、FaceAppなどを参照)。 明らかに、これらのアプリケーションが間違った方法で使用されると、他の人のイメージを傷つけるために使用される可能性があります。Deepfakeを使用すると、相手を不誠実に見せることができます。別のアプリケーションを使用して、政治家が物議をかもす何かを言ったように見せることができます。 人工的に作成されたメディアを認識して保護するために使用できるテクニックにはどのようなものがありますか?

3
人間ではなくAIをだますことができるテキストのCAPTCHAチャレンジはありますか?
テキストの CAPTCHA を生成する現代的な手法はありますか(人は正しいテキストを入力する必要があります)、いくつかの視覚的な難読化方法でAIを簡単にだますことができますが、人間は苦労せずにそれらを解決できますか? たとえば、画像に埋め込まれたテキストを(フラッシュやJava、画像分類などの外部プラグインを考慮せずに)認識し、書き込まれたテキストまたは同様のものを再入力する単純な機能について話している。 ノイズを追加したり、グラデーションを付けたり、文字を回転したり、色を変更したりすることは、すぐに壊れてしまう可能性があるため、信頼できる方法ではなくなったと思います。 提案や調査は行われましたか?

1
DNNの実際の使用におけるホワイトノイズの問題はどのくらいですか?
私は、ディープニューラルネットワークが比較的簡単にだまされ(リンク)、信頼性の対象から完全に(または少なくとも大部分)除外されている合成/人工画像の認識に高い信頼を与えることができることを読みました。 個人的には、合成/人工画像に高い信頼性を与えるDNNの大きな問題は実際にはないと思いますが、これはカメラが見る可能性がある本当に自然な現象であるため、ホワイトノイズ(リンク)に高い信頼性を与えることは問題になると思います現実世界では。 DNNの実際の使用におけるホワイトノイズの問題はどのくらいですか?プレーンノイズからこのような誤検知を検出できますか?

1
1つのニューラルネットワークで2種類のオブジェクトの認識を処理できますか、それとも2つの小さなネットワークに分割する必要がありますか?
特に、(限られたリソースを持つ)組み込みコンピュータは、交通カメラからのライブビデオストリームを分析し、通過する車のナンバープレート番号を含む適切なフレームを選択しようとします。プレートが見つかると、フレームがOCRライブラリに渡され、登録が抽出されてさらに使用されます。 私の国では、2種類のナンバープレートが一般的に使用されています。長方形(標準)と正方形です。実際には、長方形であるが「幅よりも高い」ので、登録が2行に分かれています。 (さらにいくつかのタイプがありますが、それらは無視してください。それらは小さな割合であり、通常、私たちの関心の外にある車両に属しています。) 限られたリソースと迅速なリアルタイム処理の必要性により、システムが処理できるネットワークの最大サイズ(セルと接続の数)は固定されています。 これを2つの小さなネットワークに分割し、それぞれが1種類の登録プレートを認識するようにするのが良いでしょうか。それとも、より大きな単一のネットワークが2つのタイプをより適切に処理するのでしょうか。

3
画像の視覚的注意領域を検出する
特定の画像の視覚的な注意領域を検出し、その領域に画像をトリミングしようとしています。たとえば、任意のサイズの画像と、たとえばLxW寸法の長方形を入力として、最も重要な視覚的注意領域に画像をトリミングします。そのための最先端のアプローチを探しています。 それを実装するためのツールやSDKはありますか?コードまたはアルゴリズムのどの部分も本当に役立ちます。

2
機械学習アルゴリズム(CNN?)を使用/トレーニングして、画像間の細部の小さな違いを区別できますか?
機械学習アルゴリズム(CNN?)を使用/トレーニングして、画像間の細部の小さな違い(赤や他の色の色合いのわずかな違い、または他の非常に類似した画像間の小さなオブジェクトの存在など)を区別できるかどうか疑問に思っていましたか? )?そして、これらの違いに基づいて画像を分類しますか?これが現在の機械学習アルゴリズムで困難な作業である場合、どのように解決できますか?より多くのデータ(より多くの画像)を使用すると役立ちますか? また、可能であれば、これに焦点を当てた研究への言及を提供していただければ幸いです。 私は機械学習を始めたばかりで、これは私の研究から疑問に思っていることです。 ありがとうございました。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.