タグ付けされた質問 「convolutional-neural-networks」

CNNまたはConvNetとも呼ばれる、畳み込みニューラルネットワークに関する質問。

8
科学者は、人工ニューラルネットワークの内部で何が起こっているかを知っていますか?
科学者や研究の専門家は、少なくとも数百万の接続が瞬時に発火する複雑な「ディープ」ニューラルネットワークの内部で何が起こっているかを台所から知っていますか?彼らはこの背後にあるプロセスを理解していますか(例えば、内部で何が起こっているのか、どのように正確に機能するのか)、それとも議論の対象ですか? たとえば、この調査では次のように述べています。 ただし、それらがなぜそれほどうまく機能するのか、またはどのように改善されるのかについての明確な理解はありません。 それで、これは科学者が実際に複雑な畳み込みネットワークモデルがどのように機能するかを知らないことを意味するのでしょうか?

9
ディープニューラルネットワークが簡単にだまされる可能性はどのようにありますか?
次のページ / 研究は、認識できない画像に対して高い信頼性の予測を与えることにより、ディープニューラルネットワークが簡単にだまされることを示しています。 これはどのように可能ですか?わかりやすい英語で説明していただけますか?

3
ニューラルネットワークはさまざまな入力サイズをどのように処理できますか?
私が知る限り、ニューラルネットワークの入力層には一定数のニューロンがあります。 ニューラルネットワークがNLPのようなコンテキストで使用される場合、さまざまなサイズの文章またはテキストブロックがネットワークに供給されます。さまざまな入力サイズは、ネットワークの入力層の固定サイズとどのように調整されますか?言い換えれば、このようなネットワークは、1単語から複数ページのテキストまでの入力を処理するのに十分な柔軟性を備えているのでしょうか? 入力ニューロンの固定数の仮定が間違っていて、新しい入力ニューロンがネットワークに追加/削除されて入力サイズに一致する場合、これらをどのようにトレーニングできるのかわかりません。 NLPの例を挙げますが、多くの問題には本質的に予測不可能な入力サイズがあります。これに対処するための一般的なアプローチに興味があります。 画像の場合、固定サイズにアップ/ダウンサンプリングできることは明らかですが、テキストの場合、テキストを追加/削除すると元の入力の意味が変わるため、これは不可能なアプローチのようです。

8
CNNでは、各新しいフィルターは各入力チャンネルに対して異なる重みを持っていますか、または各フィルターの同じ重みが入力チャンネル全体で使用されていますか?
私の理解では、畳み込みニューラルネットワークの畳み込み層には、input_channels、filter_height、filter_width、number_of_filtersの4つの次元があります。さらに、各新しいフィルターは、すべてのinput_channels(または前のレイヤーの機能/アクティベーションマップ)で複雑になるだけであると理解しています。 ただし、CS231の次の図は、チャネル全体で使用されている同じフィルターではなく、単一フィルターに適用されている各フィルター(赤)を示しています。これは、各チャンネルに個別のフィルターがあることを示しているようです(この場合、入力画像の3つのカラーチャンネルであると仮定していますが、すべての入力チャンネルに同じことが当てはまります)。 これは紛らわしいです-入力チャンネルごとに異なるユニークなフィルターがありますか? ソース:http : //cs231n.github.io/convolutional-networks/ 上記の画像は、O'reillyの"Fundamentals of Deep Learning"からの抜粋と矛盾しているようです。 「...フィルタは、単一の機能マップで動作するだけではありません。特定のレイヤーで生成された機能マップのボリューム全体で動作します...その結果、機能マップはボリューム上で動作できなければなりません。エリアだけでなく」 ...また、これらの画像は以下を示しているというのが私の理解ですSAMEだけ(CS231グラフィック上記に示しているものと矛盾)すべての3つの入力チャネルを介して畳み込まれるフィルタは:

4
CNNのパターン認識機能は画像処理に限定されていますか?
抽象データをグラフィカルに表現するなど、既存の画像がない問題領域でパターン認識に畳み込みニューラルネットワークを使用できますか?それは常に効率が悪いでしょうか? この開発者によると、現在の開発はさらに進む可能性があるが、画像認識以外の制限がある場合はそうではないという。

3
畳み込みニューラルネットワークと通常のニューラルネットワークの違いは何ですか?
特にconvolutional-neural-networksおよびneuro-networksのタグで、これらの用語がこのサイトに頻繁に投げられているのを見てきました。 ニューラルネットワークは、人間の脳に大まかに基づいたシステムであることを知っています。しかし、畳み込みニューラルネットワークと通常のニューラルネットワークの違いは何ですか?1つのちょうどたくさんより、エヘン、複雑とされて畳み込まれ、他のよりも?

3
CNNで大きなサイズの画像を処理する方法は?
CNNで使用するには2400 x 2400のサイズの10Kイメージが必要であると仮定します。ここでの問題は、ダウンサンプリングの特権がない場合に、このような大きな画像サイズをどのように処理するかです。 システム要件は次のとおりです。 Ubuntu 16.04 64ビットRAM 16 GB GPU 8 GB HDD 500 GB 1)トレーニングされるこのような大きな画像を処理する技術はありますか? 2)どのバッチサイズを使用するのが合理的ですか? 3)実行する必要のある予防措置、またはハードウェアリソースの増減はありますか?

3
機械学習で大部分が探索されていないトポロジはどれですか?[閉まっている]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5日前休業。 ジオメトリとAI マトリックス、キューブ、レイヤー、スタック、および階層は、トポロジーと正確に呼ぶことができるものです。この文脈でトポロジーを検討してください。学習システムのより高いレベルの幾何学的設計です。 複雑さが増すにつれ、これらのトポロジーを有向グラフ構造として表すと便利な場合があります。状態図とマルコフのゲーム理論に関する研究は、有向グラフが一般的に使用される2つの場所です。有向グラフには、頂点(多くの場合、閉じた図形として視覚化される)と、図形を結ぶ矢印として視覚化されるエッジがあります。 また、GANを有向グラフとして表すこともできます。この場合、各ネットの出力は、反対の方法で他のトレーニングを駆動します。GANはトポロジー的にメビウスの帯に似ています。 最適なソリューションに収束したり、最適なソリューションを追跡したりする数学だけでなく、そのような収束をサポートできるネットワーク接続のトポロジーも理解せずに、新しい設計とアーキテクチャを発見することはできません。オペレーティングシステムを作成する前に、オペレーティングシステムが何を必要とするかを想像しながら、最初にプロセッサを開発するようなものです。 まだ検討していないトポロジーを垣間見るために、最初にどのトポロジーが検討されたかを見てみましょう。 ステップ1 — 2次元での押し出し 1980年代には、元のパーセプトロンの設計を拡張して成功を収めました。研究者たちは、多層ニューラルネットワークを作成するために2番目の次元を追加しました。合理的な収束は、学習率によって減衰され、他のメタパラメーターで減衰された活性化関数の勾配による誤差関数の勾配の逆伝播によって達成されました。 ステップ2 —離散入力信号への次元の追加 既存の手動で調整された画像のたたみ込み手法に基づくたたみ込みネットワークの出現が、ネットワーク入力に垂直方向、色成分、およびフレームに導入されたことがわかります。この最後の次元は、CGI、顔の置換、および現代の映画制作におけるその他の形態学的手法にとって重要です。それがなければ、画像の生成、分類、ノイズ除去ができます。 ステップ3-ネットワークのスタック ニューラルネットのスタックが出現するのは1990年代後半であり、1つのネットワークのトレーニングが別のネットワークによって監視されています。これは、ニューロンの連続した層という意味でも、画像内の色の層という意味でもない、概念的な層の導入です。このタイプの階層化も再帰ではありません。それは、ある構造が別の完全に異なる種類の構造内の器官である自然界に似ています。 ステップ4 —ネットワークの階層 2000年代から2010年代初頭にかけての研究(ラプラシアンなど)からニューラルネットの階層が頻繁に出現することがわかります。トポロジーを表す有向グラフで、ネットワーク全体が頂点になるメタ構造が表示されます。 ステップ5%mdash; デカルトオリエンテーションからの出発 非カルテシアの体系的に繰り返される細胞の配置とそれらの間のつながりが文献に登場し始めています。たとえば、Gauge Equivariant Convolutional Networksと 20面体CNN(Taco S. Cohen、Maurice Weiler、Berkay Kicanaoglu、Max Welling、2019)は、凸正二十面体に基づく配置の使用を検討しています。 まとめ レイヤーには、隣接するレイヤー間の有向エッジの完全なセットにマッピングされた頂点と減衰行列の通常重要なアクティベーション関数があります[1]。画像のたたみ込みレイヤーは、多くの場合、2次元の頂点配置にあり、減衰キューブは隣接するレイヤー間の有向エッジの要約されたセットにマッピングされます[2]。スタックには、メタ有向グラフの頂点として層状ネット全体があり、それらのメタ頂点はシーケンスで接続されており、各エッジはトレーニングメタパラメーター、強化(リアルタイムフィードバック)信号、またはその他の学習制御のいずれかです。 。ネットの階層は、複数のコントロールを集約してより低いレベルの学習を指示できるという概念、または1つのより高いレベルのスーパーバイザネットワークによって複数の学習要素を制御できるフリップケースを反映しています。 学習トポロジーの傾向の分析 機械学習アーキテクチャの傾向を分析できます。トポロジーには3つの傾向があります。 因果関係の次元の深さ—信号処理のレイヤー。アクティベーションの1つのレイヤーの出力は、減衰パラメーター(重み)のマトリックスを通じて次のレイヤーの入力に供給されます。より大きな制御が確立されると、後方伝播における基本的な勾配降下から始めて、より深い深度を達成できます。 入力信号の次元—スカラー入力からハイパーキューブ(ビデオには水平、垂直、透明度を含む色深度、フレームがあります)—これはパーセプトロンの意味での入力数と同じではないことに注意してください。 トポロジーの発達—上記の2つは本質的にデカルトです。寸法は既存の寸法に直角に追加されます。ネットワークは(ラプラシアン階層のように)階層に配線され、メビウスストリップは(GANのように)円のようにストリップされるため、傾向は地形的であり、頂点がニューロンではなく、それらのより小さなネットワークである有向グラフによって最もよく表されます。 不足しているトポロジは何ですか? このセクションでは、タイトルの質問の意味について詳しく説明します。 それぞれがニューラルネットを表す複数のメタ頂点を配置して、複数のスーパーバイザーメタ頂点が連携して複数の従業員のメタ頂点を監視できる理由はありますか? エラー信号の逆伝播が、負のフィードバックの唯一の非線形等価物であるのはなぜですか? コントロールを表す2つの相互エッジがある場合、監視ではなくメタ頂点間のコラボレーションを使用できませんか? ニューラルネットは主に非線形現象の学習に使用されるので、ネットまたはそれらの相互接続の設計で他のタイプの閉じたパスを禁止するのはなぜですか? ビデオクリップを自動的に分類できるように、画像にサウンドを追加できない理由はありますか?その場合、脚本は映画の可能な特徴抽出であり、敵対的なアーキテクチャを使用して映画スタジオシステムなしで脚本を生成し、映画を制作できますか?そのトポロジーは有向グラフとしてどのように見えますか? 直交配置されたセルは、非直交の頂点とエッジの任意の規則的なパッキング配置をシミュレートできますが、プラスまたはマイナス90度以外のカメラの傾きが一般的であるコンピュータービジョンでこれを行うのは効率的ですか? 自然言語の理解と組み立て、または人工認識を目的とした学習システムで、ネットワーク内の個々のセルまたはAIシステム内のセルのネットワークを直交して配置することは効率的ですか? ...

6
異なる次元の入力画像を含む畳み込みニューラルネットワーク-画像のセグメンテーション
セグメンテーションタスクの入力として異なる次元の画像を使用するという問題に直面しています。画像のアスペクト比は同じではないことに注意してください。 ここでも提案されているように、一般的にディープラーニングで見つけた1つの一般的なアプローチは、画像をトリミングすることです。しかし、私の場合、セグメンテーションでは出力を入力と同じ次元にする必要があるため、画像をトリミングしてその中心または類似のものを維持することはできません。 このペーパーでは、セグメンテーションタスクで、同じ画像をネットワークに複数回フィードできますが、スケールは異なり、結果を集約できることを示しています。このアプローチを正しく理解した場合、すべての入力画像のアスペクト比が同じである場合にのみ機能します。私が間違っていたら訂正してください。 別の代替案は、各画像のサイズを固定サイズに変更することです。これもこの質問への回答で提案されたと思います。ただし、画像のサイズ変更方法は指定されていません。 情報の損失を避けるために、データセットの最大の幅と高さを取り、すべての画像をその固定サイズにサイズ変更することを検討しました。ただし、画像のエッジがはっきりしない場合があるため、画像が歪んでいる場合、ネットワークに問題が発生する可能性があると思います。ネットワークに送る前に画像のサイズを変更する最良の方法は何ですか? 異なる次元の画像を使用する問題を解決するために、私が知らない他のオプションはありますか? また、計算の複雑さだけでなく、ネットワークによってパフォーマンスが低下する可能性を考慮に入れて、これらのアプローチのどれが最善であると思いますか? 私の質問への回答に、もしあればソースへのリンクが含まれていれば幸いです。ありがとうございました。

2
ボトルネック機能とは何ですか?
非常に少ないデータを使用した強力な画像分類モデルの構築に関するブログ投稿では、ボトルネック機能について言及されています。ボトルネック機能とは何ですか?使用するアーキテクチャによって変わりますか?それらは、完全に接続されたレイヤーの前の畳み込みレイヤーの最終出力ですか?なぜそう呼ばれるのですか?

2
CNNトレーニングでより多くの時間を消費するレイヤーはどれですか?コンボリューションレイヤーとFCレイヤー
畳み込みニューラルネットワークでは、どのレイヤーがトレーニングで最大の時間を消費しますか?畳み込みレイヤーまたは完全に接続されたレイヤー?これを理解するには、AlexNetアーキテクチャを使用できます。研修過程の時間分解を見てみたい。相対的な時間の比較が欲しいので、一定のGPU構成をとることができます。

3
ニューラルネットワークを使用して行列のパターンを認識する
CADモデルの設計機能(スロット、ボス、穴、ポケット、ステップ)を識別できるニューラルネットワークを開発しようとしています。 ネットワークに使用する入力データは、axnマトリックスです(nはCADモデルの面の数です)。マトリックスの右上の三角形の「1」は、2つの面の間の凸関係を表し、左下の三角形の「1」は、凹関係を表します。両方の位置のゼロは、面が隣接していないことを意味します。以下の画像は、そのようなマトリックスの例を示しています。 ネットワークへの入力を一定のサイズにするために、最大モデルサイズを20面に設定し、それよりも小さいものにパディングを適用するとします。 5つの異なる設計機能を認識できるようにしたいので、5つの出力ニューロンを持ちます-[スロット、ポケット、穴、ボス、ステップ] これが一種の「パターン認識」問題になると言ってもいいでしょうか?たとえば、ネットワークに、モデルに存在する設計機能を説明するラベルとともにいくつかのトレーニングモデルを提供すると、ネットワークは、特定の設計機能に関連するマトリックスで表される特定の隣接パターンを認識することを学習しますか? 私は機械学習の完全な初心者であり、このアプローチが機能するかどうかを把握しようとしています。問題を理解するためにさらに情報が必要な場合は、コメントを残してください。どんな入力やヘルプもありがとうございます。


2
ロゴ検出にAIまたはニューラルネットワークを使用する
私はビデオファイル内のTVチャネルのロゴを検出しようとしています。そのため、単純に入力.mp4ビデオを与え、そのロゴが特定のフレーム、たとえば最初のフレームにあるかどうかを検出します。 事前にそのロゴがあり(%100と同じサイズではない場合があります)、場所は常に固定されています。 私はすでにパターンマッチングベースのアプローチを採用しています。ただし、そのためには、パターンを同じサイズの100%にする必要があります。それを実現するために、ディープラーニングとニューラルネットワークを使用したいと思います。どうやってやるの?CNNの方が効率が高いと思いますか?

1
DNNの実際の使用におけるホワイトノイズの問題はどのくらいですか?
私は、ディープニューラルネットワークが比較的簡単にだまされ(リンク)、信頼性の対象から完全に(または少なくとも大部分)除外されている合成/人工画像の認識に高い信頼を与えることができることを読みました。 個人的には、合成/人工画像に高い信頼性を与えるDNNの大きな問題は実際にはないと思いますが、これはカメラが見る可能性がある本当に自然な現象であるため、ホワイトノイズ(リンク)に高い信頼性を与えることは問題になると思います現実世界では。 DNNの実際の使用におけるホワイトノイズの問題はどのくらいですか?プレーンノイズからこのような誤検知を検出できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.