タグ付けされた質問 「conv-neural-network」

畳み込みニューラルネットワークは、ニューラルネットワークの一種であり、レイヤー間の可能な接続のサブセットのみが存在して、重複領域を作成します。それらは一般的に視覚的なタスクに使用されます。

4
畳み込みニューラルネットワーク、制限付きボルツマンマシン、および自動エンコーダーの違いは何ですか?
最近、私はディープラーニングについて読んでいますが、用語(またはテクノロジー)について混乱しています。違いは何ですか 畳み込みニューラルネットワーク(CNN)、 制限付きボルツマンマシン(RBM)および 自動エンコーダー?

6
ニューラルネットワークでの1x1畳み込みの意味
現在、Udacity Deep Learning Tutorialを行っています。レッスン3では、1x1畳み込みについて説明します。この1x1コンボリューションは、Google Inception Moduleで使用されます。1x1コンボリューションとは何かを理解できません。 Yann Lecunによるこの投稿も見ました。 誰かが親切にこれを私に説明できますか?

4
なぜニューラルネットワークは深くなりつつあるが、広くはならないのか?
近年、畳み込みニューラルネットワーク(または一般的にはディープニューラルネットワーク)はますます深くなり、最先端のネットワークは4層で7層(AlexNet)から1000層(残余ネット)になります年。より深いネットワークからのパフォーマンスの向上の背後にある理由は、より複雑な非線形関数を学習できるからです。十分なトレーニングデータがある場合、これにより、ネットワークは異なるクラスをより簡単に区別できます。 ただし、この傾向は各レイヤーのパラメーターの数では続かないようです。たとえば、畳み込みレイヤーのフィーチャマップの数、または完全に接続されたレイヤーのノードの数は、レイヤー数が大幅に増加したにもかかわらず、ほぼ同じままで、規模は比較的小さいままです。しかし、私の直感からは、レイヤーごとのパラメーターの数を増やすと、各レイヤーに非線形関数を学習するための豊富なデータソースが与えられるように思えます。しかし、この考え方は、それぞれが少数のパラメーターを持つレイヤーを追加するだけで、見過ごされていたようです。 したがって、ネットワークは「より深く」なっていますが、「より広く」はなりません。どうしてこれなの?


2
畳み込みニューラルネットワークがサポートベクターマシンを使用して分類しないのはなぜですか?
近年、畳み込みニューラルネットワーク(CNN)は、コンピュータービジョンにおけるオブジェクト認識の最先端技術になりました。通常、CNNは複数の畳み込み層で構成され、その後に2つの完全に接続された層が続きます。この背後にある直感は、畳み込み層が入力データのより良い表現を学習し、完全に接続された層がラベルのセットに基づいてこの表現を分類することを学習することです。 ただし、CNNが支配を開始する前は、サポートベクターマシン(SVM)が最先端でした。そのため、SVMは2層の完全に接続されたニューラルネットワークよりも依然として強力な分類器であると言えます。したがって、なぜ最新のCNNがSVMではなく完全に接続されたレイヤーを分類に使用する傾向があるのか​​疑問に思っていますか?このように、強力な特徴表現ではなく、強力な特徴表現と弱い分類子のみの両方の長所があります。 何か案は?

4
他の機能マップを作成するために、機能マップにカーネルをどのように適用しますか?
畳み込みニューラルネットワークの畳み込み部分を理解しようとしています。次の図を見てください。 4つの異なるマップ(サイズ)がある最初の畳み込み層を理解するのに問題はありません。これは、入力画像と畳み込んで4つの特徴マップを取得します。k×kk×kk \times k 私が理解できないのは、次の畳み込み層で、4つのフィーチャマップから6つのフィーチャマップに移動します。このレイヤーに6つのカーネルがあると想定しています(その結果、6つの出力機能マップが提供されます)が、これらのカーネルはC1に示されている4つの機能マップでどのように機能しますか?カーネルは3次元ですか、それとも2次元であり、4つの入力フィーチャマップにわたって複製されていますか?

6
CNNでのローカル応答の正規化の重要性
Imagenetやその他の大規模なCNNは、ローカル応答の正規化レイヤーを利用していることがわかりました。しかし、私はそれらに関する多くの情報を見つけることができません。それらはどのくらい重要で、いつ使用する必要がありますか? http://caffe.berkeleyvision.org/tutorial/layers.html#data-layersから: 「ローカル応答正規化レイヤーは、ローカル入力領域を正規化することにより、一種の「横方向抑制」を実行します。ACROSS_CHANNELSモードでは、ローカル領域は近くのチャネルに広がりますが、空間範囲はありません(つまり、local_size x 1 x 1の形状を持ちます) WITHIN_CHANNELモードでは、ローカル領域は空間的に拡張されますが、別々のチャネルにあります(つまり、形状は1 x local_size x local_sizeの形状です)。各入力値は(1+(α/ n)∑ix2i)βで除算されます。は各ローカル領域のサイズであり、合計はその値を中心とする領域で取得されます(必要に応じてゼロパディングが追加されます)。 編集: これらの種類のレイヤーの影響は最小限で、使用されなくなったようです。基本的に、それらの役割は、他の正則化技術(ドロップアウトやバッチ正規化など)、より良い初期化、およびトレーニング方法によって実現されています。詳細については、以下の回答を参照してください。

4
コンピュータビジョンと畳み込みニューラルネットワークにおける翻訳不変性とは何ですか?
コンピュータビジョンの背景はありませんが、画像処理や畳み込みニューラルネットワークに関連する記事や論文を読んでいるとき、私は絶えず用語translation invariance、またはに直面していtranslation invariantます。 または、畳み込み演算が提供する多くのことを読みますtranslation invariance?!! これは何を意味するのでしょうか? どんな形の画像を変更しても、画像の実際の概念は変わらないという意味で、私自身は常に自分自身に翻訳しました。 たとえば、レッツ・セイのツリーの画像を回転させると、その写真に対して何をしても、それは再びツリーになります。 そして、私自身は、画像に起こりうるすべての操作を考えて、ある方法で変換(トリミング、サイズ変更、グレースケール、色付けなど)をこのようにすることを考えています。これが本当かどうか分からないので、誰かがこれを説明できればありがたいです。


3
プールレイヤーはドロップアウトレイヤーの前または後に追加されますか?
畳み込みニューラルネットワーク(CNN)を作成しています。畳み込みレイヤーの後にプールレイヤーがあり、ドロップアウトを適用してオーバーフィットを減らします。プールレイヤーの後にドロップアウトレイヤーを適用する必要があると感じていますが、実際にそれをバックアップするものはありません。ドロップアウトレイヤーを追加する適切な場所はどこですか?プール層の前または後?


2
畳み込みニューラルネットワークの「機能マップ」(別名「活性化マップ」)の定義は何ですか?
イントロの背景 たたみ込みニューラルネットワーク内では、通常、次のような一般的な構造/フローがあります。 入力画像(つまり、2Dベクトルx) (最初の畳み込み層(Conv1)はここから始まります...) w12D画像に沿ってフィルターのセット()を畳み込みます(つまり、z1 = w1*x + b1内積の乗算を行います)。ここz1で3D b1はバイアスです。 アクティベーション関数(ReLuなど)を適用して、z1非線形(egなどa1 = ReLu(z1))を作成しa1ます。ここで3Dです。 (2番目の畳み込み層(Conv2)はここから始まります...) 新しく計算されたアクティベーションに沿って一連のフィルターを畳み込みます(つまり、z2 = w2*a1 + b2内積の乗算を行います)。ここでz2は3Dであり、b2バイアスです。 アクティベーション関数(ReLuなど)を適用して、z2非線形(egなどa2 = ReLu(z2))を作成しa2ます。ここで3Dです。 質問 「機能マップ」という用語の定義は、文学ごとに異なるようです。具体的に: 1番目の畳み込み層の場合、「機能マップ」は入力ベクトルx、または出力ドット積z1、または出力アクティベーションa1、またはに変換xする「プロセス」a1、または他の何かに対応しますか? 同様に、2番目の畳み込み層の場合、「機能マップ」は入力アクティベーションa1、または出力ドット積z2、または出力アクティベーションa2、またはに変換a1する「プロセス」a2、または他の何かに対応しますか? また、「機能マップ」という用語が「アクティベーションマップ」とまったく同じというのは本当ですか?(または、実際には2つの異なる意味ですか?) 追加の参照: ニューラルネットワークとディープラーニングのスニペット-章6: *ここで命名法は大まかに使用されています。特に、「機能マップ」を使用して、畳み込み層によって計算された関数ではなく、層から出力される隠されたニューロンの活性化を意味しています。このような命名法の軽度の乱用は、研究文献ではかなり一般的です。 Matt Zeilerによる畳み込みネットワークの視覚化と理解からの抜粋: このペーパーでは、モデル内の任意のレイヤーで個々の機能マップを励起する入力刺激を明らかにする視覚化手法を紹介します。[...]これとは対照的に、アプローチは不変量のノンパラメトリックビューを提供し、トレーニングセットのどのパターンが機能マップをアクティブにするかを示します。[...]フィーチャマップ全体の応答を正規化するローカルコントラスト操作。[...]指定されたconvnetアクティベーションを調べるために、レイヤー内の他のすべてのアクティベーションをゼロに設定し、接続されたdeconvnetレイヤーへの入力として機能マップを渡します。[...] convnetは、relu非線形性を使用します。これにより、フィーチャマップが修正され、フィーチャマップが常に正であることが保証されます。[...] convnetは、学習したフィルターを使用して、前のレイヤーの機能マップを畳み込みます。[...]図6 これらの視覚化は、モデル内の特定の機能マップを刺激する入力パターンの正確な表現です。パターンに対応する元の入力画像の部分が遮られると、機能マップ内のアクティビティが明確に低下します。[...] 備考:図1に「機能マップ」と「修正された機能マップ」という用語も導入されています スニペットCNNのスタンフォードCS231n章: [...]この視覚化で簡単に気付かれる危険な落とし穴の1つは、いくつかのアクティベーションマップが多くの異なる入力に対してすべてゼロになる可能性があることです。猫の写真を見ている訓練を受けたAlexNetの最初のCONVレイヤー(左)と5番目のCONVレイヤー(右)の典型的な外観のアクティベーション。すべてのボックスには、フィルターに対応するアクティベーションマップが表示されます。アクティベーションがまばらであり(この視覚化では黒で示されているように、ほとんどの値はゼロです)、ほとんどローカルであることに注意してください。 A-Beginner's-Guide-To-Understanding-Convolutional-Neural-Networksのスニペット [...]入力ボリューム上の一意の場所ごとに番号が生成されます。すべての場所でフィルターをスライドすると、残っているのは28 x 28 x 1の数字の配列であり、これをアクティベーションマップまたはフィーチャマップと呼びます。

1
回帰用のCNNアーキテクチャ?
入力が画像で、ラベルが80から350の間の連続値である回帰問題に取り組んでいます。画像は、反応が起こった後のいくつかの化学物質のものです。判明する色は、残りの別の化学物質の濃度を示し、それがモデルが出力するものです-その化学物質の濃度。画像は回転、反転、ミラー化できますが、期待される出力は同じままです。この種の分析は実際のラボで行われます(このモデルをトレーニングするのと同じように、非常に特殊な機械が色分析を使用して化学物質の濃度を出力します)。 これまでのところ、おおよそVGG(conv-conv-conv-poolブロックの複数のシーケンス)に基づいたモデルで実験したことがあります。より最近のアーキテクチャ(Inception、ResNetなど)を試す前に、画像を使用した回帰でより一般的に使用される他のアーキテクチャがあるかどうかを調査したいと思いました。 データセットは次のようになります。 データセットには約5,000の250x250のサンプルが含まれていますが、64x64にサイズ変更したため、トレーニングが簡単になりました。有望なアーキテクチャを見つけたら、より大きな解像度の画像で実験します。 これまでのところ、私の最良のモデルでは、トレーニングセットと検証セットの両方で約0.3の平均二乗誤差があり、これは私のユースケースでは受け入れられません。 これまでの私の最高のモデルは次のようになります。 // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

2
飽和非線形性という用語はどういう意味ですか?
ディープコンボリューショナルニューラルネットワークを使用したImageNet分類の論文を読んでいたのですが、セクション3では、コンボリューショナルニューラルネットワークのアーキテクチャについて説明し、次の使用方法を説明しました。 非飽和非線形性f(x )= m a x (0 、x )。f(バツ)=maバツ(0、バツ)。f(x) = max(0, x). 訓練するのが速かったからです。その論文では、CNNで使用されるより伝統的な関数、シグモイド関数および双曲線正接関数(すなわち、および(飽和)。f(x )= t a n h (x )f(バツ)=tanh(バツ)f(x) = tanh(x)f(x )= 11 + e− x= (1 + e− x)− 1f(バツ)=11+e−バツ=(1+e−バツ)−1f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1} なぜこれらの関数を「飽和」または「非飽和」と呼ぶのですか?これらの機能はどのような意味で「飽和」または「非飽和」ですか?畳み込みニューラルネットワークのコンテキストでは、これらの用語はどういう意味ですか?機械学習(および統計)の他の分野で使用されていますか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.