統計とビッグデータ conv-neural-network

4

畳み込みニューラルネットワーク、制限付きボルツマンマシン、および自動エンコーダーの違いは何ですか？

最近、私はディープラーニングについて読んでいますが、用語（またはテクノロジー）について混乱しています。違いは何ですか畳み込みニューラルネットワーク（CNN）、制限付きボルツマンマシン（RBM）および自動エンコーダー？

123 neural-networks deep-learning conv-neural-network autoencoders rbm

6

現在、Udacity Deep Learning Tutorialを行っています。レッスン3では、1x1畳み込みについて説明します。この1x1コンボリューションは、Google Inception Moduleで使用されます。1x1コンボリューションとは何かを理解できません。 Yann Lecunによるこの投稿も見ました。誰かが親切にこれを私に説明できますか？

106 neural-networks deep-learning convolution conv-neural-network

4

なぜニューラルネットワークは深くなりつつあるが、広くはならないのか？

近年、畳み込みニューラルネットワーク（または一般的にはディープニューラルネットワーク）はますます深くなり、最先端のネットワークは4層で7層（AlexNet）から1000層（残余ネット）になります年。より深いネットワークからのパフォーマンスの向上の背後にある理由は、より複雑な非線形関数を学習できるからです。十分なトレーニングデータがある場合、これにより、ネットワークは異なるクラスをより簡単に区別できます。ただし、この傾向は各レイヤーのパラメーターの数では続かないようです。たとえば、畳み込みレイヤーのフィーチャマップの数、または完全に接続されたレイヤーのノードの数は、レイヤー数が大幅に増加したにもかかわらず、ほぼ同じままで、規模は比較的小さいままです。しかし、私の直感からは、レイヤーごとのパラメーターの数を増やすと、各レイヤーに非線形関数を学習するための豊富なデータソースが与えられるように思えます。しかし、この考え方は、それぞれが少数のパラメーターを持つレイヤーを追加するだけで、見過ごされていたようです。したがって、ネットワークは「より深く」なっていますが、「より広く」はなりません。どうしてこれなの？

73 machine-learning classification neural-networks deep-learning conv-neural-network

2

グローバルな最大プーリング層とは何ですか？また、最大プーリング層に対する利点は何ですか？

誰かがグローバルな最大プーリング層とは何か、そしてそれをニューラルネットワークのトレーニングに使用する理由と時期を説明できますか？彼らは通常の最大プーリング層よりも利点がありますか？

55 neural-networks conv-neural-network pooling

2

畳み込みニューラルネットワークがサポートベクターマシンを使用して分類しないのはなぜですか？

近年、畳み込みニューラルネットワーク（CNN）は、コンピュータービジョンにおけるオブジェクト認識の最先端技術になりました。通常、CNNは複数の畳み込み層で構成され、その後に2つの完全に接続された層が続きます。この背後にある直感は、畳み込み層が入力データのより良い表現を学習し、完全に接続された層がラベルのセットに基づいてこの表現を分類することを学習することです。ただし、CNNが支配を開始する前は、サポートベクターマシン（SVM）が最先端でした。そのため、SVMは2層の完全に接続されたニューラルネットワークよりも依然として強力な分類器であると言えます。したがって、なぜ最新のCNNがSVMではなく完全に接続されたレイヤーを分類に使用する傾向があるのか疑問に思っていますか？このように、強力な特徴表現ではなく、強力な特徴表現と弱い分類子のみの両方の長所があります。何か案は？

46 machine-learning neural-networks svm deep-learning conv-neural-network

4

他の機能マップを作成するために、機能マップにカーネルをどのように適用しますか？

畳み込みニューラルネットワークの畳み込み部分を理解しようとしています。次の図を見てください。 4つの異なるマップ（サイズ）がある最初の畳み込み層を理解するのに問題はありません。これは、入力画像と畳み込んで4つの特徴マップを取得します。k×kk×kk \times k 私が理解できないのは、次の畳み込み層で、4つのフィーチャマップから6つのフィーチャマップに移動します。このレイヤーに6つのカーネルがあると想定しています（その結果、6つの出力機能マップが提供されます）が、これらのカーネルはC1に示されている4つの機能マップでどのように機能しますか？カーネルは3次元ですか、それとも2次元であり、4つの入力フィーチャマップにわたって複製されていますか？

44 machine-learning neural-networks deep-learning conv-neural-network

6

CNNでのローカル応答の正規化の重要性

Imagenetやその他の大規模なCNNは、ローカル応答の正規化レイヤーを利用していることがわかりました。しかし、私はそれらに関する多くの情報を見つけることができません。それらはどのくらい重要で、いつ使用する必要がありますか？ http://caffe.berkeleyvision.org/tutorial/layers.html#data-layersから：「ローカル応答正規化レイヤーは、ローカル入力領域を正規化することにより、一種の「横方向抑制」を実行します。ACROSS_CHANNELSモードでは、ローカル領域は近くのチャネルに広がりますが、空間範囲はありません（つまり、local_size x 1 x 1の形状を持ちます） WITHIN_CHANNELモードでは、ローカル領域は空間的に拡張されますが、別々のチャネルにあります（つまり、形状は1 x local_size x local_sizeの形状です）。各入力値は（1+（α/ n）∑ix2i）βで除算されます。は各ローカル領域のサイズであり、合計はその値を中心とする領域で取得されます（必要に応じてゼロパディングが追加されます）。編集：これらの種類のレイヤーの影響は最小限で、使用されなくなったようです。基本的に、それらの役割は、他の正則化技術（ドロップアウトやバッチ正規化など）、より良い初期化、およびトレーニング方法によって実現されています。詳細については、以下の回答を参照してください。

41 deep-learning convolution conv-neural-network

4

コンピュータビジョンと畳み込みニューラルネットワークにおける翻訳不変性とは何ですか？

コンピュータビジョンの背景はありませんが、画像処理や畳み込みニューラルネットワークに関連する記事や論文を読んでいるとき、私は絶えず用語translation invariance、またはに直面していtranslation invariantます。または、畳み込み演算が提供する多くのことを読みますtranslation invariance？!! これは何を意味するのでしょうか？どんな形の画像を変更しても、画像の実際の概念は変わらないという意味で、私自身は常に自分自身に翻訳しました。たとえば、レッツ・セイのツリーの画像を回転させると、その写真に対して何をしても、それは再びツリーになります。そして、私自身は、画像に起こりうるすべての操作を考えて、ある方法で変換（トリミング、サイズ変更、グレースケール、色付けなど）をこのようにすることを考えています。これが本当かどうか分からないので、誰かがこれを説明できればありがたいです。

38 machine-learning conv-neural-network convolution computer-vision

4

CNNの「カーネル」と「フィルター」の違い

畳み込みニューラルネットワークのコンテキストでの「カーネル」と「フィルター」という用語の違いは何ですか？

37 neural-networks terminology deep-learning conv-neural-network

3

プールレイヤーはドロップアウトレイヤーの前または後に追加されますか？

畳み込みニューラルネットワーク（CNN）を作成しています。畳み込みレイヤーの後にプールレイヤーがあり、ドロップアウトを適用してオーバーフィットを減らします。プールレイヤーの後にドロップアウトレイヤーを適用する必要があると感じていますが、実際にそれをバックアップするものはありません。ドロップアウトレイヤーを追加する適切な場所はどこですか？プール層の前または後？

35 deep-learning conv-neural-network dropout

3

深い畳み込みニューラルネットワークでの事前トレーニング？

深い畳み込みニューラルネットワークの事前トレーニングに関する文献を見たことがありますか？オートエンコーダーまたは制限付きボルトマンマシンで、教師なしの事前トレーニングを見たことがあります。

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

2

畳み込みニューラルネットワークの「機能マップ」（別名「活性化マップ」）の定義は何ですか？

イントロの背景たたみ込みニューラルネットワーク内では、通常、次のような一般的な構造/フローがあります。入力画像（つまり、2Dベクトルx）（最初の畳み込み層（Conv1）はここから始まります...） w12D画像に沿ってフィルターのセット（）を畳み込みます（つまり、z1 = w1*x + b1内積の乗算を行います）。ここz1で3D b1はバイアスです。アクティベーション関数（ReLuなど）を適用して、z1非線形（egなどa1 = ReLu(z1)）を作成しa1ます。ここで3Dです。（2番目の畳み込み層（Conv2）はここから始まります...）新しく計算されたアクティベーションに沿って一連のフィルターを畳み込みます（つまり、z2 = w2*a1 + b2内積の乗算を行います）。ここでz2は3Dであり、b2バイアスです。アクティベーション関数（ReLuなど）を適用して、z2非線形（egなどa2 = ReLu(z2)）を作成しa2ます。ここで3Dです。質問「機能マップ」という用語の定義は、文学ごとに異なるようです。具体的に： 1番目の畳み込み層の場合、「機能マップ」は入力ベクトルx、または出力ドット積z1、または出力アクティベーションa1、またはに変換xする「プロセス」a1、または他の何かに対応しますか？同様に、2番目の畳み込み層の場合、「機能マップ」は入力アクティベーションa1、または出力ドット積z2、または出力アクティベーションa2、またはに変換a1する「プロセス」a2、または他の何かに対応しますか？また、「機能マップ」という用語が「アクティベーションマップ」とまったく同じというのは本当ですか？（または、実際には2つの異なる意味ですか？）追加の参照：ニューラルネットワークとディープラーニングのスニペット-章6： *ここで命名法は大まかに使用されています。特に、「機能マップ」を使用して、畳み込み層によって計算された関数ではなく、層から出力される隠されたニューロンの活性化を意味しています。このような命名法の軽度の乱用は、研究文献ではかなり一般的です。 Matt Zeilerによる畳み込みネットワークの視覚化と理解からの抜粋：このペーパーでは、モデル内の任意のレイヤーで個々の機能マップを励起する入力刺激を明らかにする視覚化手法を紹介します。[...]これとは対照的に、アプローチは不変量のノンパラメトリックビューを提供し、トレーニングセットのどのパターンが機能マップをアクティブにするかを示します。[...]フィーチャマップ全体の応答を正規化するローカルコントラスト操作。[...]指定されたconvnetアクティベーションを調べるために、レイヤー内の他のすべてのアクティベーションをゼロに設定し、接続されたdeconvnetレイヤーへの入力として機能マップを渡します。[...] convnetは、relu非線形性を使用します。これにより、フィーチャマップが修正され、フィーチャマップが常に正であることが保証されます。[...] convnetは、学習したフィルターを使用して、前のレイヤーの機能マップを畳み込みます。[...]図6 これらの視覚化は、モデル内の特定の機能マップを刺激する入力パターンの正確な表現です。パターンに対応する元の入力画像の部分が遮られると、機能マップ内のアクティビティが明確に低下します。[...] 備考：図1に「機能マップ」と「修正された機能マップ」という用語も導入されていますスニペットCNNのスタンフォードCS231n章： [...]この視覚化で簡単に気付かれる危険な落とし穴の1つは、いくつかのアクティベーションマップが多くの異なる入力に対してすべてゼロになる可能性があることです。猫の写真を見ている訓練を受けたAlexNetの最初のCONVレイヤー（左）と5番目のCONVレイヤー（右）の典型的な外観のアクティベーション。すべてのボックスには、フィルターに対応するアクティベーションマップが表示されます。アクティベーションがまばらであり（この視覚化では黒で示されているように、ほとんどの値はゼロです）、ほとんどローカルであることに注意してください。 A-Beginner's-Guide-To-Understanding-Convolutional-Neural-Networksのスニペット [...]入力ボリューム上の一意の場所ごとに番号が生成されます。すべての場所でフィルターをスライドすると、残っているのは28 x 28 x 1の数字の配列であり、これをアクティベーションマップまたはフィーチャマップと呼びます。

32 neural-networks deep-learning conv-neural-network

1

回帰用のCNNアーキテクチャ？

入力が画像で、ラベルが80から350の間の連続値である回帰問題に取り組んでいます。画像は、反応が起こった後のいくつかの化学物質のものです。判明する色は、残りの別の化学物質の濃度を示し、それがモデルが出力するものです-その化学物質の濃度。画像は回転、反転、ミラー化できますが、期待される出力は同じままです。この種の分析は実際のラボで行われます（このモデルをトレーニングするのと同じように、非常に特殊な機械が色分析を使用して化学物質の濃度を出力します）。これまでのところ、おおよそVGG（conv-conv-conv-poolブロックの複数のシーケンス）に基づいたモデルで実験したことがあります。より最近のアーキテクチャ（Inception、ResNetなど）を試す前に、画像を使用した回帰でより一般的に使用される他のアーキテクチャがあるかどうかを調査したいと思いました。データセットは次のようになります。データセットには約5,000の250x250のサンプルが含まれていますが、64x64にサイズ変更したため、トレーニングが簡単になりました。有望なアーキテクチャを見つけたら、より大きな解像度の画像で実験します。これまでのところ、私の最良のモデルでは、トレーニングセットと検証セットの両方で約0.3の平均二乗誤差があり、これは私のユースケースでは受け入れられません。これまでの私の最高のモデルは次のようになります。 // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

32 regression machine-learning neural-networks conv-neural-network tensorflow

2

飽和非線形性という用語はどういう意味ですか？

ディープコンボリューショナルニューラルネットワークを使用したImageNet分類の論文を読んでいたのですが、セクション3では、コンボリューショナルニューラルネットワークのアーキテクチャについて説明し、次の使用方法を説明しました。非飽和非線形性f（x ）= m a x （0 、x ）。f（バツ）=maバツ（0、バツ）。f(x) = max(0, x). 訓練するのが速かったからです。その論文では、CNNで使用されるより伝統的な関数、シグモイド関数および双曲線正接関数（すなわち、および（飽和）。f（x ）= t a n h （x ）f（バツ）=tanh（バツ）f(x) = tanh(x)f（x ）= 11 + e− x= （1 + e− x）− 1f（バツ）=11+e−バツ=（1+e−バツ）−1f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1} なぜこれらの関数を「飽和」または「非飽和」と呼ぶのですか？これらの機能はどのような意味で「飽和」または「非飽和」ですか？畳み込みニューラルネットワークのコンテキストでは、これらの用語はどういう意味ですか？機械学習（および統計）の他の分野で使用されていますか？

30 machine-learning neural-networks terminology conv-neural-network

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

タグ付けされた質問 「conv-neural-network」

タグ付けされた質問「conv-neural-network」