タグ付けされた質問 「convolution」

10
デコンボリューション層とは何ですか?
私は最近、ジョナサン・ロング、エヴァン・シェルハマー、トレバー・ダレルによるセマンティックセグメンテーションのための完全畳み込みネットワークを読みました。「デコンボリューション層」が何をするのか、どのように機能するのかがわかりません。 関連する部分は 3.3。アップサンプリングは逆方向のたたみ込み畳み込みです 粗い出力を密なピクセルに接続する別の方法は、補間です。たとえば、単純な双線形補間は、入力セルと出力セルの相対位置のみに依存する線形マップによって、最も近い4つの入力から各出力計算yijyijy_{ij}します。 ある意味では、係数アップサンプリングfffは、1 / fの分数入力ストライドによる畳み込みです。したがって、fffが整数である限り、アップサンプリングの自然な方法は、出力ストライドを使用した逆畳み込み(逆畳み込みとも呼ばれます) fffです。このような操作は、畳み込みの前後のパスを単純に逆にするため、実装するのは簡単です。 したがって、ピクセル単位の損失からのバックプロパゲーションによるエンドツーエンド学習のために、ネットワーク内でアップサンプリングが実行されます。 そのようなレイヤーのデコンボリューションフィルターは固定する必要はありませんが(たとえば、バイリニアアップサンプリングに)、学習することができます。デコンボリューションレイヤーとアクティベーション関数のスタックは、非線形アップサンプリングを学習することさえできます。 私たちの実験では、ネットワーク内のアップサンプリングは、密な予測を学習するために高速で効果的であることがわかりました。最適なセグメンテーションアーキテクチャは、これらのレイヤーを使用して、セクション4.2の洗練された予測のアップサンプリングを学習します。 たたみ込み層がどのようにトレーニングされるかを本当に理解していないと思います。 私が理解したと思うのは、カーネルサイズ畳み込み層がサイズk × kのフィルターを学習するということです。畳み込みカーネルサイズを有する層の出力K、ストライドS ∈ NとNフィルタは、ディメンションである入力DIMkkkk×kk×kk \times kkkks∈Ns∈Ns \in \mathbb{N}nnn。ただし、畳み込み層の学習がどのように機能するかはわかりません。(単純なMLPが勾配降下で学習する方法を理解します(それが役立つ場合))。Input dims2⋅nInput dims2⋅n\frac{\text{Input dim}}{s^2} \cdot n したがって、畳み込み層の私の理解が正しい場合、これをどのように逆にすることができるのか分かりません。 誰かがデコンボリューション層を理解するのを助けてくれますか?

3
「翻訳と等価」と「翻訳と不変」の違いは何ですか
翻訳と同変と翻訳と不変の違いを理解するのに苦労しています。 深層学習の本。MIT Press、2016(I. Goodfellow、A。Courville、およびY. Bengio)、畳み込みネットワークで見つけることができます: [...]パラメータ共有の特定の形態は、というプロパティ持っている層を引き起こしequivariance翻訳への [...]プーリングは、入力の小さな変換に対して表現をほぼ不変にするのに役立ちます それらの間に違いはありますか、または用語は互換的に使用されていますか?


3
畳み込みが常に奇数をfilter_sizeとして使用する理由
CNN(ConvNet)を使用して発行された論文の90〜99%をご覧ください。それらの大半は、奇数のフィルターサイズを使用します:{ 1、3、5、7 }。 この状況はいくつかの問題を引き起こす可能性があります:これらのフィルターサイズでは、通常、畳み込み演算は2のパディング(一般的なパディング)では完全ではなく、input_fieldの一部のエッジはプロセスで失われます... 質問1:畳み込みフィルターサイズに奇数番号のみを使用する理由 質問2:畳み込み中にinput_fieldの一部を省略することは実際には問題ですか?なぜそうなのか?

1
ディープラーニングの1D畳み込み層とは
私は、2Dまたは3D実装の場合の画像処理のためのディープラーニングにおける畳み込み層の役割とメカニズムについて十分に理解しています。彼らは「単純に」画像の2Dパターンをキャッチしようとします しかし最近、自然言語処理のコンテキストで1D畳み込み層にぶつかりました。これは、私にとっては驚きの種です。画像のピクセル。1Dコンボリューションの背後にあるロジックは何ですか?

2
拡張型畳み込みとデコンボリューションの違いは何ですか?
これら2つの畳み込み演算は、現在、深層学習で非常に一般的です。 このペーパーで拡張した畳み込み層について読みました:WAVENET:A GENERATIVE MODEL for RAW AUDIO とデコンボリューションはこの論文にあります:セマンティックセグメンテーションのための完全たたみ込みネットワーク どちらも画像をアップサンプリングするようですが、違いは何ですか?

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
ビデオファイルのシャッフルされたピクセルを再構築する方法は?
ピクセルの順序が1回シャッフルされたビデオファイルがあるとします。つまり、ランダムな順序が一度定義され、すべてのフレームに適用されています。 ピクセルの最初の順序を取得するための既知のアプローチは存在しますか? 私は、空間と時間で相関しているピクセルをより近くに配置することにより、初期トポロジを取得することについていくつかのアイデアを持っています。これは研究されているのか、効率的なアルゴリズムが公開されているのか。 また、この問題は、コンピュータビジョン技術(CNNなど)を適用できるようにするために、時間の経過とともに変化する値のセットを2Dマトリックスに投影する方法と考えることができます。

1
ディスクからバッチでデータをトレーニングする方法は?
画像分類のための畳み込みニューラルネットワークに取り組んでいます。トレーニングデータセットが大きすぎて自分のコンピューターのメモリ(4GB)にロードできないため、クラスのバランスをとるためにいくつかの拡張を試す必要もあります。 使用していkerasます。私は多くの例を調べましたが、私の問題の解決策は見つかりませんでした。model.fit「バッチ処理」を行う関数またはジェネレーターを渡すことで、呼び出しのパラメーターを置き換えることを考えています。この関数は、ディスクからインポートして拡張を適用するように設計します。 それを実装する方法がわかりません。助言がありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.