タグ付けされた質問 「conv-neural-network」

畳み込みニューラルネットワークは、ニューラルネットワークの一種であり、レイヤー間の可能な接続のサブセットのみが存在して、重複領域を作成します。それらは一般的に視覚的なタスクに使用されます。

1
ディープラーニング用のデータ量はどれくらいですか?
ディープラーニング(特にCNN)について学習しています。これは、過剰適合を防ぐために通常は非常に多くのデータを必要とする方法です。ただし、モデルの容量やパラメータが多いほど、過剰適合を防ぐために必要なデータが増えることも知らされています。したがって、私の質問は次のとおりです。ディープニューラルネットワークのレイヤーあたりのレイヤー/ノードの数を減らし、より少ないデータ量で機能させることができないのはなぜですか?ニューラルネットワークが「キックイン」するまでに必要な基本的な「最小数のパラメータ」はありますか?特定の数のレイヤーの下では、ニューラルネットワークは、手作業でコーディングした機能ほど機能しないようです。

2
ニューラルネットワークでの1D畳み込み
たたみ込みの仕組みは理解していますが、1Dたたみ込みが2Dデータにどのように適用されるのかわかりません。 この例では、2Dデータの2Dたたみ込みを確認できます。しかし、1Dコンボリューションだったらどうなるでしょうか?同じようにスライドする1Dカーネルだけですか?そして、ストライドが2だったとしたら? ありがとうございました!

2
LeNetのニューロンの受容野
CNNの受容野をよりよく理解しようとしています。そのために、LeNetの各ニューロンの受容野を計算したいと思います。通常のMLPの場合はかなり簡単ですが(http://deeplearning.net/tutorial/lenet.html#sparse-connectivityを参照)、1つまたは複数の畳み込み層に続く層のニューロンの受容野を計算することは困難です。プーリング層。 2.畳み込み層のニューロンの受容野とは何ですか?次のサブサンプリング/プーリングレイヤーではどれくらい大きいですか?そして、これらを計算するための式は何ですか?

1
オートエンコーダーと畳み込みニューラルネットワークで学習したフィルターの違いは何ですか?
CNNでは、フィルターを学習して、畳み込み層に特徴マップを作成します。 Autoencoderでは、各レイヤーの単一の非表示ユニットをフィルターと見なすことができます。 これら2つのネットワークで学習されたフィルターの違いは何ですか?

1
ディープラーニングの密な予測とは何ですか?
私は、TensorFlowの事前にトレーニングされた畳み込みニューラルネットワークのモデルを使用しています。 https://github.com/tensorflow/models/blob/master/slim/nets/resnet_v2.py#L130 次の文が見つかりました: ただし、密な予測タスクの場合は、32の倍数である1の空間次元を持つ入力を使用することをお勧めします(例:[321、321])。 この文献の密な予測とは何か知っていますか?


1
畳み込みニューラルネットワークの過剰適合を特定する方法
ドロップアウトを使用してネットワークへの過剰な適合を減らすことを理解しています。これは一般化手法です。 畳み込みニューラルネットワークでは、どのようにして過剰適合を特定できますか? 私が考えることができる1つの状況は、テストまたは検証の精度と比較してトレーニングの精度が高すぎる場合です。その場合、モデルはトレーニングサンプルにオーバーフィットしようとし、テストサンプルには不十分なパフォーマンスを示します。 これは、ドロップアウトを適用するか、ドロップアウトをモデルに盲目的に追加する必要があるかどうかを示す唯一の方法ですか?

2
ニューラルネットワークモデルの識別可能性
ほとんどのニューラルネットワークトポロジ/アーキテクチャが識別できないことは非常に直感的です。しかし、フィールドでよく知られている結果は何ですか?識別可能性を許可/防止する単純な条件はありますか?例えば、 非線形活性化関数と複数の非表示層を持つすべてのネットワークは識別できません 3つ以上の非表示ユニットがあるネットワークはすべて識別できません またはこれらのようなもの。注:これらの条件が識別可能性を妨げると言っているのではありません(ただし、これらは私にはかなり良い候補のようです)これらは、「単純な条件」で私が意味するものの単なる例です。 質問を絞り込むのに役立つ場合は、フィードフォワードおよび繰り返しアーキテクチャのみを検討してください。それでも不十分な場合は、MLP、CNN、RNNのうち少なくとも1つのアーキテクチャをカバーする回答で満足します。私はWebをざっと見て回りましたが、私が見つけた唯一の議論はRedditに関するもののようです。さあ、人々、私たちはRedditよりもうまくやることができます;-)

2
バッチ正規化やReLuユニットを使用せずに、非線形性を飽和させるための消失勾配に対処する方法はありますか?
私は、消滅(または主に消滅しているが、勾配問題の爆発)に苦しむ非線形性を持つネットワークを訓練したかった。(現在の)標準的な方法は、バッチ正規化1 [BN] 1を使用するか、単に非線形性を放棄してReLu 整流器/ ReLuユニットを使用することです。 私は2つのことを望んでいました: 私の非直線性に固執するので、それを放棄してReLuを使用したくありません(つまり、ReLuは許可されません!)。非線形性の再パラメータ化は問題ありません。たとえば、ようにその前に乗法を置くとしましょう。θ (s )θ(s)\theta(s) 理想的には、あまりにも多くのバッチ正規化に依存したくなかった(または、少なくともそれが使用された場合、元の論文での使用方法以外の新しい方法で使用するか、多くの非直線性に一般化する必要がある)。バッチ正規化を避けたかった理由の1つは、特定の非線形性に対してのみ機能するように見えるためです。たとえば、シグモイドの場合、tanhですが、他の非線形性に対してどのように機能するかは不明です、とガウシアンは言います。 これらの制約がある理由は、特定の非線形性に対してのみ機能するソリューションをハッキングしたり、単に問題を回避することで問題を回避したりするのではなく、直接問題を数えることによって勾配を消失または爆発させる問題に対処したいためですReLu。 これらの2つの制約があるため、勾配の消失問題に対処するための代替方法は何ですか?(考慮される別の非線形性は、ユークリッドノルムの事前アクティブ化、シグモイド、tanhなどのRBFガウスカーネルです) 私が考えていた(漠然とした)考えられるアイデアは次のとおりです。 飽和状態の非線形性が既に飽和状態にならないように、適切な初期化を行ってください(飽和状態の非線形性により、勾配がゼロに近くなります)。 RBFの場合も同様に、ガウシアンは主に0に近い大きな値を持っているため(つまり、フィルターがそのアクティブ化またはデータに類似している場合)、適切な初期化が重要になる場合があります。したがって、大きすぎたり小さすぎたりすると、同様の勾配の問題が消えます。 これが制約が強すぎるかどうかは本当にわかりませんが、元の論文での従来の提案(またはおそらく、より大きな非線形性、現在のところ、ほとんどの研究は、私が知る限り、シグモイドで機能することを示すことです)。 もう1つのアイデアは、非線形性を使用する代わりにするです。場合以前のレイヤーで「消失」するのを避けるために、非線形性がレイヤーごとに逆方向に複数回乗算されないことを意味します。学習ルールが不安定になる可能性があるため、レギュラライザーを使用することをお勧めします。θ (Z )A ∈ R A &gt; 1θ (z)θ(z)\theta(z)θ (Z)aθ(z)a \theta(z) a∈Ra∈Ra \in \mathbb{R}a&gt;1a&gt;1a > 1 本質的に消滅勾配を処理する(または少なくとも各パラメーターを別々に更新する)オプティマイザー。たとえば、その層が入力に近い場合、学習ステップは大きくなるはずです。学習アルゴリズムがこれを単独で考慮に入れて、消失勾配に対処するのは良いことです。 バッチノルムまたはReLu以外の消失勾配に対処する方法について提案がある場合は、それらについてお聞かせください。 勾配の消失は主に非線形性がという特性を持っているために発生するようです であり、で、それを何度も掛けた後、爆発または消失します。問題を明示的に言って解決するのに役立つかもしれません。問題は、下位層が更新されないか、ネットワークを介した信号を妨害することです。順方向パスと逆方向パスの間(および初期化時だけでなくトレーニング中も)、この信号がネットワークを流れるように維持するとよいでしょう。| θ ′(s )| &lt; 1|a|&lt;1|a|&lt;1 |a| < 1|θ′(s)|&lt;1|θ′(s)|&lt;1 | \theta'(s) | < 1 1:Ioffe …

1
最適に設計されたニューラルネットワークには、トレーニングされたときに「死んだ」ReLUニューロンが含まれていませんか?
一般に、死んだReLUニューロンが少なくなるように、ニューロンを減らしてニューラルネットワークを再トレーニングする必要がありますか?死んだReLUについて対立する意見を読みました。死んだReLUはスパース性を促進するので良いと言う情報源もあります。他の人たちは、死んだReLUは永遠に死んでいて学習を妨げているので悪いと言います。幸せな媒体はありますか?

3
数値勾配チェック:どれくらい近いですか?
たたみ込みニューラルネットワークを作成し、数値勾配チェックを使用して勾配が正しく計算されていることを確認したいと思いました。問題は、どれだけ近いかということです。 私のチェック機能は、計算された導関数、数値的に近似された導関数、2つの値の差、および2つの値が同じ符号を持っているかどうか(1つは正でもう1つは負であるかどうか)重量。 私の主な懸念は、完全に接続されたすべてのレイヤーと最初のレイヤーを除くすべての畳み込みレイヤーの違いが似ていることです。2つの数字の最初の9〜13文字が一致します。いいですね。しかし、最初の畳み込み層の重みでは、一致する小数点以下の桁数が最大で12になる場合がありますが、3の場合もあります。それで十分ですか、それともエラーの可能性がありますか? 注意すべき1つの良い点は、2つの値の符号が常に一致していることです。これは、動きの大きさが少しずれていても、ネットワークは常に正しい方向に動きます。しかし、それが問題です...それがオフになっている可能性はありますか?

1
完全畳み込みニューラルネットワークでのパッチごとのトレーニングと完全畳み込みトレーニング
完全畳み込みニューラルネットワークの論文では、著者はパッチワイズトレーニングと完全畳み込みトレーニングの両方に言及しています。 トレーニングセットの構築に関する私の理解は次のとおりです。 与えられたM*M画像、抽出サブ画像とN*N(、 N&lt;M)を。選択したサブ画像は、他のサブ画像と重複しています。トレーニングプロセスのバッチごとに、特定の画像または複数の画像のすべてのサブ画像を含めることができます。 私の理解は正しいですか?それでは、パッチごとのトレーニングと完全なたたみ込みトレーニングの違いは何ですか?関連セクションを参照として含めます。

4
現在の最先端の畳み込みニューラルネットワークは何ですか?
MNIST、STLN-10、CIFARなどの標準的な画像分類タスクに関して、現在どのニューラルネットワークアーキテクチャが最先端(「SOTA」と略されることもあります)であるかを理解することに興味があります。新しい結果が頻繁に公開されるため、これは挑戦的であり、追いつくのは難しい場合があります。これらのタスクの最良の結果を追跡するリソースまたはWebサイトはありますか?

2
畳み込みニューラルネットワークでの非長方形のカーネルの使用?特にゲームボードを分析するとき
私はたたみ込みネットワークと強化学習に関する大量の論文を読んでいます。 畳み込み層の形状が長方形ではない重要な紙(このばかげた図では緑色の形状)を見たのを覚えています。しかし、今は見つかりません。 それはAlphaGoの論文に似ているか、ゲームボードでの強化学習でした。 誰がそれがどの紙であったかを示唆または推測できますか?

1
U-Netはどのようにしてピクセル分類を単一の空間領域にグループ化しますか?
「U-Net」として知られるニューラルネットワーク(Ronneberger、Fischer、およびBrox 2015)は、Kaggleの最近の超音波神経セグメンテーションコンテストで著名な技​​術でした。そこでは、高いスコアが、手描きの領域。 (クリストファーヘフェレからの写真) (おそらくダウンサンプリングされた画像から)すべてのピクセルの分類を続行する場合、隣接するピクセルが同じクラスになる傾向があるという事前の知識を組み込む多くの方法が必要であり、さらにすべての正の分類が単一の空間領域。しかし、私はこれらのU-Netsがどのようにそれをしているのか理解できません。畳み込み演算子とプーリング演算子の迷路ではありますが、これらはすべてのピクセルを分類します。 分離の境界線が関係していますが、紙はそれらが「形態学的演算を使用して計算される」と述べており、これは私がU-Net自体から完全に分離していることを意味します。これらの境界線は、境界線のピクセルがより強調されるように、重みを変更するためにのみ使用されます。それらは分類タスクを根本的に変えるようには見えません。 すべてのピクセルを分類する際、「U-Net」と呼ばれるこの深い畳み込みニューラルネットワークは、予測領域が単一の空間領域になるという事前知識をどのように組み込んでいますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.