タグ付けされた質問 「dropout」


3
プールレイヤーはドロップアウトレイヤーの前または後に追加されますか?
畳み込みニューラルネットワーク(CNN)を作成しています。畳み込みレイヤーの後にプールレイヤーがあり、ドロップアウトを適用してオーバーフィットを減らします。プールレイヤーの後にドロップアウトレイヤーを適用する必要があると感じていますが、実際にそれをバックアップするものはありません。ドロップアウトレイヤーを追加する適切な場所はどこですか?プール層の前または後?

2
ドロップアウトとドロップ接続の違いは何ですか?
ドロップアウトとドロップ接続の違いは何ですか? 知る限り、ドロップアウトは、トレーニング中に非表示のノードをランダムにドロップしますが、テスト中はそれらを保持し、ドロップ接続は接続をドロップします。 しかし、接続をドロップすることは、非表示のノードをドロップすることと同等ではありませんか?ノード(または接続)は単なる重みのセットではありませんか?

2
ニューラルネットワークの強化
つい最近、私はアダブースト、勾配ブーストなどのブースティングアルゴリズムの学習に取り組んでおり、最も一般的に使用される弱学習器はツリーであるという事実を知っています。基本学習者としてニューラルネットワークを使用するための最近の成功例(論文または記事を意味します)があることを本当に知りたいです。


2
2Dでの空間ドロップアウトの実装方法
これは、「畳み込みネットワークを使用した効率的なオブジェクトのローカリゼーション」という論文を参照しており、ドロップアウトは2Dで実装されていると理解しています。 空間2Dドロップアウトの実装方法に関するコードをKerasから読んだ後、基本的に形状[batch_size、1、1、num_channels]のランダムバイナリマスクが実装されます。しかし、この空間2Dドロップアウトは、形状[batch_size、height、width、num_channels]の入力コンボリューションブロックに対して正確に何をしますか? 私の現在の推測では、ピクセルのレイヤー/チャンネルのいずれかが負の値を持っている場合、そのピクセルのチャンネル全体がデフォルトでゼロになります。これは正しいです? しかし、私の推測が正しい場合、元の入力ブロックの次元に正確にある形状[batch_size、height、width、num_channels]のバイナリマスクを使用すると、通常の要素ごとのドロップアウトが得られます(これはバイナリマスクの形状を入力の形状として設定するtensorflowの元のドロップアウト実装)convブロックのピクセルが負の場合、convブロック全体がデフォルトで0になります。これは、私がよく理解していない紛らわしい部分です。

1
ディープニューラルネットワークの大部分を実際に正規化するには、早期停止とドロップアウトで十分ですか?
非常に多くの正則化手法があり、すべての組み合わせを試すのは現実的ではありません。 l1 / l2 最大ノルム 脱落 早期停止 ... ほとんどの人はドロップアウトと早期停止の組み合わせに満足しているようです。他の手法を使用することが理にかなっているケースはありますか? たとえば、疎なモデルが必要な場合は、l1正則化を少し追加できます。それ以外に、他の正則化手法を散布することを支持する強力な議論はありますか? フリーランチなしの定理について知っています。理論的には正則化手法のすべての組み合わせを試す必要がありますが、パフォーマンスが大幅に向上しない場合は、試す価値はありません。

3
ドロップアウト:アクティブ化のスケーリングとドロップアウトの反転
ドロップアウトを人工ニューラルネットワークに適用する場合、トレーニング時にニューロンの一部が非アクティブ化されたという事実を補償する必要があります。これを行うには、2つの一般的な戦略があります。 テスト時のアクティベーションのスケーリング トレーニング段階でドロップアウトを反転させる Standford CS231n:Convolutional Neural Networks for Visual Recognitionから抜粋した2つの戦略を以下のスライドにまとめます。 どちらの戦略が望ましいですか、そしてなぜですか? テスト時のアクティベーションのスケーリング: トレーニングフェーズ中にドロップアウトを反転する:

1
線形回帰のドロップアウト
私はドロップアウトに関する元の論文(https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf)を読んでおり、線形回帰のセクションでは、次のように述べられています。 ER∼Bernoulli(p)[∥y −(R∗X)w∥2]ER∼Bernoulli(p)[‖y −(R∗X)w‖2]\mathbb{E}_{R\sim Bernoulli(p)}\left[\| y\ - (R*X)w\|^2\right] 次のように減少します: ∥y−pXw∥2+p(1−p)∥Γw∥2‖y−pXw‖2+p(1−p)‖Γw‖2\|y - pXw\|^2 + p(1-p) \|\Gamma w\|^2 彼らがこの結果にたどり着いた方法を理解できません。誰か助けてもらえますか?

1
畳み込みニューラルネットワークの過剰適合を特定する方法
ドロップアウトを使用してネットワークへの過剰な適合を減らすことを理解しています。これは一般化手法です。 畳み込みニューラルネットワークでは、どのようにして過剰適合を特定できますか? 私が考えることができる1つの状況は、テストまたは検証の精度と比較してトレーニングの精度が高すぎる場合です。その場合、モデルはトレーニングサンプルにオーバーフィットしようとし、テストサンプルには不十分なパフォーマンスを示します。 これは、ドロップアウトを適用するか、ドロップアウトをモデルに盲目的に追加する必要があるかどうかを示す唯一の方法ですか?

1
L1、L2およびドロップアウト一般化の代替
私の大学では、金融/機械学習の研究プロジェクトに次の設定を行っています。Keras/ Theanoで次の構造の(ディープ)ニューラルネットワーク(MLP)を適用して、パフォーマンスの高い株(ラベル1)とパフォーマンスの低い株(ラベル0)。そもそも私は、実際および歴史的な評価の倍数を使用します。これはストックデータであるため、非常にノイズの多いデータが予想されます。さらに、52%を超える安定したサンプル外精度は、すでにこのドメインで良好であると見なすことができます。 ネットワークの構造: 入力として30のフィーチャを備えた高密度レイヤー Relu-Activation バッチ正規化レイヤー(それがなければ、ネットワークは部分的に収束していません) オプションのドロップアウトレイヤー 密 レル バッチ 脱落 ・・・同じ構造の更なる層 シグモイドアクティベーションの高密度レイヤー オプティマイザ:RMSprop 損失関数:バイナリクロスエントロピー 前処理のために私が行う唯一のことは、機能を[0,1]範囲に再スケーリングすることです。 今、私は通常、ドロップアウトまたはL1およびL2カーネル正則化に取り組む、典型的な過剰適合/過適合問題に直面しています。ただし、この場合、次のグラフに示すように、ドロップアウトとL1およびL2の正規化の両方がパフォーマンスに悪影響を及ぼします。 私の基本的なセットアップは次のとおりです。5レイヤーNN(入力レイヤーと出力レイヤーを含む)、レイヤーあたり60ニューロン、0.02の学習率、L1 / L2なし、ドロップアウトなし、100エポック、バッチ正規化、バッチサイズ1000。 76000の入力サンプル(ほぼバランスの取れたクラス45%/ 55%)で、ほぼ同じ量のテストサンプルに適用されました。チャートでは、一度に1つのパラメーターのみを変更しました。「Perf-Diff」とは、1に分類された株式と0に分類された株式の平均株価パフォーマンス差を意味します。これは、基本的に、最終的なコアメトリックです。(高いほど良い) l1の場合、ネットワークは基本的にすべてのサンプルを1つのクラスに分類しています。ネットワークが再びこれを実行しているためスパイクが発生していますが、25個のサンプルをランダムに正しく分類しています。したがって、このスパイクは良い結果ではなく、異常値として解釈されるべきです。 他のパラメータには次の影響があります。 私の結果をどのように改善できるかについてのアイデアはありますか?私がしている明らかなエラーはありますか、それとも正則化の結果に対する簡単な答えはありますか?トレーニング(PCAなど)の前に、何らかの機能選択を行うことをお勧めしますか? 編集:その他のパラメータ:
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.