ニューラルネットワークのドロップアウトレイヤーを配置する場所に関する一般的なガイドラインはありますか?
ニューラルネットワークのドロップアウトレイヤーを配置する場所に関する一般的なガイドラインはありますか?
回答:
Hinout(2012)によるドロップアウトレイヤーを提案した元の論文では、出力前に完全に接続された(密な)レイヤーのそれぞれでドロップアウト(p = 0.5)が使用されました。畳み込み層では使用されませんでした。これが最も一般的に使用される構成になりました。
より最近の研究では、ドロップアウトを畳み込み層にも適用することである程度の価値が示されていますが、はるかに低いレベルではあります:p = 0.1または0.2。ドロップアウトは、各畳み込み層の活性化機能の後に使用されました:CONV-> RELU-> DROP。
relu
アクティベーションと最大プールレイヤーが続く場合、(2D)ドロップアウトレイヤーはコンボリューションの直後、または最大プーリングレイヤー、あるいはその両方の直後に行くべきですか、それとも重要ではありませんか?
RELU
各CONV層の後に適用されたことを明確にするために回答を更新しました。私は彼らが最大プーリング層の後にドロップアウトを追加する効果を調査したとは思わない。
私が間違っていなければ、すべてのセルの非線形性の後に追加できます。
layer_1 = (1/(1+np.exp(-(np.dot(X,synapse_0)))))
if(do_dropout):
layer_1 *= np.random.binomial([np.ones((len(X),hidden_dim))],1-dropout_percent)[0] * (1.0/(1-dropout_percent))
最初の行はアクティベーション関数であり、最後の行は結果にドロップアウトを追加しています。このブログを参照してください。お役に立てれば。
または、次のスニペットのように入力埋め込みに配置できます。
class BahdanauAttnDecoderRNN(nn.Module):
def __init__(self, hidden_size, output_size, n_layers=1, dropout_p=0.1):
super(AttnDecoderRNN, self).__init__()
# Define parameters
self.hidden_size = hidden_size
self.output_size = output_size
self.n_layers = n_layers
self.dropout_p = dropout_p
self.max_length = max_length
# Define layers
self.embedding = nn.Embedding(output_size, hidden_size)
self.dropout = nn.Dropout(dropout_p)
self.attn = GeneralAttn(hidden_size)
self.gru = nn.GRU(hidden_size * 2, hidden_size, n_layers, dropout=dropout_p)
self.out = nn.Linear(hidden_size, output_size)
def forward(self, word_input, last_hidden, encoder_outputs):
# Note that we will only be running forward for a single decoder time step, but will use all encoder outputs
# Get the embedding of the current input word (last output word)
word_embedded = self.embedding(word_input).view(1, 1, -1) # S=1 x B x N
word_embedded = self.dropout(word_embedded)
# Calculate attention weights and apply to encoder outputs
attn_weights = self.attn(last_hidden[-1], encoder_outputs)
context = attn_weights.bmm(encoder_outputs.transpose(0, 1)) # B x 1 x N
# Combine embedded input word and attended context, run through RNN
rnn_input = torch.cat((word_embedded, context), 2)
output, hidden = self.gru(rnn_input, last_hidden)
# Final output layer
output = output.squeeze(0) # B x N
output = F.log_softmax(self.out(torch.cat((output, context), 1)))
# Return final output, hidden state, and attention weights (for visualization)
return output, hidden, attn_weights
ソース:https : //github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation.ipynb
技術的には、たとえば畳み込みの後またはRNNエンコードの後に、ブロックの最後にドロップアウトレイヤーを追加できます。