畳み込みニューラルネットワークでは、どのレイヤーがトレーニングで最大の時間を消費しますか?畳み込みレイヤーまたは完全に接続されたレイヤー?これを理解するには、AlexNetアーキテクチャを使用できます。研修過程の時間分解を見てみたい。相対的な時間の比較が欲しいので、一定のGPU構成をとることができます。
畳み込みニューラルネットワークでは、どのレイヤーがトレーニングで最大の時間を消費しますか?畳み込みレイヤーまたは完全に接続されたレイヤー?これを理解するには、AlexNetアーキテクチャを使用できます。研修過程の時間分解を見てみたい。相対的な時間の比較が欲しいので、一定のGPU構成をとることができます。
回答:
注:これらの計算は推測で行ったので、いくつかのエラーが入り込んでいる可能性があります。修正できるように、そのようなエラーを通知してください。
一般に、どのCNNでも、トレーニングの最大時間は、完全に接続されたレイヤーでのエラーの逆伝播に費やされます(画像サイズによって異なります)。また、最大メモリもそれらによって占有されます。VGG Netパラメータに関するスタンフォードのスライドは次のとおりです。
完全に接続されたレイヤーがパラメーターの約90%に寄与していることがわかります。したがって、最大メモリはそれらによって占有されます。
高速GPUのおかげで、これらの膨大な計算を簡単に処理できます。しかし、FCレイヤーでは、行列全体を読み込む必要があるため、一般に畳み込みレイヤーの場合にはないメモリの問題が発生するため、畳み込みレイヤーのトレーニングは依然として簡単です。また、これらはすべて、CPUのRAMではなく、GPUメモリ自体にロードする必要があります。
AlexNetのパラメーターチャートもここにあります。
そして、さまざまなCNNアーキテクチャのパフォーマンス比較を次に示します。
スタンフォード大学のCS231n Lecture 9をチェックして、CNNアーキテクチャの隅々をよりよく理解することをお勧めします。
CNNには畳み込み演算が含まれていますが、DNNはトレーニングに建設的発散を使用しています。CNNはBig O表記の点でより複雑です。
参考のため:
1)CNN時間の複雑さ
https://arxiv.org/pdf/1412.1710.pdf
2)完全に接続されたレイヤー/ディープニューラルネットワーク(DNN)/マルチレイヤーパーセプトロン(MLP) https://www.researchgate.net/post/What_is_the_time_complexity_of_Multilayer_Perceptron_MLP_and_other_neural_networks