統計とビッグデータ deep-learning

2

バッチ正規化では、移動平均を使用して、トレーニング中のモデルの精度を追跡する方法と理由を教えてください。

私はバッチ正規化（BN）論文（1）を読んでいて、モデルの精度を追跡するために移動平均を使用する必要があることを理解していませんでした。彼らがまさにやっていること。私の理解（これは間違っている）に、論文では、モデルがトレーニングを終了した後、ミニバッチ統計ではなく人口統計を使用していることに言及しています。偏りのない推定についての議論の後（それは私には接線のようであり、なぜそれについて話すのか理解できない）、彼らは行って言う：代わりに移動平均を使用して、トレーニング中のモデルの精度を追跡します。それは私を混乱させている部分です。なぜ移動平均を行ってモデルの精度とどのデータセットを推定するのですか？通常、人々はモデルの一般化を推定するために行うことで、モデルの検証エラーを追跡します（そして、勾配降下を早期に停止して正則化する可能性があります）。ただし、バッチの正規化はまったく異なることを行っているようです。誰かが何を、なぜ違うことをしているのかを明確にできますか？ 1：Ioffe S.およびSzegedy C.（2015）、「バッチ正規化：内部共変量シフトの削減によるディープネットワークトレーニングの加速」、第32回機械学習に関する国際会議の議事録、リール、フランス、2015年。機械学習研究ジャーナル： W＆CPボリューム37

21 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

2

分散スケーリング初期化子とxavier初期化子の違いは何ですか？

TensorflowのResNetの実装では、分散スケーリングイニシャライザーを使用していることがわかります。xavierイニシャライザーも一般的です。私はこれについてあまり経験がありませんが、実際にはどちらが良いですか？

20 machine-learning neural-networks deep-learning conv-neural-network tensorflow

2

ディープラーニングはどこで、なぜ輝くのですか？

最近のディープラーニングに関するすべてのメディアトークと誇大広告で、私はそれについていくつかの基本的なものを読みました。データからパターンを学習するのは、別の機械学習方法であることがわかりました。しかし、私の質問は次のとおりです。この方法がどこで、なぜ輝くのか。なぜ今それについてのすべての話ですか？つまり、大騒ぎとは何ですか？

20 machine-learning data-mining deep-learning deep-belief-networks

2

ニューラルネットでは、なぜ他のメタヒューリスティックではなく勾配法を使用するのですか？

深くて浅いニューラルネットワークのトレーニングでは、他のメタヒューリスティックとは対照的に、勾配法（勾配勾配、Nesterov、Newton-Raphsonなど）が一般的に使用されるのはなぜですか？メタヒューリスティックとは、シミュレートされたアニーリング、アリのコロニーの最適化などの方法を意味します。これらの方法は、局所的な最小値にとどまることを避けるために開発されました。

20 neural-networks optimization deep-learning gradient-descent backpropagation

3

ディープニューラルネットワークのトレーニングに早期停止を適切に使用する方法

ディープニューラルネットワークモデルがあり、約100,000のサンプルで構成されるデータセットで検証する必要があります。検証データには約1000のサンプルが含まれています。各例のトレーニングには時間がかかり（例ごとに約0.5秒）、過剰適合を避けるために、不要な計算を防ぐために早期停止を適用したいと思います。しかし、ニューラルネットワークを早期に停止して適切にトレーニングする方法がわかりません。今では理解できないことがいくつかあります。適切な検証頻度は何ですか？各エポックの終わりに検証データでモデルをチェックする必要がありますか？（私のバッチサイズは1です）最初のいくつかのエポックが、より良い価値に収束し始める前に、より悪い結果をもたらすかもしれませんか？その場合、早期停止をチェックする前に、いくつかのエポックについてネットワークをトレーニングする必要がありますか？検証の損失が上下する可能性がある場合の対処方法その場合、早期に停止すると、モデルがさらに学習できなくなる可能性がありますよね？前もって感謝します。

19 neural-networks deep-learning

3

ニューラルネットワークにおけるバイアスノードの重要性

最近のニューラルネットワークの有効性にとって、バイアスノードがどれほど重要かを知りたいです。入力変数が少ない浅いネットワークでは重要になることが簡単に理解できます。ただし、ディープラーニングなどの最新のニューラルネットには、特定のニューロンがトリガーされるかどうかを決定するための入力変数が多数あることがよくあります。LeNet5やImageNetなどから単純に削除すると、実際に影響がありますか？

19 neural-networks deep-learning bias-node

2

CNNで完全に接続されたレイヤーは何をしますか？

畳み込み層とプーリング層は理解していますが、CNNで完全に接続された層の理由はわかりません。前のレイヤーが出力レイヤーに直接接続されていないのはなぜですか？

19 neural-networks deep-learning conv-neural-network

4

オートエンコーダではなく、バリエーションオートエンコーダを使用する必要があるのはいつですか？

変分オートエンコーダーと通常の（決定論的）オートエンコーダーの基本構造とそれらの背後にある数学を理解していますが、あるタイプのオートエンコーダーを他のタイプよりもいつ、なぜ好むのでしょうか？私が考えることができるのは、変分オートエンコーダーの潜在変数の事前分布だけで、潜在変数をサンプリングしてから新しいイメージを構築できることです。決定論的オートエンコーダに対する変分オートエンコーダの確率論はどのような利点がありますか？

19 deep-learning autoencoders variational-bayes

5

「転移学習」と「ドメイン適応」の違いは何ですか？

「転移学習」と「ドメイン適応」の間に違いはありますか？コンテキストについては知りませんが、私の理解では、いくつかのデータセット1があり、その上でトレーニングを行い、その後、最初から再トレーニングせずにモデルを適応させたい別のデータセット2があります。「ドメイン適応」は、この問題の解決に役立ちます。畳み込みニューラルネットワークの分野によると：「転移学習」とは、「微調整」を意味します[1] この場合[2]は教師なしですが、「ドメイン適応」は常に教師なしにする必要がありますか？

19 deep-learning terminology conv-neural-network transfer-learning domain-adaptation

2

たたみ込みニューラルネットワークで最大プーリングが必要なのはなぜですか？

最も一般的な畳み込みニューラルネットワークには、出力フィーチャの次元を削減するプーリングレイヤーが含まれています。畳み込み層のストライドを単純に増やすだけで同じことを達成できないのはなぜですか？プール層が必要な理由は何ですか？

18 deep-learning conv-neural-network pooling

3

ニューラルネットワークの象徴的な（おもちゃ）モデル

私の大学院の物理学教授は、ノーブル賞受賞者のファインマンと同様、ハーモニックオシレーター、振り子、こま、トップボックス、ブラックボックスなどの物理学の基本的な概念と方法を説明するために、常にトイモデルと呼ばれるものを提示しました。ニューラルネットワークのアプリケーションの基礎となる基本的な概念と方法を説明するために、どのおもちゃモデルが使用されていますか？（参考にしてください。）玩具モデルとは、基本的な方法を提示できる非常に制約のある問題に適用される、特にシンプルで最小サイズのネットワークを意味します。手で基本的な数学をチェックしたり、シンボリック数学アプリで支援したりします。

18 machine-learning neural-networks deep-learning

2

ディープラーニングとデシジョンツリーおよびブースティング手法

（経験的または理論的に）比較して議論する論文またはテキストを探しています。 Random ForestsやAdaBoost、およびGentleBoost などのブースティングおよび決定木アルゴリズムが決定木に適用されます。と以下のような深い学習法制限付きボルツマンマシン、階層一時記憶、畳み込みニューラルネットワークなど、より具体的には、MLメソッドのこれら2つのブロックを速度、精度、または収束の観点から議論または比較するテキストを知っている人はいますか？また、2番目のブロックのモデルまたはメソッドの違い（長所と短所など）を説明または要約するテキストを探しています。このような比較に直接対処するポインタまたは回答をいただければ幸いです。

18 machine-learning deep-learning cart rbm adaboost

2

深層学習で行検索方法が使用されていますか？何故なの？

多くのオンラインチュートリアルで勾配降下について説明し、それらのほとんどすべてで固定ステップサイズ（学習率）を使用しています。行検索（バックトラック行検索や正確な行検索など）を使用しないのはなぜですか？αα\alpha

18 machine-learning neural-networks optimization deep-learning

2

ミニバッチトレーニングニューラルネット用にランダムに描画されたトレーニングサンプルは、置換せずに描画する必要がありますか？

利用可能なすべてのトレーニングサンプル全体を通過したものとしてエポックを定義し、勾配を下げるために必要な重み/バイアスの更新を見つけるために平均するサンプル数としてミニバッチサイズを定義します。私の質問は、エポック内の各ミニバッチを生成するために、トレーニングサンプルのセットから置換せずに描画する必要があるかどうかです。エンドオブエポックの要件を満たすために実際に「すべてのサンプルを描画する」ために置換を回避する必要があると思いますが、何らかの方法で決定的な答えを見つけるのに苦労しています。私はグーグルとChを読んでみました Nielsenのニューラルネットワークとディープラーニングの1つですが、明確な答えは見つかりませんでした。そのテキストでは、ニールセンは、ランダムサンプリングが置換なしで行われることを指定していませんが、そうであることを暗示しているようです。エポックでのトレーニングの明確な形式化は、必要に応じてここで見つけることができます-https ://stats.stackexchange.com/a/141265/131630 編集：この質問は私に似ていましたが、期待の線形性がこの状況の独立性に無関心であるという事実をどのように適用するかは不明でした- サンプリングは置換の有無にかかわらず発生します

18 machine-learning neural-networks optimization deep-learning

4

ドロップアウトの正規化を簡単な用語で説明するにはどうすればよいですか？

ドロップアウトを説明する半ページがある場合、どのように進めますか？この手法の背後にある理由はどれですか？

17 neural-networks deep-learning regularization dropout

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」