統計とビッグデータ deep-learning

1

Carl DoerschによるVariational Autoencodersに関するこのチュートリアルを勉強しています。2ページ目には、次のように記載されています。このようなフレームワークの中で最も人気のあるものの1つは、このチュートリアルの主題であるVariational Autoencoder [1、3]です。このモデルの前提条件は弱く、逆伝播によるトレーニングは高速です。VAEは概算を行いますが、この概算によって導入されるエラーは、大容量モデルを考えると間違いなく小さいものです。これらの特徴は人気の急速な上昇に貢献しています。私は過去に、大容量モデルに関するこの種の主張を読みましたが、それについて明確な定義を見つけられないようです。私はこの関連するスタックオーバーフローの質問も見つけましたが、私にとっては答えは非常に満足できません。モデルの容量の定義はありますか？測定できますか？

15 machine-learning deep-learning autoencoders variational-bayes

2

Adam Optimizerを使用したトレーニング損失と反復のスパイクの説明

私はi）SGDとii）Adam Optimizerを使用してニューラルネットワークをトレーニングしています。通常のSGDを使用すると、下に示すように（赤い曲線）、スムーズなトレーニングロス対反復曲線が得られます。ただし、Adam Optimizerを使用した場合、トレーニング損失曲線にはいくつかのスパイクがあります。これらのスパイクの説明は何ですか？モデルの詳細： 14入力ノード-> 2非表示レイヤー（100-> 40ユニット）-> 4出力ユニット私はアダムのためのデフォルトパラメータを使用していますbeta_1 = 0.9、beta_2 = 0.999、epsilon = 1e-8とbatch_size = 32。 i）SGDを使用 ii）Adamを使用

15 neural-networks deep-learning adam

1

ニューラルネットワーク以外のものに対して、適切な勾配に非一定の学習率を使用しないのはなぜですか？

ディープラーニングの文献には、勾配降下で非一定の学習率を使用する巧妙なトリックがたくさんあります。指数関数的減衰、RMSprop、Adagradなどのようなものは実装が簡単で、すべてのディープラーニングパッケージで利用できますが、ニューラルネットワークの外部には存在しないようです。これには理由がありますか？人々が単に気にしないということであれば、ニューラルネットワークの外で気にしなければならない理由はありますか？

14 machine-learning deep-learning optimization gradient-descent

3

ディープニューラルネットワーク—画像分類専用ですか？

深い信念または畳み込みニューラルネットワークを使用して見つけたすべての例は、画像分類、チャットの検出、または音声認識にそれらを使用します。ディープニューラルネットワークは、特徴が構造化されていない（たとえば、シーケンスまたはグリッドに配置されていない）古典的な回帰タスクにも役立ちますか？はいの場合、例を挙げることができますか？

14 regression machine-learning neural-networks deep-learning

1

スタックオートエンコーダーと2層ニューラルネットワークのトレーニングに違いはありますか？

2層スタックオートエンコーダと2層ニューラルネットワークを構築するためのアルゴリズムを書いているとしましょう。それらは同じものですか、違いですか？私が理解しているのは、スタックされたオートエンコーダーを構築するとき、レイヤーごとに構築するということです。ニューラルネットワークの場合、ネットワーク内のすべてのパラメーターを初期化し、各データポイントに対してネットワークを通過させて損失（例：真正距離）を計算し、逆伝播を行います。

14 neural-networks deep-learning autoencoders

4

たたみ込みニューラルネットワークにはどのくらいのデータが必要ですか？

約1,000,000個のパラメーターを持つたたみ込みニューラルネットワーク（CNN）がある場合、いくつのトレーニングデータが必要ですか（確率的勾配降下を行っていると仮定します）？経験則はありますか？追記事項：確率的勾配降下（たとえば、1回の反復で64個のパッチ）を実行した場合、〜10000回の反復の後、分類器の精度は大まかな定常値に達することがあります）。これは、多くのデータが必要ないという意味ですか？100k-1000kデータのように。

14 machine-learning neural-networks deep-learning conv-neural-network

2

2Dでの空間ドロップアウトの実装方法

これは、「畳み込みネットワークを使用した効率的なオブジェクトのローカリゼーション」という論文を参照しており、ドロップアウトは2Dで実装されていると理解しています。空間2Dドロップアウトの実装方法に関するコードをKerasから読んだ後、基本的に形状[batch_size、1、1、num_channels]のランダムバイナリマスクが実装されます。しかし、この空間2Dドロップアウトは、形状[batch_size、height、width、num_channels]の入力コンボリューションブロックに対して正確に何をしますか？私の現在の推測では、ピクセルのレイヤー/チャンネルのいずれかが負の値を持っている場合、そのピクセルのチャンネル全体がデフォルトでゼロになります。これは正しいです？しかし、私の推測が正しい場合、元の入力ブロックの次元に正確にある形状[batch_size、height、width、num_channels]のバイナリマスクを使用すると、通常の要素ごとのドロップアウトが得られます（これはバイナリマスクの形状を入力の形状として設定するtensorflowの元のドロップアウト実装）convブロックのピクセルが負の場合、convブロック全体がデフォルトで0になります。これは、私がよく理解していない紛らわしい部分です。

14 machine-learning deep-learning tensorflow dropout

3

ニューラルネットワークに特徴選択/エンジニアリングが必要なのはなぜですか？

特にkaggleコンペティションのコンテキストでは、モデルのパフォーマンスはすべて機能の選択とエンジニアリングに関するものであることに気付きました。従来の/古い学校のMLアルゴリズムを処理する場合にそうなる理由は十分に理解できますが、ディープニューラルネットワークを使用する場合にそうなる理由はわかりません。深層学習の本の引用：ディープラーニングは、他のより単純な表現で表現される表現を導入することにより、表現学習におけるこの中心的な問題を解決します。深層学習により、コンピューターはより単純な概念から複雑な概念を構築できます。したがって、「情報がデータ内にある」場合、十分に深く、十分にパラメーター化されたニューラルネットワークは、十分なトレーニング時間が与えられた場合に適切な機能を取得すると常に考えていました。

14 neural-networks deep-learning feature-selection feature-engineering

2

ベイジアンディープラーニングとは何ですか？

ベイジアンディープラーニングとは何ですか？また、従来のベイジアン統計および従来のディープラーニングとどのように関連していますか？関係する主な概念と数学は何ですか？それは単なるノンパラメトリックベイジアン統計と言えますか？現在の主要な開発およびアプリケーションと同様に、その独創的な作品は何ですか？ PS：Bayesian Deep Learningは大きな注目を集めています。NIPSワークショップをご覧ください。

13 bayesian deep-learning

1

深層強化学習が不安定なのはなぜですか？

DeepMindの深層強化学習に関する2015年の論文では、「RLをニューラルネットワークと組み合わせる以前の試みは、学習が不安定であったために大部分失敗しました」と述べています。次に、この論文では、観測全体の相関に基づいて、この原因の一部をリストしています。誰かがこれが何を意味するのか説明してもらえますか？ニューラルネットワークは、トレーニングには存在するがテストには存在しない可能性のある構造を学習する、過剰適合の形式ですか？それとも別の意味ですか？論文は次の場所にあります：http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html そして、私が理解しようとしているセクションは次のとおりです。強化学習は、ニューラルネットワークなどの非線形関数近似器を使用してアクション値（Qとも呼ばれる）関数を表す場合、不安定であるか、発散することさえ知られています。この不安定性にはいくつかの原因があります。一連の観測に存在する相関関係、Qの小さな更新がポリシーを大幅に変更し、それによってデータ分布を変更する可能性、およびアクション値とターゲット値の相関関係。これらの不安定性に対処するには、2つの重要なアイデアを使用するQラーニングの新しいバリアントを使用します。最初に、データをランダム化するエクスペリエンスリプレイと呼ばれる生物学的にヒントを得たメカニズムを使用して、観測シーケンスの相関を削除し、データ分布の変化を平滑化しました。第二に、定期的にのみ更新されるターゲット値に向かってアクション値（Q）を調整する反復更新を使用し、それによりターゲットとの相関を減らしました。

13 machine-learning neural-networks deep-learning reinforcement-learning

2

ニューラルネットワークが簡単にだまされるのはなぜですか？

ニューラルネットワークを「だます」ために手動で画像を作成することに関するいくつかの論文を読みました（以下を参照）。これは、ネットワークが条件付き確率のみをモデル化するためですか？ネットワークが結合確率p （y 、x ）をモデル化できる場合、そのようなケースは引き続き発生しますか？p （y| x）p（y|バツ）p(y|x)p （y、x ）p（y、バツ）p(y,x) 私の推測では、そのような人為的に生成された画像はトレーニングデータとは異なるため、確率が低くなります。したがって、p （y | x ）がそのような画像に対して高くても、p （y 、x ）は低くなければなりません。p （x ）p（バツ）p(x)p （y、x ）p（y、バツ）p(y,x)p （y| x）p（y|バツ）p(y|x) 更新私はいくつかの生成モデルを試してみましたが、役に立たないことが判明したので、おそらくこれはMLEの結果でしょうか？私はKL発散は、損失関数の値として使用した場合の平均ここで、P D A T A（X ）損失に影響を与えない小さいです。だから、一致していない不自然な画像のためのpをD A T Aの値のp θは任意とすることができます。pθ（x ）pθ（バツ）p_{\theta}(x)pdトンのA（x ）pdata（バツ）p_{data}(x)pdトンのApdatap_{data}pθpθp_{\theta} 更新 Andrej Karpathyによるブログを見つけました。これらの結果は画像、ConvNetsに固有のものではなく、ディープラーニングの「欠陥」でもありません。 ADVERSARIALの例の説明と活用ディープニューラルネットワークは簡単にだまされます：認識できない画像の高信頼性予測

13 machine-learning neural-networks deep-learning

1

ディープラーニングメソッドで「エンドツーエンド」とはどういう意味ですか？

私はそれが何であり、アンサンブルとどのように違うのか知りたいですか？ CNN、RNNなどの異なるネットワークを使用してこれを達成する場合、特定のタスクに対して分類とセグメンテーションの高い精度を達成したいとしますが、これはエンドツーエンドモデルと呼ばれますか？（アーキテクチャ？）

13 machine-learning terminology deep-learning

1

深い畳み込みニューラルネットワークに役立つデータ増強技術とは何ですか？

背景：最近、Geoffrey Hintonによるこの素晴らしい講演を見た後、畳み込みニューラルネットワークをトレーニングする際のデータ増強の重要性をより深いレベルで理解しました。彼は、現在の世代の畳み込みニューラルネットワークは、テスト中のオブジェクトの参照フレームを一般化できないため、ネットワークがオブジェクトの鏡像が同じであることを真に理解することを難しくしていると説明します。いくつかの研究はこれを改善しようとしています。これは多くの例の1つです。これは、畳み込みニューラルネットワークをトレーニングする際に、今日の重要なデータ増大がどれほど重要かを確立するのに役立つと思います。データ増大技術が互いにベンチマークされることはめったにありません。したがって：質問：開業医が非常に優れたパフォーマンスを報告した論文は何ですか？あなたが有用だと感じたデータ増強技術は何ですか？

13 machine-learning deep-learning

1

小さいデータセットでのLSTMの過剰適合の防止

80次元のword2vecのような表現を使用して、128の隠れユニットを持つ単一レイヤーLSTMを使用して、感情予測のために15000のツイートをモデリングしています。1エポック後に降下精度（ランダム= 20％で38％）を取得します。トレーニングを増やすと、トレーニングの精度が上昇し始めると検証の精度が低下し始めます。これは、過剰適合の明確な兆候です。したがって、正則化を行う方法を考えています。隠れユニットの数を減らしたくない（128はもう少し低いようだ）。現在、50％の確率でドロップアウトを使用していますが、これはおそらく増加する可能性があります。オプティマイザーは、Kerasのデフォルトパラメーター（http://keras.io/optimizers/#adam）を持つAdamです。データセットでこのモデルの過剰適合を減らす効果的な方法は何ですか？

13 deep-learning regularization overfitting lstm

1

ディープネットワークのLSTMレイヤーをトレーニングする方法

テキストを分類するために、lstmおよびフィードフォワードネットワークを使用しています。テキストをワンホットベクトルに変換し、それぞれをlstmにフィードして、単一の表現として要約できるようにします。次に、他のネットワークにフィードします。しかし、LSTMをトレーニングするにはどうすればよいですか？テキストを順番に分類したいだけです。トレーニングせずにフィードする必要がありますか？分類子の入力レイヤーにフィードできる単一のアイテムとしてパッセージを表したいだけです。これに関するアドバイスをいただければ幸いです！更新： lstmと分類子があります。lstmのすべての出力を取得し、それらを平均プールしてから、その平均値を分類器に送ります。私の問題は、lstmまたは分類子をトレーニングする方法がわからないことです。入力がlstmに対して何であり、分類器の出力がその入力に対して何であるかを知っています。これらは順番にアクティブ化される2つの独立したネットワークであるため、lstmの理想的な出力が何であるかを知る必要があります。これは分類子の入力にもなります。これを行う方法はありますか？

13 classification neural-networks deep-learning lstm

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」