タグ付けされた質問 「deep-learning」

主にディープニューラルネットワークで行われる、データの階層表現の学習に関係する機械学習の領域。


1
修正された線形単位が非線形と見なされるのはなぜですか?
なぜ整流線形ユニット(ReLU)の活性化関数は非線形と見なされますか? f(x)=max(0,x)f(x)=max(0,x) f(x) = \max(0,x) 入力が正の場合は線形であり、深いネットワークの代表的な力を解き放つための私の理解からは、非線形活性化が必須です。そうでなければ、ネットワーク全体を単一のレイヤーで表すことができます。

1
変分オートエンコーダーとは何ですか?また、どの学習タスクに使用されますか?
ごとに 、このと、この答えは、オートエンコーダは、次元削減のためのニューラルネットワークを使用する技術であるように見えます。さらに、変分オートエンコーダー(「従来の」オートエンコーダーとの主な違い/利点)、およびこれらのアルゴリズムが使用される主な学習タスクも知りたいと思います。

3
Adam Optimizerがそのハイパーパラメーターの値に対して堅牢であると考えられる理由は何ですか?
私はディープラーニング用のAdamオプティマイザーについて読んでいて、Bengio、Goodfellow、Courvilleの新しい本Deep Learningで次の文章を見つけました。 Adamは通常、ハイパーパラメーターの選択に対してかなり堅牢であると見なされていますが、学習率を推奨されるデフォルトから変更する必要がある場合があります。 ディープラーニングシステムの統計的パフォーマンスにおいて(少なくとも私の経験では)ハイパーパラメーター検索が非常に重要になる可能性があるため、これが事実であれば大したことです。したがって、私の質問は、なぜそのような重要なパラメーターに対してアダムがロバストなのですか?特別および?β1β1\beta_1β2β2\beta_2 私はAdamの論文を読みましたが、なぜそれらのパラメーターで機能するのか、なぜ堅牢なのかについては説明していません。彼らは他の場所でそれを正当化しますか? 私は紙を読んでも、ために、彼らは非常に小さくしようとしたハイパーパラメータの数、ということらしいわずか2とするためにβ 2、それが唯一の2x3のハイパーパラメータで動作している場合にのみ3.どのようにこれは徹底的に実証研究することができ?β1β1\beta_1β2β2\beta_2

2
Krizhevskyの'12 CNNは、最初のレイヤーで253,440個のニューロンをどのように取得しますか?
でアレックスKrizhevskyら。深い畳み込みニューラルネットワークを使用したImagenet分類では、各層のニューロン数が列挙されます(下図を参照)。 ネットワークの入力は150,528次元で、ネットワークの残りの層のニューロンの数は253,440–186,624–64,896–64,896–43,264– 4096–4096–1000で与えられます。 3Dビュー 最初のレイヤー以降のすべてのレイヤーのニューロンの数は明らかです。ニューロンを計算する1つの簡単な方法は、そのレイヤーの3つの次元を単純に乗算することです(planes X width X height): レイヤー2: 27x27x128 * 2 = 186,624 レイヤー3: 13x13x192 * 2 = 64,896 等 ただし、最初のレイヤーを見ると: レイヤー1: 55x55x48 * 2 = 290400 これは論文で指定されているものではない ことに注意してください253,440! 出力サイズの計算 畳み込みの出力テンソルを計算する他の方法は次のとおりです。 入力画像が3DテンソルのnInputPlane x height x width場合、出力画像のサイズは次のようnOutputPlane x owidth x oheightになります owidth = (width - kW) / dW + …

2
フィルター行列の要素を初期化する方法は?
ライブラリ(ConvnetやTensorFlowなど)に依存しないPythonコードを作成することで、畳み込みニューラルネットワークをよりよく理解しようとしていますが、カーネルマトリックスの値を選択する方法に関する文献にこだわっています。画像の畳み込みを実行します。 CNNのレイヤーを示す以下の画像の機能マップ間のステップで、実装の詳細を理解しようとしています。 この図によると: カーネルマトリックスカーネルは画像上で「ステップ」し、特徴マップを作成します。各ピクセルは、カーネル(またはフィルターマトリックス)の各重みと入力画像の対応するピクセル値の間のすべての要素ごとの積の合計です。 私の質問は、カーネル(またはフィルター)行列の重みをどのように初期化するのですか? 上記のデモンストレーションでは、これらは1と0にすぎませんが、これは図のために単純化されていると思います。 これらの重みは、何らかの前処理ステップでトレーニングされていますか?または、ユーザーが明示的に選択しましたか?

3
スタック型畳み込みオートエンコーダのアーキテクチャは何ですか?
だから私は畳み込みネットを使って人間の画像の事前訓練をしようとしています。論文(Paper1とPaper2)とこのstackoverflowリンクを読みましたが、ネットの構造を理解しているかどうかはわかりません(論文で明確に定義されていません)。 質問: 入力に続いてノイズレイヤー、コンバーレイヤー、プーリングレイヤーの順に入力することができます-その後-出力を与える前にプールを解除します(これは入力イメージと同じです)? 複数(135,240)の画像があるとします。32(12,21)カーネルを使用し、続いて(2,2)プーリングを使用すると、32(62、110)の機能マップになります。ここで、プールを解除して32(124、220)の機能マップを取得し、それらをフラット化しますか?(135,240)出力レイヤーを与える前に? 複数のこのようなコンボプールレイヤーがある場合、スタックされたノイズ除去オートエンコーダーのように、それらを1つずつトレーニングする必要がありますか?または-input-conv-pool-conv-pool-conv-pool-output(出力は入力と同じです)のようなものを持つことができますか?その場合、プーリング、デプールはどのように管理されるべきですか?出力前に最後のプール層でのみプール解除する必要がありますか?そして再び-そのプール解除のサイズ変更要因は何でしょうか?機能マップを入力の形状に戻すつもりですか? conv-pool-depoolレイヤーごとにノイズレイヤーを導入する必要がありますか? そして、微調整するとき-デプール層を削除し、残りは同じままにする必要がありますか?または、ノイズ層とプール解除層の両方を削除する必要があります 画像の事前トレーニングを行うために、このようなスタック型畳み込み自動エンコーダーのアーキテクチャを詳しく説明したURL /ペーパーを教えてください。

1
アテンションメカニズムとは何ですか?
ここ数年、さまざまなディープラーニングの論文で注意メカニズムが使用されてきました。Open AIの研究責任者であるIlya Sutskever氏は、熱心に称賛しています:https ://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 パデュー大学のEugenio Culurcielloは、純粋に注意ベースのニューラルネットワークを優先して、RNNとLSTMを放棄すべきだと主張しています。 https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 これは誇張のように見えますが、純粋に注意に基づくモデルがシーケンスモデリングタスクで非常にうまく機能していることは否定できません。 ただし、注意ベースのモデルとは正確には何ですか?そのようなモデルの明確な説明をまだ見つけていません。履歴値を与えられた多変量時系列の新しい値を予測したいとします。LSTMセルを持つRNNでそれを行う方法は非常に明確です。アテンションベースのモデルで同じことをどのように行うのでしょうか?



3
画像形式(png、jpg、gif)は、画像認識ニューラルネットのトレーニング方法に影響しますか?
深い畳み込みニューラルネットでは、画像認識、画像分類などに関して多くの進歩があったことを認識しています。 しかし、たとえばPNG画像でネットをトレーニングすると、そのようにエンコードされた画像でのみ機能しますか?これに影響する他の画像プロパティは何ですか?(アルファチャンネル、インターレース、解像度など?)

4
ディープラーニングモデルの場合、softmax出力が不確実性の指標として適切ではないのはなぜですか?
私は現在、主にセマンティックセグメンテーション/インスタンスセグメンテーションの画像データで、畳み込みニューラルネットワーク(CNN)を使用しています。ネットワーク出力のソフトマックスを「ヒートマップ」として頻繁に視覚化して、特定のクラスのピクセルごとのアクティベーションの高さを確認しました。低活性化は「不確実」/「自信がない」と解釈し、高活​​性化は「特定」/「自信がある」予測と解釈しました。基本的に、これは、softmax出力(内の値)をモデルの確率または(不)確実性尺度として解釈することを意味します。(0,1)(0,1)(0,1) (たとえば、ピクセル全体で平均された低いソフトマックスアクティベーションを持つオブジェクト/エリアは、CNNが検出するのが難しいと解釈したため、CNNはこの種のオブジェクトの予測について「不確か」です。) 私の認識では、これはよく機能し、トレーニング結果に「不確実な」領域のサンプルを追加すると、これらの結果が改善されました。しかし、ソフトマックスの出力を(不)確実性の尺度として使用/解釈するのは良い考えではなく、一般的にはお勧めできないと、さまざまな側面からよく耳にします。どうして? 編集:ここで私が尋ねていることを明確にするために、この質問に答える際のこれまでの洞察について詳しく説明します。しかし、同僚、監督者から繰り返し言われたように、なぜそれが一般的に悪い考えであるのか、以下の議論のどれも私に明らかにしませんでした。 分類モデルでは、パイプラインの最後に取得された確率ベクトル(softmax出力)は、モデルの信頼度として誤って解釈されることがよくあります。 またはここの「背景」セクションで: たたみ込みニューラルネットワークの最終ソフトマックスレイヤーによって与えられた値を信頼スコアとして解釈するのは魅力的かもしれませんが、これを読みすぎないように注意する必要があります。 上記の原因は、ソフトマックス出力を不確実性の尺度として使用するのが悪い理由です。 実画像に対する知覚できない摂動は、深いネットワークのソフトマックス出力を任意の値に変更する可能性があります これは、softmax出力が「知覚できない摂動」に対してロバストではないことを意味します。したがって、その出力は確率として使用できません。 別の論文では、「softmax output = Confidence」という考え方が取り上げられており、この直観ではネットワークは簡単にだまされる可能性があり、「認識できない画像に対する信頼性の高い出力」が得られると主張しています。 (...)特定のクラスに対応する(入力ドメイン内の)領域は、そのクラスのトレーニングサンプルが占めるその領域のスペースよりもはるかに大きい場合があります。この結果、画像はクラスに割り当てられた領域内にあるため、softmax出力の大きなピークで分類されますが、トレーニングセットのそのクラスで自然に発生する画像からは遠くなります。 これは、トレーニングデータから遠く離れたデータは、モデルが(それを見たことがないので)確信できないため、高い信頼を得ることはないことを意味します。 ただし、これは一般的に、NN全体の一般化特性を単純に疑問視しているのではありませんか?すなわち、ソフトマックス損失を伴うNNは、(1)「知覚できない摂動」または(2)認識できない画像などのトレーニングデータから遠く離れた入力データサンプルにうまく一般化しないということです。 この推論に続いて、私はまだ理解していません、なぜ実際にトレーニングデータ(すなわち、ほとんどの「実際の」アプリケーション)に対して抽象的および人為的に変更されていないデータで、ソフトマックス出力を「疑似確率」として解釈するのが悪いのか考え。結局のところ、彼らは私のモデルが正しいとは限らない場合でも、そのモデルが確信していることをよく表しているようです(この場合、モデルを修正する必要があります)。そして、モデルの不確実性は常に「単なる」近似ではありませんか?

2
制限付きボルツマンマシン:機械学習でどのように使用されますか?
バックグラウンド: はい、制限付きボルツマンマシン(RBM)を使用して、ニューラルネットワークの重みを開始できます。また、深い信念ネットワークを構築するための「層ごとの」方法で使用することができる訓練すること、である(の上に番目の層(N - 1 )、次いで番目の層、及び訓練しますの上に層目番目の層、リンスを繰り返し...) nnn(n − 1 )(n−1)(n-1)n + 1n+1n+1nnn。 RBMの使用方法については、制限付きボルツマンマシン(RBM)の優れたチュートリアルのスレッドから詳細を見つける ことができます。ここでは、いくつかの論文やチュートリアルを見つけることができます。 私の質問は次のとおりです。 RBMは産業プロジェクトまたは学術プロジェクトで実際に使用されていますか はいの場合、どのプロジェクトがどのように使用されていますか? 人気のあるライブラリ(tensorflow、Caffe、Theonoなど)はRBMモジュールを提供しますか? 共有してくれてありがとう。RBMが実際に本当に役立つかどうか知りたいです。

2
ニューラルネットワークの強化
つい最近、私はアダブースト、勾配ブーストなどのブースティングアルゴリズムの学習に取り組んでおり、最も一般的に使用される弱学習器はツリーであるという事実を知っています。基本学習者としてニューラルネットワークを使用するための最近の成功例(論文または記事を意味します)があることを本当に知りたいです。

2
ニューラルネットワークでボトルネックアーキテクチャはどのように機能しますか?
ボトルネックアーキテクチャは、[2つの3x3 convレイヤー]が[1x1 conv、1つの3x3 conv、および1x1 convレイヤー]に置き換えられたResNet論文で見つかったタイプとして定義されます。 1x1のconvレイヤーは、次元削減(および復元)の形式として使用されることを理解しています。これについては、別の投稿で説明しています。ただし、この構造が元のレイアウトと同じくらい効果的である理由についてはわかりません。 いくつかの良い説明が含まれる場合があります:どのストライド長が使用され、どのレイヤーで?各モジュールの入力および出力の寸法の例は何ですか?上記の図で56x56の機能マップはどのように表されますか?64-dはフィルターの数を指しますが、なぜこれが256-dフィルターと異なるのですか?各レイヤーで使用されるウェイトまたはフロップの数は? どんな議論も大歓迎です!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.