タグ付けされた質問 「deep-learning」

主にディープニューラルネットワーク(つまり、2つ以上の非表示レイヤーを持つネットワーク)で行われる、データの階層表現を学習するために使用される技術に関する機械学習研究の新しい領域だけでなく、何らかの確率的グラフィカルモデルでも行われます。

5
ニューラルネットワークの「死にゆくReLU」問題とは何ですか?
視覚認識のための畳み込みニューラルネットワークに関するスタンフォードのコースノートを参照すると、次の段落が述べられています。 「残念ながら、ReLUユニットはトレーニング中に壊れやすく、「死ぬ」可能性があります。たとえば、ReLUニューロンを流れる大きな勾配により、ニューロンがデータポイントで再びアクティブにならないように重みが更新される可能性があります。つまり、ReLUユニットは、データマニホルドからノックオフされる可能性があるため、トレーニング中に不可逆的に死ぬ可能性があります。学習率の設定が高すぎると、ネットワークの%が「死んでいる」(つまり、トレーニングデータセット全体でアクティブにならないニューロン)場合があります。学習率を適切に設定すれば、これはあまり問題になりません。 ここでのニューロンの死はどういう意味ですか? 簡単な言葉で直感的な説明をお願いします。

6
GRU over LSTMを使用する場合
GRUとLSTMの主な違いは、GRUには2つのゲート(リセットおよび更新ゲート)があり、LSTMには3つのゲート(つまり、入力、出力、および忘却ゲート)があることです。 (3つのゲートがあるので)LSTMモデルを介してネットワークをより明確に制御できるのに、なぜGRUを使用するのですか?どのシナリオでGRUがLSTMよりも優先されますか?

8
学習率の選択
現在SGD、バックプロパゲーションを使用したニューラルネットの確率的勾配降下法の実装に取り​​組んでおり、その目的は理解していますが、学習率の値を選択する方法についていくつか質問があります。 学習率は、降下率を決定するため、誤差勾配の形状に関連していますか? もしそうなら、この情報をどのように使用して価値についての決定を知らせるのですか? それがどのような種類の値を選択する必要がない場合、どのように選択する必要がありますか? オーバーシュートを避けるために小さな値が必要なようですが、ローカルミニマムにとらわれたり、下降に時間がかかったりしないように、どのように選択しますか? 一定の学習率を持つことは理にかなっていますか、または勾配の最小値に近づくにつれてその値を変更するために何らかのメトリックを使用する必要がありますか? つまり、SGDの学習率を選択するにはどうすればよいですか?



5
ARIMA vs LSTMを使用した時系列予測
私が扱っている問題は、時系列値を予測することです。私は一度に1つの時系列を見ており、たとえば入力データの15%に基づいて、その将来の値を予測したいと思います。これまでのところ、2つのモデルに出くわしました。 LSTM(長期短期記憶;リカレントニューラルネットワークのクラス) 有馬 私は両方を試し、それらに関するいくつかの記事を読みました。今、私は2つを比較する方法についてより良い感覚を得ようとしています。私がこれまでに見つけたもの: LSTMは、大量のデータを処理し、十分なトレーニングデータを利用できる場合に優れていますが、ARIMAは小さなデータセットに適しています(これは正しいですか?) ARIMAでは、(p,q,d)データに基づいて計算する必要がある一連のパラメーターが必要ですが、LSTMではそのようなパラメーターを設定する必要はありません。ただし、LSTM用に調整する必要があるハイパーパラメーターがいくつかあります。 編集:ここで素晴らしい記事を読んでいる間に気づいた2つの大きな違いの1つは、ARIMAは定常時系列(季節性、傾向などがない)でのみうまく機能することであり、 ARIMAを使用したい 上記の特性以外に、最良のモデルの選択に役立つ他のポイントや事実を見つけることができませんでした。誰かが記事、論文、またはその他のものを見つけるのを手伝ってくれたら本当に感謝しています(これまでのところ運がなかった、あちこちの一般的な意見だけで、実験に基づいたものは何もありませんでした) もともとストリーミングデータを扱っていることに言及する必要がありますが、今のところ、最大サイズが20kデータポイントの50データセットを含むNABデータセットを使用しています。

2
均一な初期化で通常の初期化(HeまたはGlorot)を使用する場合 また、バッチ正規化の影響は何ですか?
Residual Network(ResNet)により、彼は通常の初期化が一般的になったことを知っていました。ResNetでは、He通常の初期化が使用されますが、最初の層はHeの初期化を使用します。 ResNetペーパーと「Delving Deep into Rectifiers」ペーパー(He初期化ペーパー)を調べましたが、通常の初期化と均一な初期化についての言及はありません。 また: バッチ正規化により、はるかに高い学習率を使用でき、初期化にあまり注意を払う必要がなくなります。 Batch Normalization論文の要約では、Batch Normalizationを使用すると、初期化にあまり注意を払わなくて済むと言われています。 ResNet自体は、通常の初期化と均一な初期化のどちらを使用するか(均一な初期化ではなく)を常に考慮しています。 そう: 均一な初期化ではなく、(HeまたはGlorot)正規分布初期化を使用する場合 バッチ正規化による正規分布初期化効果とは何ですか? 脇のメモ: Batch Normalizationで通常のinitを使用することは韻を踏んでいますが、この事実を裏付ける論文は見つかりませんでした。 Resnetは、Glorot initよりもHe initを使用することを知っていました。なぜなら、彼はinitが深いネットワークでより良い結果をもたらすからです。 Glorot init対He initについて理解しました。 私の質問は、Normal vs Uniform initについてです。

3
ディープニューラルネットでアンダーフィッティングと戦う方法
人工ニューラルネットワーク(NN)で始めたとき、私は主な問題として過剰適合と戦わなければならないと思いました。しかし実際には、NNに20%のエラー率の障壁を通過させることさえできません。ランダムフォレストでスコアを打つことさえできません! 私は、NNがデータの傾向を把握し始めるために何をすべきかについて、非常に一般的なまたはそれほど一般的でないアドバイスを求めています。 NNの実装には、MNISTデータセットの分類に優れた(エラー率5%未満)チュートリアルからのコードで Theano Stacked Auto Encoderを使用します。これは多層パーセプトロンで、上部にソフトマックス層があり、隠された各層は後でオートエンコーダーとして事前トレーニングされます(チュートリアル 8章で詳しく説明します)。最大50個の入力機能と最大10個の出力クラスがあります。NNにはシグモイドニューロンがあり、すべてのデータは[0,1]に正規化されます。さまざまな構成を試しました:隠れ層とその中のニューロンの数(100-> 100-> 100、60-> 60-> 60、60-> 30-> 15など)、異なる学習と事前訓練料金など そして、私が得ることができる最高のものは、検証セットで20%のエラー率とテストセットで40%のエラー率です。 一方、(scikit-learnから)Random Forestを使用しようとすると、検証セットで12%、テストセットで25%(!)のエラー率が簡単に得られます。 事前トレーニングを受けた私のディープNNの動作が非常に悪いのはどうしてですか?何を試せばいいですか?

3
LSTMモデルのパラメーターの数
シングルスタックLSTMにはいくつのパラメーターがありますか?パラメータの数は、必要なトレーニング例の数に下限を課し、トレーニング時間にも影響します。したがって、パラメーターの数を知ることは、LSTMを使用したモデルのトレーニングに役立ちます。

4
時系列モデルLSTMへの機能の追加
LSTMと時系列でのLSTMの使用について少し読んでおり、興味深いが同時に難しかった。私が理解するのに苦労したことの1つは、既に時系列機能のリストであるものに追加機能を追加するアプローチです。データセットが次のようになっていると仮定します。 t-3、t-2、t-1、出力 次に、出力に影響する機能があることを知っていると言いましょうが、必ずしも時系列機能であるとは限りません。外の天気を言ってみましょう。これはあなたがただ追加できるもので、LSTMは時系列の側面とそうでないものを区別することができますか?

4
すべてのトレーニングデータを含む単一の「バッチ」よりもミニバッチサイズの方が優れているのはなぜですか?
ディープラーニングモデルの場合、通常のプラクティスは、いくつかのトレーニングエポックにミニバッチ(通常は小さなバッチ、32/64)を適用することです。この理由を本当に理解することはできません。 誤解がない限り、バッチサイズとは、トレーニングの反復中にモデルから見られるトレーニングインスタンスの数です。エポックは、各トレーニングインスタンスがモデルによって認識されたときの完全なターンです。その場合、各ターンで利用可能なトレーニングインスタンスをすべてモデルに公開することで「最大バッチ」を適用するのとは対照的に、トレーニングインスタンスのほとんど意味のないサブセットを数回反復する利点を見ることができません(もちろん、想い出)。このアプローチの利点は何ですか?

3
Kerasのbatch_sizeは結果の品質に影響を与えますか?
2-3百万の記事で大きなLSTMネットワークをトレーニングしようとしていますが、メモリエラーに苦労しています(AWS EC2 g2x2largeを使用しています)。 解決策の1つはを減らすことであることがわかりましたbatch_size。ただし、このパラメーターがメモリ効率の問題にのみ関連するのか、それが結果に影響するのかはわかりません。実際のところ、batch_size例で使用されているのは通常2のべき乗であることに気づきましたが、どちらもわかりません。 ネットワークのトレーニングに時間がかかるかどうかは気にしませんが、これを減らすbatch_sizeと予測の品質が低下するかどうかを知りたいです。 ありがとう。

3
「翻訳と等価」と「翻訳と不変」の違いは何ですか
翻訳と同変と翻訳と不変の違いを理解するのに苦労しています。 深層学習の本。MIT Press、2016(I. Goodfellow、A。Courville、およびY. Bengio)、畳み込みネットワークで見つけることができます: [...]パラメータ共有の特定の形態は、というプロパティ持っている層を引き起こしequivariance翻訳への [...]プーリングは、入力の小さな変換に対して表現をほぼ不変にするのに役立ちます それらの間に違いはありますか、または用語は互換的に使用されていますか?


6
クロスエントロピー損失の説明
分類用のNNを作成するとします。最後のレイヤーは、ソフトマックスアクティベーションを使用した高密度レイヤーです。分類するクラスは5つあります。単一のトレーニングの例でtrue labelは[1 0 0 0 0]、予測はであると仮定します[0.1 0.5 0.1 0.1 0.2]。この例のクロスエントロピー損失はどのように計算しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.