タグ付けされた質問 「deep-learning」

主にディープニューラルネットワークで行われる、データの階層表現の学習に関係する機械学習の領域。

2
フィルターとアクティベーションマップは、畳み込みニューラルネットワークでどのように接続されますか?
特定のレイヤーのアクティベーションマップは、そのレイヤーのフィルターにどのように接続されていますか?フィルターとアクティベーションマップの間でたたみ込み演算を行う方法については質問していません。これら2つが持つ接続の種類について質問しています。 たとえば、完全な接続を実行したいとします。特定のレイヤーにf個のフィルターとn個のアクティベーションマップがあります。次のレイヤーでf * n個のアクティベーションマップを取得すると、新しいレイヤーごとにアクティベーションマップの数が増加します。これは、私が想定している方法です。 または、各フィルターが1つのアクティベーションマップのみに接続されていると言うこともできます。この場合、フィルターの数はアクティベーションマップの数と等しくなり、すべてのレイヤーは同じ数のフィルターとアクティベーションマップを持ちます。これは私のネットワークの現在のアーキテクチャであり、うまく学習しているようです。 私の混乱の主な原因は、私がオンラインで見るconvnetsの図を見ていることです。それらのいくつかは、次のように、フィルターとアクティブ化マップの間に「完全な接続」 を持っています- 最初のレイヤーには、4つのアクティブ化マップと、おそらく2つのフィルターがあります。各マップは各フィルターで畳み込まれ、次のレイヤーに8つのマップが作成されます。素晴らしく見える。 しかし、ここには私には意味をなさないアーキテクチャがあります- 最初のレイヤーの6つのマップから2番目のレイヤーの16のマップにどのように進むのですか?6枚から16枚の地図を取得する方法は考えられますが、意味がありません。

3
畳み込みニューラルネットワークの最終Softmax層の前の非線形性
私は畳み込みニューラルネットワークを調査して実装しようとしていますが、この質問は一般に多層パーセプトロンに当てはまると思います。 ネットワークの出力ニューロンは、各クラスのアクティブ化を表しています。最もアクティブなニューロンは、特定の入力の予測クラスに対応しています。トレーニングのクロスエントロピーコストを検討するために、各ニューロンの活性化値が確率値として解釈されるように、ネットワークの最後にsoftmaxレイヤーを追加しています。 私の質問は、出力層のニューロンが非線形関数を入力に適用する必要がありますか?私の直感はそれが必要ではないということです: 入力場合番目の出力ニューロンはドット積であるX T θ IベクトルとX(前のレイヤからの)と重みがθ Iをそのニューロンため、iiixTθixTθix^T\theta_ixxxθiθi\theta_i シグモイドやReLUのような単調な非線形関数を使用する場合 次いで、より大きな活性化出力は、依然として最大に対応するように非線形関数が予測を変更しないであろうこのような観点から、。xTθixTθix^T\theta_i この解釈に何か問題がありますか?出力の非線形性を必要とする、見落としているいくつかのトレーニング要素はありますか? max(0,xTθi)max(0,xTθi)\max(0,x^T\theta_i) 編集 答えが基本的に「依存する」であったカレルの答えを参照して、ここに私のネットワークと疑問のより詳細な説明があります: N個の非表示レイヤーがあり、出力レイヤーがクラスを表すニューロンのセットの単なるソフトマックスレイヤーであるとします(したがって、期待される出力は、入力データが各クラスに属する確率です)。最初のN-1層に非線形ニューロンがあると仮定すると、N番目の隠れ層で非線形ニューロンと線形ニューロンを使用することの違いは何ですか?

1
オートエンコーダーでReLUをアクティベーション機能として使用できますか?
ニューラルネットワークでオートエンコーダを実装する場合、ほとんどの人はシグモイドをアクティベーション関数として使用します。 代わりにReLUを使用できますか?(ReLUには上限に制限がないため、基本的に、シグモイドが使用されるときの自動エンコーダーの制限された基準とは異なり、入力画像は1より大きいピクセルを持つことができます)。


4
なぜハイパーパラメータを学習しないのですか?
私はかなり人気のある論文「説明と悪用の例の説明」を実装していました。この論文では、それは敵対的な目的関数をトレーニングします J ''(θ)=αJ(θ)+(1 −α)J '(θ) αをハイパーパラメータとして扱います。αは0.1、0.2、0.3などにすることができます。 この特定の論文に関係なく、疑問に思っているのですが、パラメーターにαを含めて、最良のαを学習しませんか? そうすることの欠点は何ですか?オーバーフィットのせいですか?もしそうなら、なぜもう1つのパラメータを学習するだけで多くの過剰適合が生じるのですか?


1
深い生成モデルのVAEと確率的バックプロパゲーションの違いは何ですか?
ディープ生成モデルの自動エンコード変分ベイズと確率的バックプロパゲーションの違いは何ですか?両方の方法での推論は同じ結果につながりますか?著者の両方のグループが互いに引用しているにもかかわらず、2つの方法の明確な比較については知りません。

1
seq2seq RNNモデルをスコアリングするには、どの損失関数を使用する必要がありますか?
私は、seq2seqモデリング用のエンコーダー/デコーダーアーキテクチャーを紹介したCho 2014の論文を研究しています。 この論文では、長さ入力と長さ出力の損失関数として、与えられた入力(または負の対数尤度)の確率を使用しているようです。xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) P(y_2 | y_1, x_1, …, x_m) \dots P(y_N | y_1, …, y_N-1, x_1, …, x_m) ただし、これを損失関数として使用することにはいくつか問題があると思います。 トレーニング中に教師が強制することを想定しているようです(つまり、次の反復への入力として位置のデコーダーの推測を使用する代わりに、既知のトークンを使用します。 長いシーケンスにペナルティを課しません。確率は出力のからであるため、デコーダーがより長いシーケンスを生成した場合、最初の後のすべてが損失に影響しません。111NNNNNN モデルが初期の文字列の終わりトークンを予測する場合でも、損失関数はステップを要求します。つまり、モデルのトレーニングされていない「多様体」に基づいて出力を生成しています。それはだらしないようです。NNN これらの懸念のいずれかは有効ですか?もしそうなら、より高度な損失関数への進展はありましたか?



1
CNNの畳み込み演算子の数を決定する方法は?
オブジェクト分類などのコンピュータービジョンタスクでは、畳み込みニューラルネットワーク(CNN)を使用して、ネットワークが魅力的なパフォーマンスを提供します。しかし、畳み込みレイヤーでパラメーターを設定する方法がわかりません。たとえば、グレースケール画像(480x480)では、最初のたたみ込み層はのようなたたみ込み演算子を使用できます11x11x10。ここで、10はたたみ込み演算子の数を意味します。 問題は、CNNの畳み込み演算子の数をどのように決定するかです。

4
ニューラルネットワークとディープラーニングの違い
ニューラルネットワークとディープラーニングの違いに関しては、より多くのレイヤーが含まれている、大規模なデータセット、強力なコンピューターハードウェアなど、複雑なモデルのトレーニングを可能にするいくつかの項目をリストできます。 これらに加えて、NNとDLの違いに関する詳細な説明はありますか?

3
ニューラルネットワークをトレーニングして特定のスタイルで絵を描くことはできますか?
特定のスタイルで絵を描くようにニューラルネットワークをトレーニングすることは可能ですか?(つまり、画像を取得し、トレーニングされたスタイルで再描画します。) そのようなことについて承認された技術はありますか?DeepArtアルゴリズムについて知っています。メイン画像を特定のパターン(たとえば、vangoghify画像)で塗りつぶすのは良いことですが、たとえば、入力されたポートレートから特定のスタイルで漫画を作成するなど、別のものを探しています。

2
WaveNetは拡張された畳み込みではありませんか?
最近のWaveNetの論文では、著者はモデルを拡張された畳み込みの層が積み重なっていると言及しています。彼らはまた、「通常の」畳み込みと拡張された畳み込みの違いを説明する次のチャートを作成します。 通常の畳み込みは次のようになります。 これは、フィルターサイズが2でストライドが1の畳み込みで、4層で繰り返されます。 次に、モデルで使用されるアーキテクチャを示します。これは、拡張畳み込みと呼ばれます。こんな感じです。 彼らは、各層の膨張が(1、2、4、8)増加していると言います。しかし、私にとってこれは、フィルターサイズが2でストライドが2の通常の畳み込みのように見え、4つのレイヤーで繰り返されます。 私が理解しているように、フィルターサイズが2、ストライドが1、拡張が(1、2、4、8)の拡張畳み込みは次のようになります。 WaveNetダイアグラムでは、どのフィルターも使用可能な入力をスキップしません。穴はありません。私の図では、各フィルターは(d-1)の利用可能な入力をスキップします。これは、拡張が機能しないことになっていますか? だから私の質問は、次の命題のどれが(もしあれば)正しいですか? 拡張された畳み込みや定期的な畳み込みが理解できません。 Deepmindは実際には拡張された畳み込みを実装していませんが、ストライドされた畳み込みを実装していましたが、拡張という単語を誤用していました。 Deepmindは拡張された畳み込みを実装しましたが、チャートを正しく実装しませんでした。 TensorFlowコードを十分に理解していないため、コードが正確に何をしているのかを理解できませんが、この質問に答えられるコードが含まれているStack Exchangeに関連する質問を投稿しました。

2
より高速なRCNNのアンカー
Faster RCNNの論文で、アンカーについて話しているとき、「参照ボックスのピラミッド」を使用することは何を意味し、これはどのように行われますか?これは、W * H * kの各アンカーポイントで境界ボックスが生成されることを意味するだけですか? ここで、W =幅、H =高さ、およびk =アスペクト比の数*スケールの数 紙へのリンク:https : //arxiv.org/abs/1506.01497

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.