統計とビッグデータ neural-networks

3

バックプロパゲーションでトレーニングされたニューラルネットワークにsoftmaxレイヤーを追加しようとしているので、その勾配を計算しようとしています。出力はで、は出力ニューロン数です。hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj それを導き出せば ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) ロジスティック回帰に似ています。しかし、数値勾配チェックが失敗するため、これは間違っています。何が間違っていますか？クロス導関数も計算する必要があると思っていました（つまり）が、これを実行して勾配の次元を維持する方法がわかりません同じように、逆伝播プロセスに適合します。∂hj∂zk∂hj∂zk\frac{\partial{h_j}}{\partial{z_k}}

43 neural-networks

2

ニューラルネットワークのmaxoutとは何ですか？

ニューラルネットワークのmaxoutユニットが何をするのか説明できますか？彼らはどのように機能し、従来のユニットとどのように違いますか？ Goodfellow らによる 2013年の「Maxout Network」ペーパーを読みました。（ヨシュアベンジオ教授のグループから）、しかし、私はそれをよく理解していません。

42 machine-learning neural-networks

1

ニューラルネットワーク：重量変化の運動量と重量減衰

Momentumは、連続した反復での重量変化の変動を小さくするために使用されます。αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), ここではエラー関数、 -重みのベクトル学習率。E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 重量減衰は、重量の変化にペナルティを与えます。λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 問題は、逆伝播中に両方のトリックを組み合わせることが理にかなっているか、そしてそれがどのような効果をもたらすのか？ Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i

41 neural-networks optimization regularization gradient-descent

4

なぜ他の代わりにシグモイド関数なのか？

事実上の標準シグモイド関数が（非深層）ニューラルネットワークとロジスティック回帰で非常に人気があるのはなぜですか？11+e−x11+e−x\frac{1}{1+e^{-x}} 他の多くの派生関数を使用して、計算時間を短縮するか、減衰を遅くします（勾配の消失が少なくなります）。シグモイド関数に関するいくつかの例がウィキペディアにあります。減衰が遅く計算が速い私のお気に入りの1つはです。x1+|x|x1+|x|\frac{x}{1+|x|} 編集この質問は、シグモイドの「なぜ」にのみ興味があるので、賛否両論のニューラルネットワークの活性化関数の包括的なリストとは異なります。

40 logistic neural-networks least-squares

3

隠れマルコフモデルとニューラルネットワークの違いは何ですか？

私は統計に足を踏み入れたばかりなので、この質問が意味をなさない場合は申し訳ありません。私はマルコフモデルを使用して、隠れた状態（不公平なカジノ、サイコロロールなど）とニューラルネットワークを予測し、検索エンジンでのユーザークリックを調べました。どちらも、観測を使用して把握しようとしている隠された状態がありました。私の理解では、それらは両方とも隠れ状態を予測するので、ニューラルネットワークでマルコフモデルをいつ使用するのだろうか？それらは、同様の問題に対する異なるアプローチですか？（私は学習に興味がありますが、別の動機もあります。隠れたマルコフモデルを使用して解決しようとしている問題があります。

40 data-mining algorithms neural-networks markov-process

4

線形活性化関数は、ニューラルネットワークの消失勾配問題をどのように解決しますか？

ニューラルネットワークの消失勾配問題の解決策として、いくつかの場所で称賛された整流線形ユニット（ReLU）が見つかりました。つまり、アクティベーション関数としてmax（0、x）を使用します。活性化が正の場合、その派生は大きなxの任意の小さな値ではなく常に1であるため、これがたとえばシグモイド活性化関数よりも優れていることは明らかです。一方、xが0より小さい場合、導出は正確に0です。最悪の場合、ユニットがアクティブ化されない場合、このユニットの重みも変更されず、ユニットは永久に使用できなくなります。消失するほど小さい勾配よりもはるかに悪い。ReLUを使用する場合、学習アルゴリズムはその問題にどのように対処しますか？

40 machine-learning neural-networks deep-learning gradient-descent

7

ニューラルネットワークでのデータの正規化と標準化

ニューラルネットワーク（ANN）を使用して複雑なシステムの結果を予測しようとしています。結果（依存）値の範囲は0〜10,000です。異なる入力変数には異なる範囲があります。すべての変数には、ほぼ正規分布があります。トレーニングの前にデータをスケーリングするさまざまなオプションを検討します。1つのオプションは、各変数の平均値と標準偏差値を個別に使用して累積分布関数を計算することにより、入力（独立）変数と出力（従属）変数を[0、1]にスケーリングすることです。この方法の問題は、出力でシグモイド活性化関数を使用すると、極端なデータ、特にトレーニングセットで見られないデータが失われる可能性が高いことです。別のオプションは、zスコアを使用することです。その場合、極端なデータの問題はありません。ただし、出力では線形活性化関数に制限されています。 ANNで使用されている他の受け入れられている正規化手法は何ですか？このトピックのレビューを探しましたが、有用なものが見つかりませんでした。

40 machine-learning neural-networks multidimensional-scaling

2

ImageNet：トップ1およびトップ5エラー率とは何ですか？

ImageNet分類論文では、トップ1とトップ5のエラー率は、いくつかのソリューションの成功を測定するための重要な単位ですが、それらのエラー率はどのくらいですか？深い畳み込みニューラルネットワークとImageNet分類 Krizhevskyらによる。1つのCNN（7ページ）に基づくすべてのソリューションには、上位5つのエラー率がありませんが、5および7 CNNのソリューションにはあります（また、7 CNNのエラー率は5 CNNよりも優れています）。これは、トップ1のエラー率が1つのCNNの最高のシングルエラー率であることを意味しますか？トップ5のエラー率は、単に5つのCNNの累積エラー率ですか？

38 classification neural-networks error measurement-error image-processing

5

ニューラルネットワークの動作を視覚化/理解する方法

ニューラルネットワークは、複雑な構造のため、「ブラックボックス」として扱われることがよくあります。これは理想的ではありません。多くの場合、モデルが内部でどのように機能しているかを直感的に把握することが有益だからです。トレーニングされたニューラルネットワークの動作を視覚化する方法は何ですか？または、どのようにしてネットワークの簡単に消化可能な記述を抽出できますか（たとえば、この非表示ノードは主にこれらの入力で動作します）？私は主に2層のフィードフォワードネットワークに興味がありますが、より深いネットワークの解決策も聞きたいです。入力データは、本質的に視覚的または非視覚的のいずれかです。

37 data-visualization neural-networks

7

なぜ正則化はデータに対するディープニューラルネットの飢えを解決しないのですか？

一般にニューラルネットワーク、特にディープニューラルネットワークのコンテキストで頻繁に発生する問題は、「データを大量に消費する」ことです。つまり、大きなデータセットがないとうまく機能しません。ネットワークのトレーニングに使用します。私の理解では、これはNNet、特にディープNNetには多数の自由度があるという事実によるものです。そのため、モデルとして、NNetには非常に多数のパラメーターがあり、モデルのパラメーターの数がトレーニングデータポイントの数に比べて大きい場合、オーバーフィットする傾向が増加します。しかし、なぜこの問題は正則化によって解決されないのでしょうか？私の知る限り、NNetsはL1とL2の正則化を使用でき、ネットワーク内のパラメーターの数を減らすことができるドロップアウトのような独自の正則化方法もあります。節約を強制し、ネットワークのサイズを制限するような正則化方法を選択できますか？私の考えを明確にするために：データをモデル化するために大きなディープNNetを使用しているが、データセットは小さく、実際には線形モデルでモデル化できるとしましょう。次に、1つのニューロンが線形回帰をシミュレートし、他のすべてのニューロンがゼロに収束するように、ネットワークの重みが収束しないのはなぜですか？なぜ正規化がこれに役立たないのですか？

37 neural-networks deep-learning regularization

4

ニューラルネットワークがうまく一般化されない場合はどうすればよいですか？

私はニューラルネットワークをトレーニングしていますが、トレーニング損失は減少しますが、参照損失または非常に類似したアーキテクチャとデータを使用した実験に基づいて、検証損失は減少しません。どうすれば修正できますか？質問はニューラルネットワークが学習しない場合はどうすればよいですか？この質問に触発された質問は、ニューラルネットワークの一般化誤差を達成可能であることが証明されているレベルまで下げる方法に関する他の質問をこの質問の複製として閉じることができるように、意図的に一般的に残されています。 Metaの専用スレッドも参照してください。「なぜ私のニューラルネットワークが一般化されないのか」というタイプの質問をリダイレクトできる一般的な質問はありますか？

37 neural-networks deep-learning

4

CNNの「カーネル」と「フィルター」の違い

畳み込みニューラルネットワークのコンテキストでの「カーネル」と「フィルター」という用語の違いは何ですか？

37 neural-networks terminology deep-learning conv-neural-network

3

機械学習：バイナリ予測にカテゴリクロスエントロピーまたはバイナリクロスエントロピー損失を使用する必要がありますか？

まず、バイナリ予測を実行する必要がある場合、ワンホットエンコーディングを実行して少なくとも2つのクラスを作成する必要があることに気付きました。これは正しいです？ただし、バイナリクロスエントロピーは、クラスが1つだけの予測に対してのみですか？ほとんどのライブラリ（TensorFlowなど）で通常見られるカテゴリクロスエントロピー損失を使用する場合、大きな違いはありますか？実際、カテゴリクロスエントロピーとバイナリクロスエントロピーの正確な違いは何ですか？TensorFlowでバイナリクロスエントロピーの実装を見たことがないので、おそらくカテゴリー的なものも同じように機能すると思いました。

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

ニューラルネットワークのコスト関数は非凸ですか？

ニューラルネットワークのコスト関数はJ(W,b)J(W,b)J(W,b)であり、非凸であると主張されています。私はそれがロジスティック回帰のコスト関数に非常に似ているとわかるので、なぜそうなのか理解していませんか？それは非凸である場合は、2次微分よう∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} < 0、右？更新以下の回答と@gungのコメントのおかげで、隠されたレイヤーがまったくない場合、ロジスティック回帰のように凸面になっています。しかし、隠れ層がある場合、隠れ層のノードと後続の接続の重みを並べ替えることにより、同じ損失につながる重みの複数のソリューションを得ることができます。さらに質問があります 1）複数の極小値があり、それらのいくつかは同じ値である必要があります。それらはいくつかのノードと重みの順列に対応しているからですよね？ 2）ノードとウェイトがまったく並べ替えられない場合、凸型ですよね？そして、最小値はグローバル最小値になります。もしそうなら、1）への答えは、それらの局所的最小値はすべて同じ値になるでしょう、正しいですか？

36 neural-networks loss-functions

4

LSTMは消失勾配の問題をどのように防止しますか？

LSTMは、消失勾配の問題を回避するために特に発明されました。これは、以下の図で（Greffらによる）Constant cell Carousel（CEC）を使用してcellの周りのループに対応するものと想定されています。（ソース：deeplearning4j.org）そして、その部分は一種の恒等関数として見ることができるので、導関数は1であり、勾配は一定のままであることを理解しています。私が理解していないのは、他のアクティベーション機能のためにどのように消えないのですか？入力、出力、および忘却ゲートはシグモイドを使用します。この微分は最大で0.25で、gとhは伝統的にtanhでした。それらを逆伝播すると、勾配が消えないのはどうしてですか？

35 neural-networks lstm

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」