統計とビッグデータ neural-networks

2

アプリケーションで使用されるパルスニューラルネットワークの邪魔になるものは何ですか？

パルスまたはスパイキングニューラルネットワークは、生体ニューロンの膜ダイナミクスの多くを組み込み、パルスは次の層に情報を運びます。ニューロンは、たとえばバックプロップの場合のように、必ずしもすべて同時に「発火」する必要はありません。しかし、機械学習の問題にこれらのモデルを採用することには障壁があるようです。より生物学的に現実的なモデルを使用する機械学習の実践者にとって、どのような特定の問題が立ちはだかりますか？

13 neural-networks

1

ニューラルネットワークモデリングを効果的に実行するには？

観測値の数と変数の数の比はどのくらいですか？ニューラルネットワークモデルで過剰適合を検出する方法と、過剰適合を回避する方法は何ですか？ニューラルネットワークを使用して分類を実行する場合、クラスの頻度を等しくする必要がありますか？私を助けてください。

13 neural-networks

2

LSTMユニットを持つRNNも「勾配の爆発」に悩まされるのはなぜですか？

RNN（特にLSTMユニット）がどのように機能するかについての基本的な知識があります。LSTMユニット、つまりセルと、値の流れを制御するいくつかのゲートのアーキテクチャの図式的な考えがあります。しかし、明らかに、従来のRNNである逆伝播を使用してトレーニング中に発生する「勾配の消失と爆発」問題をLSTMがどのように解決するかを完全に理解していないようです。私は数学を完全に理解するために論文を読む機会がありませんでした。この回答は、LSTMユニットを備えたRNNが「勾配の消失」問題をどのように解決するかについて簡単に説明しています。数学的には、その理由は、ゼロにならない、すなわち消滅しない誘導体の存在がないようです。その結果、著者は「勾配が消えないパスが少なくとも1つある」と述べています。私見、この説明は少しあいまいです。その間、私はニューラルネットワークを使用したシーケンスからシーケンスへの学習（Ilya Sutskever、Oriol Vinyals、Quoc V. Le）の論文を読んでおり、その論文のセクション「3.4 Training details」には、 LSTMは勾配の消失の問題に悩まされることはありませんが、勾配が爆発する可能性があります。 LSTMユニットを備えたRNNは、「消失」と「爆発勾配」の両方の問題を解決すると常に考えていましたが、明らかに、LSTMユニットを備えたRNNも「爆発勾配」に苦しんでいます。直観的に、それはなぜですか？数学的には、その理由は何ですか？

13 neural-networks lstm rnn backpropagation

4

ニューラルネットワークの各ニューロンが基本的にロジスティック回帰関数である場合、なぜ多層が優れているのでしょうか？

CouseraのDeepAIコース（Week3ビデオ1 "Neural Networks Overview"）で説明します。AndrewNgは、ニューラルネットワークの各レイヤーが単なるロジスティック回帰の1つである方法を説明していますが、より正確な方法については説明していません。それでは、2層ネットワークで、ロジスティックを複数回計算すると、どのように正確になりますか？

13 logistic neural-networks

3

人工ニューラルネットワークの背後にある理論的結果

Courseraの機械学習コースで人工神経回路網を取り上げたばかりですが、その背後にある理論をもっと知りたいです。私は彼らが生物学を模倣するという動機がやや不満足だと思う。表面上、各レベルで共変量をそれらの線形結合に置き換えているように見えます。繰り返し行うことにより、非線形モデルのフィッティングが可能になります。これは疑問を投げかけます：なぜニューラルネットワークが非線形モデルを単に適合させるよりも好まれるのか。より一般的には、人工神経回路網がベイジアンの推論フレームワークにどのように適合するかを知りたいと思います。これは、ET Jaynesの本「Probability Theory：The Logic Of Science」で詳しく説明されています。または、簡単に言えば、人工ニューラルネットワークが機能するときに機能するのはなぜですか？そして、もちろん、彼らが成功した予測をするという事実は、彼らが前述のフレームワークに従うことを意味します。

13 machine-learning neural-networks theory

3

回帰の制限付きボルツマンマシン？

RBMに関して以前に尋ねた質問をフォローしています。それらについて記述している多くの文献がありますが、実際に回帰について言及しているものはありません（ラベル付きデータによる分類でさえも）。ラベルのないデータのみに使用されているように感じます。回帰を処理するためのリソースはありますか？または、隠しレイヤーの上に別のレイヤーを追加し、CDアルゴリズムを上下に実行するのと同じくらい簡単ですか？事前に感謝します。

13 regression machine-learning classification neural-networks

2

派生機能がニューラルネットワークで使用されるのはなぜですか？

たとえば、家の価格を予測し、家の長さと幅の2つの入力フィーチャがあるとします。場合によっては、長さ*幅である面積などの「派生」多項式入力フィーチャも含まれます。 1）派生フィーチャを含める意味は何ですか？ニューラルネットワークは、トレーニング中に長さ、幅、価格の関係を学習するべきではありませんか？3番目の機能、エリア、冗長性がないのはなぜですか？さらに、入力フィーチャに対して数を減らすために、人々が遺伝的選択アルゴリズムを実行することもあります。 2）入力フィーチャにすべて有用な情報が含まれている場合、入力フィーチャを減らすポイントは何ですか？ニューラルネットワークは、重要度に応じて各入力フィーチャに適切な重みを割り当てるべきではありませんか？遺伝的選択アルゴリズムを実行する意味は何ですか？

13 machine-learning neural-networks

3

誰かが逆伝播アルゴリズムを説明できますか？[複製]

この質問にはすでに回答があります：バックプロパゲーションアルゴリズム（2つの回答） 2ヶ月前に閉店。バックプロパゲーションアルゴリズムとは何ですか？

13 algorithms optimization neural-networks

1

シャムニューラルネットワークで逆伝播はどのように機能しますか？

署名の認識のためにYann LeCunと彼の同僚によって1994年に導入されたシャムニューラルネットワークのアーキテクチャを研究しています（「シャム時間遅延ニューラルネットワークを使用した署名検証」.pdf、NIPS 1994）。このアーキテクチャの一般的な考え方は理解しましたが、この場合のバックプロパゲーションの仕組みは本当に理解できません。ニューラルネットワークのターゲット値が何であるか理解できません。バックプロパゲーションで各ニューロンの重みを適切に設定できます。このアーキテクチャでは、アルゴリズムが2つのニューラルネットワークの最終的な表現間のコサイン類似度を計算します、そして署名の1つが偽造物である場合は大きな角度」逆伝播を実行するためのターゲットとしてバイナリ関数（2つのベクトル間のコサイン類似度）をどのように使用できるか、私には本当に理解できません。シャムニューラルネットワークで逆伝播はどのように計算されますか？

13 neural-networks

3

ニューラルネットワーク（たとえば、畳み込みニューラルネットワーク）は負の重みを持つことができますか？

すべてのアクティベーションレイヤーにReLUを使用する場合、深い畳み込みニューラルネットワークに（十分なエポックの後で）負の重みを付けることは可能ですか？

13 machine-learning neural-networks deep-learning conv-neural-network

2

ノイズの多いラベルによる分類？

分類のためにニューラルネットワークをトレーニングしようとしていますが、持っているラベルはかなりうるさいです（ラベルの約30％が間違っています）。クロスエントロピー損失は確かに機能しますが、この場合により効果的な代替策はあるのでしょうか。またはクロスエントロピー損失が最適ですか？よくわかりませんが、クロスエントロピー損失をいくらか「クリッピング」して、1つのデータポイントの損失が上限を超えないようにすることを考えています。ありがとう！更新 Lucasの回答によれば、予測出力とソフトマックス関数zの入力の導関数は次のとおりです。だから私は本質的にそれは平滑化項を追加していると思います3yyyzzzを導関数に。Piが=0.3/N+0.7YIL=-ΣTIログ（PI）∂Lを37N37N\frac{3}{7N} pi=0.3/N+0.7yipi=0.3/N+0.7yip_i=0.3/N+0.7y_i l=−∑tilog(pi)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂L∂l∂yi=−ti∂log(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} ：オリジナルクロスエントロピー損失の誘導体 ∂L∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i} ∂L∂l∂yi=−tiyi∂l∂yi=−tiyi\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i} 私が間違っている場合は私に知らせてください。ありがとう！∂l∂zi=yi−ti∂l∂zi=yi−ti\frac{\partial l}{\partial z_i}=y_i-t_i 更新ルーカスの回答と同じ式を適用するが、解釈が異なるGoogleの論文を偶然読んだ。セクション7では、ラベル平滑化によるモデルの正則化 ∂l/∂zk∂l/∂zk∂l/∂z_k しかし、予測に平滑化項を追加する代わりに、それをグラウンドトゥルースに追加しました。これは役立つことがわかりました。 ϵϵ\epsilon

13 machine-learning neural-networks loss-functions noise

5

ニューラルネット/ディープラーニングを設計および適用するための視覚的なツールはありますか？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 9か月前に閉鎖。 caffe、Theano、TensorFlow、kerasなど、機械学習とディープラーニング用のライブラリはたくさんあることは知っていますが、私にとっては、使用したいニューラルネットのアーキテクチャを知っている必要があるようです。さまざまなネットワーク設計を実験し、それらを独自のデータに適用できる（視覚的な）ツールはありますか？ TensorFlow Playgroundのようなものを考えていますが、n次元のデータと異なるレイヤータイプを使用しています。前もって感謝します！

13 neural-networks deep-learning conv-neural-network

3

不規則な時間間隔のRNN？

RNNは、シーケンシャルデータの時間依存性のキャプチャに非常に適しています。ただし、シーケンス要素の間隔が等間隔でない場合はどうなりますか？たとえば、LSTMセルへの最初の入力は月曜日に行われ、火曜日から木曜日まではデータがありません。最後に、金曜日、土曜日、日曜日のそれぞれに新しい入力が行われます。1つの可能性は、火曜日から木曜日に供給されるある種のNULLベクトルを持つことですが、NULLエントリがデータを汚染するため、およびリソースの浪費であるため、これはばかげた解決策のようです。何か案は？RNNはそのような場合をどのように処理しますか？RNN以外の方法がある場合は、それらの提案も歓迎します。

13 machine-learning neural-networks lstm rnn unevenly-spaced-time-series

1

バッチ正規化による逆伝播の行列形式

バッチの正規化は、ディープニューラルネットのパフォーマンスが大幅に向上したとされています。インターネット上の多くの資料は、アクティベーションごとにそれを実装する方法を示しています。私はすでに行列代数を使用してバックプロップを実装しましたが、高レベル言語で作業していることを考えてRcpp（そして、最終的にはGPUの高密度行列乗算に依存しています）、すべてをリッピングして- forループに頼るとおそらくコードが遅くなります実質的に、大きな痛みに加えて。バッチ正規化関数である b(xp)=γ(xp−μxp)σ−1xp+βb(xp)=γ(xp−μxp)σxp−1+β b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta xpxpx_pは、アクティブ化される前のppp番目のノードです。 γγ\gammaとββ\betaはスカラーパラメーターです μxpμxp\mu_{x_p}とσxpσxp\sigma_{x_p}平均値とのSDいるxpxpx_p。（分散の平方根とファッジファクターが通常使用されることに注意してください-コンパクト化のために非ゼロ要素を仮定しましょう）行列形式では、層全体のバッチの正規化は次のようになり b(X)=(γ⊗1p)⊙(X−μX)⊙σ−1X+(β⊗1p)b(X)=(γ⊗1p)⊙(X−μX)⊙σX−1+(β⊗1p) b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right) ここで XX\mathbf{X}はN×pN×pN\times p 1N1N\mathbf{1}_Nは1の列ベクトルです γγ\gammaとββ\betaは、レイヤーごとの正規化パラメーターの行pppベクトルです。 μXμX\mu_{\mathbf{X}}及びσXσX\sigma_{\mathbf{X}}でありN×pN×pN \times p各列は行列、NNN -ベクトル列方向手段と標準偏差の ⊗⊗\otimesはクロネッカー積であり、⊙⊙\odotは要素単位（アダマール）積です。無バッチの正規化及び連続結果に非常に単純な1層ニューラルネットであり y=a(XΓ1)Γ2+ϵy=a(XΓ1)Γ2+ϵ y = a\left(\mathbf{X\Gamma}_1\right)\Gamma_2 + \epsilon どこ Γ1Γ1\Gamma_1あるp1×p2p1×p2p_1 \times p_2 Γ2Γ2\Gamma_2ありp2×1p2×1p_2 \times …

12 machine-learning neural-networks deep-learning backpropagation batch-normalization

3

ニューラルアーキテクチャ：データに基づいた自動設計

ニューラルネットワークの最近の進歩は、主に設計の複雑さが増すことを特徴とする一連の新しいアーキテクチャによって要約されています。LeNet5（1994）からAlexNet（2012）、Overfeat（2013）、GoogleLeNet / Inception（2014）など... データに応じて、使用するアーキテクチャをマシンに決定/設計させる試みはありますか？

12 neural-networks deep-learning

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」