統計とビッグデータ neural-networks

1

非正規分散データを使用して人工ニューラルネットワーク（バックプロパゲーション、フィードフォワード）をトレーニングしています。二乗平均平方根誤差のほかに、文献は、訓練されたネットの品質を評価するためのピアソン相関係数をしばしば示唆しています。しかし、訓練データが正規分布されていない場合、ピアソン相関係数は妥当ですか？ランクベースの相関測定、たとえばスピアマンローを使用することは、より合理的ではないでしょうか？

9 correlation neural-networks spearman-rho

1

ガウス混合モデルを使用した変分オートエンコーダ

変オートエンコーダ（VAE）は確率分布学習の方法を提供入力に関するその潜在表現に。特に、エンコーダーは入力を上の分布にマッピングします。典型的なエンコーダーは、ガウス分布を表すパラメーターを出力します ; この分布は、近似として使用されます。p （x 、z）p（バツ、z）p(x,z)バツバツxzzzeeeバツバツxzzz（μ 、σ）= e （x ）（μ、σ）=e（バツ）(\mu,\sigma)=e(x)N（μ 、σ）N（μ、σ）\mathcal{N}(\mu,\sigma)p （z| x）p（z|バツ）p(z|x) 出力がガウスではなくガウス混合モデルであるVAEを検討した人はいますか？これは役に立ちましたか？これが単純なガウス分布よりもはるかに効果的なタスクはありますか？それともほとんどメリットがありませんか？

9 neural-networks deep-learning autoencoders variational-bayes

1

ゲーテッドリカレントユニット（GRU）リカレントニューラルネットワーク（RNN）レイヤーにはいくつのパラメーターがありますか？

タイトルがすべてを物語っています-GRUレイヤーにはトレーニング可能なパラメーターがいくつありますか？この種の質問は、パラメーターごとのパフォーマンスの観点から、長期短期記憶（LSTM）ユニットとGRUなど、さまざまなRNNレイヤータイプのモデルを比較しようとするときによく出てきます。トレーニング可能なパラメーターの数が増えると、一般に学習するネットワークの容量が増えるため、パラメーターごとに代替モデルを比較すると、GRUとLSTMの相対的な有効性を比較することができます。

9 neural-networks rnn gru

1

softmax分類器を参照して確率を記録

このhttps://cs231n.github.io/neural-networks-case-study/で、「Softmax分類器はffのすべての要素を3つのクラスの（非正規化された）ログ確率を保持していると解釈する」と述べているのはなぜですか。なぜそれが非正規化されているのか理解できますが、なぜログなのかわかりませんか？対数確率とはどういう意味ですか？なぜ正規化されていない確率を言うだけではないのですか？

9 machine-learning neural-networks information-theory softmax

1

ディープラーニングの密な予測とは何ですか？

私は、TensorFlowの事前にトレーニングされた畳み込みニューラルネットワークのモデルを使用しています。 https://github.com/tensorflow/models/blob/master/slim/nets/resnet_v2.py#L130 次の文が見つかりました：ただし、密な予測タスクの場合は、32の倍数である1の空間次元を持つ入力を使用することをお勧めします（例：[321、321]）。この文献の密な予測とは何か知っていますか？

9 neural-networks conv-neural-network

1

クロスエントロピーの微分

私のコンピューターでニューラルネットワークをトレーニングするプログラムを作成しようとしています。問題のネットワークでは、クロスエントロピーエラー関数を使用することにしました。 E= − ∑jtjlnojE=−∑jtjln⁡ojE = -\sum_jt_j\ln o_j ここで、はNeuron jのターゲット出力であり、o jはそのニューロンの出力であり、t jを予測しようとします。tjtjt_jjjjojojo_jtjtjt_j 私が何を知りたい、いくつかのニューロンのためであるJ。私の直感（プラス微積分の私の限られた知識）この値がなければならないことを信じるように私を導く-トンのJδEδojδEδoj\frac{\delta E}{\delta o_j}jjj。− tjoj−tjoj-\frac{t_j}{o_j} ただし、これは正しくないようです。クロスエントロピーは、o j = e z jのように、softmax関数と併用されることがよくあります。ここで、zはソフトマックスレイヤー内のすべてのニューロンへの入力のセットです（ここを参照）。oj= ezjΣkezkoj=ezj∑kezko_j = \frac{e^{z_j}}{\sum_ke^{z_k}} このファイル、私はそれを集める：δojδzj= oj（1 − oj）δojδzj=oj(1−oj)\frac{\delta o_j}{\delta z_j} = o_j(1 - o_j) よると、この質問：しかし、私の以前の推測と、この競合δEδEδzj= tj− ojδEδzj=tj−oj\frac{\delta E}{\delta z_j} = t_j - o_j。どうして？δEδojδEδoj\frac{\delta E}{\delta o_j} 。⇒δEJδEjδzj= δEjδojδojδzjδEjδzj=δEjδojδojδzj\frac{\delta E_j}{\delta z_j}=\frac{\delta …

9 machine-learning neural-networks derivative cross-entropy differential-equations

2

トレーニングデータは不均衡ですが、検証セットも同じですか？

10000の正の例と50000の負の例で構成されるデータにラベルを付け、合計60000の例を示しています。明らかに、このデータは不均衡です。ここで、検証セットを作成し、データの10％を使用して作成したいとします。私の質問は次のとおりです：検証セットが不均衡であることを確認する必要がありますか（トレーニングセットの真の分布への同意として）、または検証セットが均衡していることを確認する必要がありますか？したがって、たとえば、私の検証セットは、 10％の正の例+ 10％の負の例で、1000 +および5000-の例を示します。（この検証セットは、元のデータの不均衡を反映しています）。または、検証セットは、たとえば10％が正で1000+を与え、（10/5 = 2％）が負で1000-の例も与えられるようにすべきでしょうか？（テストセットについても同じ質問です）。不均衡なデータでトレーニングする方法については多くの方法があるようですが、私の検証セットが元の不均衡を反映すべきかどうかについてのベストプラクティスを見つけるための場所はどこにもありません。最後に、相互検証は行っていません。単一の検証セットとニューラルネットワークを使用します。ありがとう！

9 machine-learning neural-networks cross-validation dataset unbalanced-classes

3

GANのジェネレータはどのようにトレーニングされますか？

ガンズの論文は、弁別が電車に以下の勾配を使用しています言います： ∇θd1メートルΣi = 1メートル[ ログD （x（私）） +ログ（1 − D （G （z（私）））） ]∇θd1メートルΣ私=1メートル[ログ⁡D（バツ（私））+ログ⁡（1−D（G（z（私））））]\nabla _{\theta_d} \frac{1}{m}\sum^{m}_{i=1} [\log{D(x^{(i)})} + \log{(1-D(G(z^{(i)})))}] 値は、サンプリングされたデータサンプルを生成するために発電機に通し、次いで弁別器は、生成されたデータサンプルを使用してbackpropogatedされます。ジェネレータがデータを生成すると、それは弁別子のトレーニングでそれ以上の役割を果たしません。言い換えると、ジェネレータは、データサンプルを生成し、サンプルのみを処理することで、メトリックから完全に削除できます。zzz ただし、ジェネレーターのトレーニング方法については少し混乱しています。次のグラデーションを使用します。 ∇θg1メートルΣi = 1メートル[ ログ（1 − D （G （z（私）））） ]∇θg1メートルΣ私=1メートル[ログ⁡（1−D（G（z（私））））]\nabla _{\theta_g} \frac{1}{m}\sum^{m}_{i=1} [\log{(1-D(G(z^{(i)})))}] この場合、弁別子はメトリックの一部です。前のように取り除くことはできません。通常の判別モデルにおける最小二乗や対数尤度のようなものは、適切に形成された見事な定義を持っているため、簡単に区別できます。ただし、メトリックが別のニューラルネットワークに依存している場合に、逆伝播する方法について少し混乱しています。本質的に、ジェネレータの出力を弁別器の入力に接続し、全体を弁別器部分の重みが一定である1つの巨大ネットワークのように扱いますか？

9 machine-learning neural-networks

1

ディープニューラルネットワークの大部分を実際に正規化するには、早期停止とドロップアウトで十分ですか？

非常に多くの正則化手法があり、すべての組み合わせを試すのは現実的ではありません。 l1 / l2 最大ノルム脱落早期停止 ... ほとんどの人はドロップアウトと早期停止の組み合わせに満足しているようです。他の手法を使用することが理にかなっているケースはありますか？たとえば、疎なモデルが必要な場合は、l1正則化を少し追加できます。それ以外に、他の正則化手法を散布することを支持する強力な議論はありますか？フリーランチなしの定理について知っています。理論的には正則化手法のすべての組み合わせを試す必要がありますが、パフォーマンスが大幅に向上しない場合は、試す価値はありません。

9 neural-networks regularization dropout

3

ドロップアウト：アクティブ化のスケーリングとドロップアウトの反転

ドロップアウトを人工ニューラルネットワークに適用する場合、トレーニング時にニューロンの一部が非アクティブ化されたという事実を補償する必要があります。これを行うには、2つの一般的な戦略があります。テスト時のアクティベーションのスケーリングトレーニング段階でドロップアウトを反転させる Standford CS231n：Convolutional Neural Networks for Visual Recognitionから抜粋した2つの戦略を以下のスライドにまとめます。どちらの戦略が望ましいですか、そしてなぜですか？テスト時のアクティベーションのスケーリング：トレーニングフェーズ中にドロップアウトを反転する：

9 neural-networks deep-learning dropout

4

ディープニューラルネットワークのセノンは何ですか？

私はこの論文を読んでいます。彼らがCD-DNN-HMM（隠れマルコフモデルを使用したコンテキスト依存のディープニューラルネットワーク）を使用するskypeトランスレータです。私はプロジェクトのアイデアと彼らが設計したアーキテクチャを理解することができますが、セノンは何なのかわかりません。定義を探していましたが、何も見つかりませんでした —電話認識に深い信念ネットワークを使用する際の最近の進歩を活用する、大語彙音声認識（LVSR）の新しいコンテキスト依存（CD）モデルを提案します。出力としてセノン（結ばれたトライフォン状態）上の分布を生成するようにDNNをトレーニングする事前トレーニング済みのディープニューラルネットワークの隠れマルコフモデル（DNN-HMM）ハイブリッドアーキテクチャについて説明しますこれについて説明をいただければ幸いです。編集：この定義はこのホワイトペーパーで見つかりました。マルコフ状態でサブフォネティックイベントをモデル化し、音声の隠れマルコフモデルの状態を基本的なサブフォネティック単位であるsenoneとして扱うことを提案します。単語モデルは状態依存のセノンの連結であり、セノンは異なる単語モデル間で共有できます。最初の論文のアーキテクチャの隠しマルコフモデル部分で使用されていると思います。それらはHMMの状態ですか？DNNの出力？

9 neural-networks deep-learning terminology natural-language hidden-markov-model

1

word2vecの入力ベクトル表現と出力ベクトル表現

word2vecのCBOWモデルとスキップグラムモデルでは、（入力単語行列）から単語ベクトルを選択する方法とから単語ベクトルを選択する方法W ′WWWW』W』W'（出力ワードマトリックス）は、結果のワードベクトルの品質に影響しますか？ CBOW：スキップグラム：

9 neural-networks natural-language word2vec word-embeddings

2

時間遅延ニューラルネットワークとリカレントニューラルネットワークの違い

ニューラルネットワークを使用して財務時系列を予測したいと思います。私はIT出身で、ニューラルネットワークについてある程度の知識があり、次のことについて読んでいます。 TDNN RNN 私はそれらのRパッケージを探していましたが、RNNの1つだけを見つけました。これは、RNNであるelmanおよびjordan実装を持つRSNNSパッケージです。では、リカレントニューラルネットワークは（財務）時系列で使用すると便利ですか？彼ら（以前に引用されたRNNのwikipediaリンクからの引用）以来：各タイムステップで、入力は標準のフィードフォワード方式で伝播され、次に学習ルールが適用されます。固定されたバック接続により、コンテキストユニットは常に非表示のユニットの以前の値のコピーを維持します（学習ルールが適用される前に接続を介して伝播されるため）。したがって、ネットワークは一種の状態を維持でき、標準の多層パーセプトロンの能力を超えるシーケンス予測などのタスクを実行できます。実際にはむだ時間ニューラルネットワークと同じではありませんか？そうでない場合、むだ時間ニューラルネットワークとの違いは何ですか？どちらも時系列での使用に適していますか、どちらが適していますか？よろしくお願いします！

9 time-series forecasting neural-networks finance

2

クロスエントロピー損失のベクトル化

パラメータ使用して、クロスエントロピー損失関数の勾配を見つけることに関連する問題を処理しています。θθ\theta CE(θ)=−∑iyi∗log(y^i)CE(θ)=−∑iyi∗log(y^i)CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})} ここで及びθ iは、ベクトル入力されます。y^i=softmax(θi)y^i=softmax(θi)\hat{y}_{i} = softmax(\theta_i)θiθi\theta_i また、正しいクラスのワンホットベクトルであり、yはソフトマックス関数を用いて各クラスの予測です。yyyy^y^\hat{y} したがって、例えば有することができ及びY iは = （0.10 0.20 0.10 0.40 0.20）yi=⎛⎝⎜⎜⎜⎜⎜⎜00010⎞⎠⎟⎟⎟⎟⎟⎟yi=(00010)y_i = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}y^i=⎛⎝⎜⎜⎜⎜⎜⎜0.100.200.100.400.20⎞⎠⎟⎟⎟⎟⎟⎟y^i=(0.100.200.100.400.20)\hat{y}_{i} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix} 偏微分見つけるには∂CE(θ)∂θik=−yik−y^ik∂CE(θ)∂θik=−yik−y^ik\frac{\partial{CE(\theta)}}{\partial{\theta{ik}}} = -{y_{ik} - \hat{y}_{ik}} 各そこから取っ個々の部分勾配はなり ∂ C E （θ ）iii∂CE(θ)∂θi=⎛⎝⎜⎜⎜⎜⎜⎜yi1−y^i1yi2−y^i2yi3−y^i3yi4−y^i4yi5−y^i5⎞⎠⎟⎟⎟⎟⎟⎟∂CE(θ)∂θi=(yi1−y^i1yi2−y^i2yi3−y^i3yi4−y^i4yi5−y^i5)\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}y_{i1} - \hat{y}_{i1}\\y_{i2} - \hat{y}_{i2}\\y_{i3} - \hat{y}_{i3}\\y_{i4} - \hat{y}_{i4}\\y_{i5} - \hat{y}_{i5}\end{pmatrix} ただし、1つのホットベクトルのプロパティを使用したため、4番目の行を除く他のすべての行の勾配は実際には0になるため、これは当てはまりません。だから、実際の勾配があるべき ∂CE(θ)∂θi=⎛⎝⎜⎜⎜⎜⎜⎜000yi4−y^i40⎞⎠⎟⎟⎟⎟⎟⎟∂CE(θ)∂θi=(000yi4−y^i40)\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}0\\0\\0\\y_{i4} - …

9 machine-learning neural-networks

3

ニューラルネットワークのクロスエントロピーコスト関数は凸ですか？

私の先生は、クロスエントロピーの2次導関数が常に正であることを証明したので、クロスエントロピーを使用するニューラルネットワークのコスト関数は凸になります。これは本当ですか？私はいつもANNのコスト関数が非凸であることを学んできたので、これについてはかなり混乱しています。誰かがこれを確認できますか？大いに感謝する！ http://z0rch.com/2014/06/05/cross-entropy-cost-function

9 neural-networks convex

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」