タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

2
切り捨てられた逆伝搬を使用した場合の初期パターンのキャプチャ(RNN / LSTM)
RNN / LSTMを使用してセンチメント分析を行います。これは多対1のアプローチです(このブログを参照)。ネットワークは、通常の30の最後のステップでのみ展開される、切り捨てられたバックプロパゲーション(BPTT)によってトレーニングされます。 私の場合、分類したい各テキストセクションは、展開されている30ステップ(〜100ワード)よりもはるかに長くなっています。私の知識に基づいて、BPTTは単一のテキストセクションに対して1回だけ実行されます。これは、テキストセクション全体を通過し、バイナリ分類ターゲットを計算したときに、損失関数と比較してエラーを見つけます。yyy この場合、各テキストセクションの最初の単語に関して、勾配は計算されません。RNN / LSTMはどのようにして重みを調整し、最初の数ワード内でのみ発生する特定のパターンをキャプチャすることができますか?たとえば、とマークされたすべての文は「I love this」で始まり、とマークされたすべての文は「I hate this」で始まります。RNN / LSTMは、100ステップの長いシーケンスの最後に到達したときに、最後の30ステップだけ展開された場合、どのようにキャプチャしますか?P O S I T IのVのEpos私t私vepositiveN 、E 、Ga t i v enegat私venegative


1
なぜ人々はより深いRBFまたはMLPと組み合わせてRBFを使用しないのですか?
したがって、放射基底関数ニューラルネットワークを見ると、人々は1つの隠れ層の使用しか推奨していないことに気付きましたが、多層パーセプトロンニューラルネットワークでは、より多くの層が優れていると考えられます。 逆伝播のバージョンでRBFネットワークをトレーニングできることを考えると、より深いRBFネットワークが機能しない理由、またはRBFレイヤーを深層MLPネットワークの最後から2番目のレイヤーとして使用できない理由はありますか?(最後から2番目のレイヤーを考えていたので、以前のMLPレイヤーで学習した機能について基本的にトレーニングすることができました)

2
ベイジアンニューラルネットワークを使用する利点は何ですか
最近、私は、ベイジアンニューラルネットワーク(BNN)[Neal、1992]、[Neal、2012]についてのいくつかの論文を読みました。このようなニューラルネットワークのトレーニングは、従来の逆伝播アルゴリズムとは異なるMCMCを介して行われます。 私の質問は次のとおりです。そのようなニューラルネットワークを使用する利点は何ですか?具体的には、NNよりもBNNに適した例をいくつか挙げていただけますか?


5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
マルチラベル分類問題にニューラルネットワークを適用する方法は?
説明: 問題ドメインを、それぞれが1つ以上のクラスに属する特徴ベクトルのセットが存在するドキュメント分類とします。たとえば、ドキュメントdoc_1はカテゴリSportsとEnglishカテゴリに属します。 質問: 分類にニューラルネットワークを使用すると、特徴ベクトルのラベルはどうなりますか?それは、0の値が関連のないクラスに、1が関連のクラスに与えられるように、すべてのクラスを構成するベクトルでしょうか?クラスのラベルのリストがの[Sports, News, Action, English, Japanese]場合、ドキュメントdoc_1のラベルは次のようになり[1, 0, 0, 1, 0]ますか?

2
DDoSフィルタリングに機械学習を適用する
でスタンフォード大学の機械学習コースのAndrew NgがITでMLを適用述べました。しばらくして、私たちのサイトで中程度のサイズ(約2万ボット)のDDoSを取得したとき、単純なニューラルネットワーク分類子を使用してそれと戦うことにしました。 私は約30分でこのpythonスクリプトを書きました:https : //github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos pyBrainを使用し、3つのnginxログを入力として受け取ります。そのうち2つはニューラルネットワークをトレーニングするために使用します。 良いクエリで 悪いものと そして分類のための1つのログ 悪いクエリから。 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...そして、良いです... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 HTTP/1.0" 200 1685 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9) Gecko/2008052906 Firefox/3.0" ...辞書を作成します: ['__UA___OS_U', '__UA_EMPTY', '__REQ___METHOD_POST', '__REQ___HTTP_VER_HTTP/1.0', '__REQ___URL___NETLOC_', …

2
0-1損失関数が扱いにくいのはなぜですか?
イアン・グッドフェローのディープラーニングの本には、 場合によっては、実際に気になる損失関数(分類エラーなど)が効率的に最適化できるものではないことがあります。たとえば、線形分類子の場合でも、予想される0-1の損失を正確に最小化することは、通常、困難です(入力次元で指数関数的)。このような状況では、代わりに代理損失関数を最適化するのが一般的です。代理損失関数はプロキシとして機能しますが、利点があります。 0-1損失が扱いにくいのはなぜですか、それとも入力次元で指数関数的ですか?

2
ミニバッチ勾配降下法は、バッチ内の各例の重みをどのように更新しますか?
10個の例をバッチで処理すると、各例の損失を合計できることは理解できますが、各例の重みの更新に関して逆伝播はどのように機能しますか? 例えば: 例1->損失= 2 例2->損失= -2 この結果、平均損失は0(E = 0)になるので、これにより各重みが更新されて収束するでしょうか。遅かれ早かれ「うまくいけば」収束するのは、単にバッチのランダム化によるものですか?また、これは処理された最後の例の最初の重みのセットの勾配のみを計算しませんか?

3
と線形化された非正規化対数確率で始まるニューラルネットワークのシグモイド出力単位の動機付け
背景: Ian Goodfellow、Yoshua Bengio、Aaron Courvilleによるディープラーニングの第6章を勉強しています。セクション6.2.2.2(ここで表示できる 183/183ページ)では、を出力するためのシグモイドの使用が動機付けられています。P(y=1|x)P(y=1|x)P(y=1|x) 一部の材料を要約すると、アクティブ化が適用される前の出力ニューロンとし、は前の非表示層の出力、は重みのベクトル、はスカラーバイアスです。入力ベクトルは(は関数)で示され、出力値はで示されます。ここで、はシグモイド関数です。この本は、値を使用して確率分布を定義したいと考えています。183ページの2番目の段落から:z=wTh+bz=wTh+bz = w^Th+bhhhwwwbbbxxxhhhy=ϕ(z)y=ϕ(z)y=\phi(z)ϕϕ\phiyyyzzz ここでは、値を使用して確率分布を定義する方法を説明するために、への依存を省略します。シグモイドは、合計が1にならない非正規化確率分布作成することによって動機づけることができます。次に、適切な定数で除算して、有効な確率分布を取得できます。非正規化対数確率がとで線形であるという仮定から始める場合、非正規化確率を得るためにべき乗できます。次に、正規化して、zのシグモイド変換によって制御されるベルヌーイ分布が得られることを確認します。 xxxyyyzzzP~(y)P~(y)\tilde P(y)yyyzzzlogP~(y)P~(y)P(y)P(y)=yz=exp(yz)=exp(yz)∑1y′=0exp(y′z)=ϕ((2y−1)z)log⁡P~(y)=yzP~(y)=exp⁡(yz)P(y)=exp⁡(yz)∑y′=01exp⁡(y′z)P(y)=ϕ((2y−1)z)\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align} 質問: 2つのこと、特に最初のことについて混乱しています。 最初の仮定はどこから来るのですか?なぜ非正規化対数確率はと線形なのですか?作者がでどのように始めたかについて誰かが私にいくつかの状況を教えてもらえますか?yyyzzzlogP~(y)=yzlog⁡P~(y)=yz\log\tilde P(y) = yz 最後の行はどのように続きますか?


4
CNNでは、アップサンプリングと転置畳み込みは同じですか?
「アップサンプリング」と「転置たたみ込み」の両方の用語は、「デコンボリューション」を行うときに使用されます(<-良い用語ではありませんが、ここで使用します)。もともと同じ意味だと思っていましたが、これらの記事を読んでみると違うようです。誰かが明確にしていただけますか? 転置畳み込み:畳み​​込みニューラルネットワークを介して損失を伝播するときに使用できるように見えます。 http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdf、セクション4「畳み込み層の場合...」 アップサンプリングは:私たちはconvnet-decovnet構造の大きな入力に小さい入力からアップサンプリングしたいときに我々はそれを使用するように思えます。 https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

1
ディープラーニングのディープ残余ネットワークのコンテキストで、残余学習ブロックとは正確には何ですか?
私は「画像認識のためのディープ残差学習」という論文を読んでいて、残差ブロックが計算で必要とするものを100%確実に理解することが困難でした。彼らが図を持っている彼らの論文を読む2: これは、残差ブロックがどうあるべきかを示しています。残差ブロックの計算は単純に次と同じですか? y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) それとも別のものですか? 言い換えれば、多分紙の表記法と一致しようとすることは、次のとおりです。 F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} 本当? 円の合計の後、ReLUという単語が用紙に表示されるため、残差ブロック()の出力は次のようになります。yy\mathbf{y} σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x) \sigma( \mathcal F(x) + x ) = \sigma( …

2
クロスエントロピー損失関数のさまざまな定義
私は、neuralnetworksanddeeplearning dot comチュートリアルでニューラルネットワークについて学び始めました。特に第3章には、クロスエントロピー関数に関するセクションがあり、クロスエントロピー損失を次のように定義しています。 C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) ただし、Tensorflowの概要を読むと、クロスエントロピー損失は次のように定義されます。 C=−1n∑x∑j(yjlnaLj)C=−1n∑x∑j(yjln⁡ajL)C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)(上記と同じ記号を使用する場合) 次に、何が起こっているのかを探すために周りを検索すると、クロスエントロピー損失の完全に異なる定義を使用する別のメモセット(https://cs231n.github.io/linear-classify/#softmax-classifier)が見つかりました。ニューラルネットワークではなく、ソフトマックス分類器の時間。 誰かが私にここで何が起こっているのか説明できますか?なぜ矛盾があるのですか?クロスエントロピー損失はどのように定義されますか?いくつかの包括的な原則はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.