統計とビッグデータ neural-networks

2

切り捨てられた逆伝搬を使用した場合の初期パターンのキャプチャ（RNN / LSTM）

RNN / LSTMを使用してセンチメント分析を行います。これは多対1のアプローチです（このブログを参照）。ネットワークは、通常の30の最後のステップでのみ展開される、切り捨てられたバックプロパゲーション（BPTT）によってトレーニングされます。私の場合、分類したい各テキストセクションは、展開されている30ステップ（〜100ワード）よりもはるかに長くなっています。私の知識に基づいて、BPTTは単一のテキストセクションに対して1回だけ実行されます。これは、テキストセクション全体を通過し、バイナリ分類ターゲットを計算したときに、損失関数と比較してエラーを見つけます。yyy この場合、各テキストセクションの最初の単語に関して、勾配は計算されません。RNN / LSTMはどのようにして重みを調整し、最初の数ワード内でのみ発生する特定のパターンをキャプチャすることができますか？たとえば、とマークされたすべての文は「I love this」で始まり、とマークされたすべての文は「I hate this」で始まります。RNN / LSTMは、100ステップの長いシーケンスの最後に到達したときに、最後の30ステップだけ展開された場合、どのようにキャプチャしますか？P O S I T IのVのEpos私t私vepositiveN 、E 、Ga t i v enegat私venegative

12 neural-networks deep-learning natural-language backpropagation

4

ニューラルネットワークのバイアスユニットの正則化用語はありません

ディープラーニングに関するこのチュートリアルによると、重みの減衰（正規化）は通常、バイアス用語に適用されません。なぜですか？その背後にある意義（直感）とは何ですか？

12 machine-learning neural-networks bias regularization

1

なぜ人々はより深いRBFまたはMLPと組み合わせてRBFを使用しないのですか？

したがって、放射基底関数ニューラルネットワークを見ると、人々は1つの隠れ層の使用しか推奨していないことに気付きましたが、多層パーセプトロンニューラルネットワークでは、より多くの層が優れていると考えられます。逆伝播のバージョンでRBFネットワークをトレーニングできることを考えると、より深いRBFネットワークが機能しない理由、またはRBFレイヤーを深層MLPネットワークの最後から2番目のレイヤーとして使用できない理由はありますか？（最後から2番目のレイヤーを考えていたので、以前のMLPレイヤーで学習した機能について基本的にトレーニングすることができました）

12 machine-learning neural-networks rbf-network

2

ベイジアンニューラルネットワークを使用する利点は何ですか

最近、私は、ベイジアンニューラルネットワーク（BNN）[Neal、1992]、[Neal、2012]についてのいくつかの論文を読みました。このようなニューラルネットワークのトレーニングは、従来の逆伝播アルゴリズムとは異なるMCMCを介して行われます。私の質問は次のとおりです。そのようなニューラルネットワークを使用する利点は何ですか？具体的には、NNよりもBNNに適した例をいくつか挙げていただけますか？

12 bayesian neural-networks bayesian-network

4

ニューラルネットワークとパーセプトロンの違いは何ですか？

「ニューラルネットワーク」と「パーセプトロン」という用語に違いはありますか？

12 machine-learning neural-networks terminology perceptron

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

マルチラベル分類問題にニューラルネットワークを適用する方法は？

説明：問題ドメインを、それぞれが1つ以上のクラスに属する特徴ベクトルのセットが存在するドキュメント分類とします。たとえば、ドキュメントdoc_1はカテゴリSportsとEnglishカテゴリに属します。質問：分類にニューラルネットワークを使用すると、特徴ベクトルのラベルはどうなりますか？それは、0の値が関連のないクラスに、1が関連のクラスに与えられるように、すべてのクラスを構成するベクトルでしょうか？クラスのラベルのリストがの[Sports, News, Action, English, Japanese]場合、ドキュメントdoc_1のラベルは次のようになり[1, 0, 0, 1, 0]ますか？

12 machine-learning neural-networks natural-language multilabel

2

DDoSフィルタリングに機械学習を適用する

でスタンフォード大学の機械学習コースのAndrew NgがITでMLを適用述べました。しばらくして、私たちのサイトで中程度のサイズ（約2万ボット）のDDoSを取得したとき、単純なニューラルネットワーク分類子を使用してそれと戦うことにしました。私は約30分でこのpythonスクリプトを書きました：https : //github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos pyBrainを使用し、3つのnginxログを入力として受け取ります。そのうち2つはニューラルネットワークをトレーニングするために使用します。良いクエリで悪いものとそして分類のための1つのログ悪いクエリから。 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...そして、良いです... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 HTTP/1.0" 200 1685 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9) Gecko/2008052906 Firefox/3.0" ...辞書を作成します： ['__UA___OS_U', '__UA_EMPTY', '__REQ___METHOD_POST', '__REQ___HTTP_VER_HTTP/1.0', '__REQ___URL___NETLOC_', …

12 classification neural-networks unsupervised-learning

2

0-1損失関数が扱いにくいのはなぜですか？

イアン・グッドフェローのディープラーニングの本には、場合によっては、実際に気になる損失関数（分類エラーなど）が効率的に最適化できるものではないことがあります。たとえば、線形分類子の場合でも、予想される0-1の損失を正確に最小化することは、通常、困難です（入力次元で指数関数的）。このような状況では、代わりに代理損失関数を最適化するのが一般的です。代理損失関数はプロキシとして機能しますが、利点があります。 0-1損失が扱いにくいのはなぜですか、それとも入力次元で指数関数的ですか？

12 neural-networks deep-learning loss-functions

2

ミニバッチ勾配降下法は、バッチ内の各例の重みをどのように更新しますか？

10個の例をバッチで処理すると、各例の損失を合計できることは理解できますが、各例の重みの更新に関して逆伝播はどのように機能しますか？例えば：例1->損失= 2 例2->損失= -2 この結果、平均損失は0（E = 0）になるので、これにより各重みが更新されて収束するでしょうか。遅かれ早かれ「うまくいけば」収束するのは、単にバッチのランダム化によるものですか？また、これは処理された最後の例の最初の重みのセットの勾配のみを計算しませんか？

12 neural-networks gradient-descent backpropagation tensorflow

3

と線形化された非正規化対数確率で始まるニューラルネットワークのシグモイド出力単位の動機付け

背景： Ian Goodfellow、Yoshua Bengio、Aaron Courvilleによるディープラーニングの第6章を勉強しています。セクション6.2.2.2（ここで表示できる 183/183ページ）では、を出力するためのシグモイドの使用が動機付けられています。P(y=1|x)P(y=1|x)P(y=1|x) 一部の材料を要約すると、アクティブ化が適用される前の出力ニューロンとし、は前の非表示層の出力、は重みのベクトル、はスカラーバイアスです。入力ベクトルは（は関数）で示され、出力値はで示されます。ここで、はシグモイド関数です。この本は、値を使用して確率分布を定義したいと考えています。183ページの2番目の段落から：z=wTh+bz=wTh+bz = w^Th+bhhhwwwbbbxxxhhhy=ϕ(z)y=ϕ(z)y=\phi(z)ϕϕ\phiyyyzzz ここでは、値を使用して確率分布を定義する方法を説明するために、への依存を省略します。シグモイドは、合計が1にならない非正規化確率分布作成することによって動機づけることができます。次に、適切な定数で除算して、有効な確率分布を取得できます。非正規化対数確率がとで線形であるという仮定から始める場合、非正規化確率を得るためにべき乗できます。次に、正規化して、zのシグモイド変換によって制御されるベルヌーイ分布が得られることを確認します。 xxxyyyzzzP~(y)P~(y)\tilde P(y)yyyzzzlogP~(y)P~(y)P(y)P(y)=yz=exp(yz)=exp(yz)∑1y′=0exp(y′z)=ϕ((2y−1)z)log⁡P~(y)=yzP~(y)=exp⁡(yz)P(y)=exp⁡(yz)∑y′=01exp⁡(y′z)P(y)=ϕ((2y−1)z)\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align} 質問： 2つのこと、特に最初のことについて混乱しています。最初の仮定はどこから来るのですか？なぜ非正規化対数確率はと線形なのですか？作者がでどのように始めたかについて誰かが私にいくつかの状況を教えてもらえますか？yyyzzzlogP~(y)=yzlog⁡P~(y)=yz\log\tilde P(y) = yz 最後の行はどのように続きますか？

12 neural-networks deep-learning

2

maxnorm制約とは何ですか？たたみ込みニューラルネットワークではどのように役立ちますか？

これを使用するkerasコードのサンプルを次に示します。 from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))

12 neural-networks regularization conv-neural-network optimization

4

CNNでは、アップサンプリングと転置畳み込みは同じですか？

「アップサンプリング」と「転置たたみ込み」の両方の用語は、「デコンボリューション」を行うときに使用されます（<-良い用語ではありませんが、ここで使用します）。もともと同じ意味だと思っていましたが、これらの記事を読んでみると違うようです。誰かが明確にしていただけますか？転置畳み込み：畳み込みニューラルネットワークを介して損失を伝播するときに使用できるように見えます。 http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdf、セクション4「畳み込み層の場合...」アップサンプリングは：私たちはconvnet-decovnet構造の大きな入力に小さい入力からアップサンプリングしたいときに我々はそれを使用するように思えます。 https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

12 machine-learning neural-networks conv-neural-network transposed-convolution

1

ディープラーニングのディープ残余ネットワークのコンテキストで、残余学習ブロックとは正確には何ですか？

私は「画像認識のためのディープ残差学習」という論文を読んでいて、残差ブロックが計算で必要とするものを100％確実に理解することが困難でした。彼らが図を持っている彼らの論文を読む2：これは、残差ブロックがどうあるべきかを示しています。残差ブロックの計算は単純に次と同じですか？ y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) それとも別のものですか？言い換えれば、多分紙の表記法と一致しようとすることは、次のとおりです。 F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} 本当？円の合計の後、ReLUという単語が用紙に表示されるため、残差ブロック（）の出力は次のようになります。yy\mathbf{y} σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x) \sigma( \mathcal F(x) + x ) = \sigma( …

12 machine-learning neural-networks deep-learning conv-neural-network residual-networks

2

クロスエントロピー損失関数のさまざまな定義

私は、neuralnetworksanddeeplearning dot comチュートリアルでニューラルネットワークについて学び始めました。特に第3章には、クロスエントロピー関数に関するセクションがあり、クロスエントロピー損失を次のように定義しています。 C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) ただし、Tensorflowの概要を読むと、クロスエントロピー損失は次のように定義されます。 C=−1n∑x∑j(yjlnaLj)C=−1n∑x∑j(yjln⁡ajL)C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)（上記と同じ記号を使用する場合）次に、何が起こっているのかを探すために周りを検索すると、クロスエントロピー損失の完全に異なる定義を使用する別のメモセット（https://cs231n.github.io/linear-classify/#softmax-classifier）が見つかりました。ニューラルネットワークではなく、ソフトマックス分類器の時間。誰かが私にここで何が起こっているのか説明できますか？なぜ矛盾があるのですか？クロスエントロピー損失はどのように定義されますか？いくつかの包括的な原則はありますか？

12 neural-networks loss-functions softmax cross-entropy

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」