タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

1
L2正則化を使用したRNNが学習を停止する
双方向RNNを使用して、不均衡な発生のイベントを検出します。ポジティブクラスはネガティブクラスの100分の1の頻度です。正則化の使用はありませんが、トレインセットでは100%、検証セットでは30%の精度を得ることができます。私はl2正則化をオンにすると、学習時間を長くする代わりに、列車セットの精度もわずか30%になり、検証セットの精度は100%になります。 データが小さすぎるのではないかと思っていたので、実験のために、以前に使用しなかったトレーニングセットとテストセットをマージしました。状況は私がl2正則化を使用するのと同じでしたが、今はそうではありません。train + testと検証の精度は30%です。 上記の実験で128の非表示のユニットと80のタイムステップを使用している場合、非表示のユニットの数を256に増やしたとき、train + testセットに再度オーバーフィットして100%の精度を得ることができますが、検証セットではまだ30%しかありません。 ハイパーパラメータのオプションをたくさん試しましたが、ほとんど結果がありませんでした。加重クロスエントロピーが問題を引き起こしている可能性があります。ある実験では、陽性クラスの加重は5です。より大きな加重を試行すると、結果の精度はしばしば20%ほど悪くなります。 LSTMセルとGRUセルを試しましたが、違いはありません。 私が得た最高の結果。256の非表示ユニットを持つ2つの非表示レイヤーを試しました。約3日間の計算と8GBのGPUメモリが必要でした。l2の正則化がオンになっているが、それほど強くない状態で再度適合し始める前に、約40-50%の精度を得ました。 私はAdamオプティマイザを使用していますが、他のオプティマイザはうまく機能しませんでした。ステートマシンを使用している間、90%の精度が得られるため、私が持っている機能で十分です。そのステートマシンでは、主な機能は他の機能のプロパティとその可変長に基づく合計としきい値処理であり、その可変長は10の場合もあれば、20のタイムスタンプで機能について話す場合もあります。 この状況で何をすべきかについての一般的なガイドラインはありますか?何も見つかりませんでした。

3
アンバランスデータセットをたたみ込みニューラルネットワーク(CNN)で分類する方法
バイナリ分類タスクに不均衡なデータセットがあり、陽性量と陰性量は0.3%対99.7%です。ポジティブとネガティブの間のギャップは巨大です。MNIST問題で使用されている構造でCNNをトレーニングすると、テスト結果に高い偽陰性率が示されます。また、トレーニングエラーカーブは、最初はいくつかのエポックで急速に低下しますが、その後のエポックでは同じ値のままです。 この問題を処理する方法を教えてください。ありがとう!

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
LSTM状態を初期化する最良の方法
LSTMの状態を初期化する最良の方法は何だろうと思っていました。現在、私はそれをすべてゼロに初期化しています。それを初期化する方法についてオンラインで本当に何も見つけることができません。私が考えていることの1つは、初期状態をトレーニング可能なパラメーターにすることです。何かアドバイス?

2
ケラスのSGDでミニバッチサイズを設定する方法
私はケラスが初めてで、あなたの助けが必要です。 私はケラスでニューラルネットをトレーニングしており、損失関数は二乗差b / wネットの出力とターゲット値です。 勾配降下法を使用してこれを最適化したいと思います。ネット上のリンクをたどると、一般的に使用される3種類の勾配降下法があることがわかりました。 単一サンプル勾配降下:ここで、勾配は反復ごとに1つのサンプルのみから計算されます->勾配はノイズが多い場合があります。 バッチ勾配降下:ここで、勾配はデータセット内のすべてのサンプルから計算された勾配の平均です->勾配はより一般的ですが、巨大なデータセットには扱いにくいです。 ミニバッチ勾配降下:バッチGDに似ています。データセット全体を使用する代わりに、いくつかのサンプル(batch_sizeによって決定される)のみを使用して、すべての反復で勾配を計算します->あまりノイズが多くなく、計算上扱いにくい->両方の長所。 質問: ケラスでミニバッチ勾配降下法を実行したいと思います。これどうやってするの?SGDオプティマイザーを使用する必要がありますか? SGDを使用する場合、batch_sizeを設定するにはどうすればよいですか?batch_sizeを設定するためのSGD関数のパラメーターがないようです。 optimizer = keras.optimizers.SGD(lr=0.01, decay=0.1, momentum=0.1, nesterov=False) Kerasのmodel.fit()にbatch_sizeパラメータがあります。 history = model.fit(x, y, nb_epoch=num_epochs, batch_size=20, verbose=0, validation_split=0.1) これはミニバッチ勾配降下法のバッチサイズと同じですか?そうでない場合、入力のバッチでトレーニングするとはどういう意味ですか?「batch_size」という意味ではありませんか。のスレッドが並列に実行され、モデルの重みを並列に更新しますか? それが役立つ場合は、これまでに書いたpythonコードスニペットを次に示します。

2
バックプロパゲーションアルゴリズムを使用してニューラルネットワークのエラーを導出する方法
Andrew Ngによるこのビデオから5:00頃 とはどのように導出されますか?実際、はどういう意味ですか? はyと比較して取得されますが、非表示レイヤーの出力ではそのような比較はできませんよね?δ3δ3\delta_3δ2δ2\delta_2δ3δ3\delta_3δ4δ4\delta_4

1
ハイパーパラメータを調整するときに検証データのモデルパフォーマンスを評価すると、検証データに関する情報が漏洩するのはなぜですか?
FrançoisCholletのPythonによるディープラーニングでは、次のように述べています。 その結果、検証セットでのパフォーマンスに基づいてモデルの構成を調整すると、モデルがモデルで直接トレーニングされない場合でも、検証セットへの過剰適合がすぐに発生する可能性があります。 この現象の中心は、情報漏えいの概念です。検証セットでのモデルのパフォーマンスに基づいてモデルのハイパーパラメーターを調整するたびに、検証データに関するいくつかの情報がモデルにリークします。これを1つのパラメーターに対して1回だけ実行すると、非常に少数の情報が漏洩し、検証セットはモデルを評価するための信頼性を維持します。ただし、これを何度も繰り返すと、1つの実験を実行し、検証セットを評価し、結果としてモデルを変更すると、検証セットに関するますます重要な情報がモデルにリークされます。 ハイパーパラメータを調整するときに検証データのモデルパフォーマンスを評価すると、検証データに関する情報が漏洩するのはなぜですか?


1
私のニューラルネットワークはユークリッド距離も学習できません
だから私は自分自身にニューラルネットワークを教えようとしています(猫の写真を分類するのではなく、回帰アプリケーションのために)。 私の最初の実験は、FIRフィルターと離散フーリエ変換を実装するためのネットワークのトレーニング(「前」と「後」の信号でトレーニング)でした。これらはどちらも活性化機能のない単一のレイヤーで実装できる線形演算だからです。 どちらもうまくいきました。 それで、私はを追加してabs()、振幅スペクトルを学習させることができるかどうかを見たかったのです。最初に、非表示層に必要なノードの数を考え、3のReLUがの大まかな近似に十分であることを認識したabs(x+jy) = sqrt(x² + y²)ので、その操作を単独の複素数(2入力→3 ReLUノードの非表示層→1)で単独でテストしました出力)。時々それは動作します: しかし、私がそれを試すほとんどの場合、それは極小値で行き詰まり、正しい形を見つけることができません: KerasですべてのオプティマイザーとReLUバリアントを試してみましたが、それほど違いはありません。このような単純なネットワークを確実に収束させるために他に何かできることはありますか?それとも私は間違った態度でこれに近づいていますか、そしてあなたは問題で必要以上に多くのノードを投げるはずであり、それらの半分が死んだとしても大したこととは考えられませんか?

2
転移学習用の事前トレーニング済みモデルの場所[終了]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。 私は機械学習の分野に不慣れですが、Kerasで簡単な分類アルゴリズムを試して実装したいと思っていました。残念ながら、私はデータのセットが非常に少ないので、問題に転移学習を適用しようと考えました。しかし、オンラインでこれを見つけることができなかったので、事前トレーニング済みのニューラルネットワークを探すのに最適な場所はどれなのかを理解する必要がありました。これに関して何か提案はありますか?機械学習プロジェクトの開始方法に関するアイデアを得るのに最適なWeb​​サイトはどれですか。

3
入力が条件付きで独立している場合、超平面はデータを最適に分類します-なぜですか?
ディープラーニングと情報ボトルネック原理と呼ばれる論文では、著者はセクションII A)で次のように述べています。 単一ニューロンは、入力空間超平面のみを実装できるため、線形的に分離可能な入力のみを分類します。入力が条件に依存しない場合、超平面はデータを最適に分類できます。u = w h + bu=wh+bu = wh+b これを示すために、彼らは以下を導き出します。ベイズの定理を使用すると、次のようになります。 (1)p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} ここで、、入力されるYはクラスであり、Y '(私は、仮定予測クラスであり、Yは'定義されていません)。続けて、彼らは次のように述べています:xxxyyyy′y′y'y′y′y' (2)p(x|y)p(x|y′)=∏Nj=1[p(xj|y)p(xj|y′)]np(xj)p(x|y)p(x|y′)=∏j=1N[p(xj|y)p(xj|y′)]np(xj)\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)} ここで、は入力次元で、nはわかりません(ここでも、両方とも未定義です)。シグモイドアクティベーション関数σ (u )= 1のシグモイドニューロンを考えるNNNnnnσ(u)=11+exp(−u)σ(u)=11+exp(−u)\sigma(u) = \frac{1}{1+exp(-u)}uuuwj=logp(xj|y)p(xj|y′)wj=logp(xj|y)p(xj|y′)w_j = log\frac{p(x_j|y)}{p(x_j|y')}b=logp(y)p(y′)b=logp(y)p(y′)b=log\frac{p(y)}{p(y')}hj=np(xj)hj=np(xj)h_j=np(x_j) w,b,hw,b,hw,b,h (1)ベイズの定理を使用してどのように導出されますか? nnn hj=np(xj)hj=np(xj)h_j=np(x_j) yyyy′y′y'

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
SVM =テンプレートマッチングとは
私はSVMについて読み、それらが最適化問題を解決していて、最大マージンのアイデアが非常に合理的であることを学びました。 現在、カーネルを使用することで、非線形の分離境界でさえも見つけることができました。 これまでのところ、SVM(特別なカーネルマシン)とカーネルマシンがニューラルネットワークとどのように関連しているか、私にはまったくわかりません。 Yann Lecunのコメントを検討してください=> ここ: kernel methods were a form of glorified template matching そしてここも: たとえば、一部の人々は、それに伴うかわいい数学のために、カーネルメソッドに夢中です。しかし、以前に言ったように、結局のところ、カーネルマシンは「見栄えの良いテンプレートマッチング」を実行する浅いネットワークです。これには何の問題もありませんが(SVMは優れた方法です)、私たち全員が知っておくべき悲惨な制限があります。 だから私の質問は: SVMはニューラルネットワークとどのように関連していますか?浅いネットワークはどうですか? SVMは明確に定義された目的関数で最適化問題を解決しますが、テンプレートマッチングはどのように行われますか?ここで入力が照合されるテンプレートは何ですか? これらのコメントには、高次元空間、ニューラルネット、カーネルマシンの完全な理解が必要だと思いますが、これまでのところ、私は試みており、その背後にあるロジックを把握できませんでした。しかし、2つの非常に異なるmlテクニック間の関係に注目するのは確かに興味深いことです。 編集:ニューラルの観点からSVMを理解することは素晴らしいことだと思います。線形SVMとカーネルトリックを備えたSVMの両方の場合の、SVMとニューラルネット間のリンクを本当に理解するために、上記の2つの質問に対する完全な数学支援の答えを探しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.