タグ付けされた質問 「deep-learning」

主にディープニューラルネットワークで行われる、データの階層表現の学習に関係する機械学習の領域。

2
「ディープラーニング」とマルチレベル/階層モデリングの違いは何ですか?
「ディープラーニング」は、マルチレベル/階層モデリングの単なる別の用語ですか? 前者よりも後者の方がはるかに精通していますが、主な違いは定義にあるのではなく、アプリケーションドメイン内での使用方法と評価方法にあります。 典型的な「深層学習」アプリケーションのノードの数は多く、一般的な階層形式を使用するように見えますが、マルチレベルモデリングのアプリケーションは、通常、モデル化される生成プロセスを模倣する階層関係を使用します。適用された統計(階層モデリング)ドメインで一般的な階層を使用することは、現象の「誤った」モデルと見なされますが、ドメイン固有の階層をモデル化することは、一般的な深層学習機械を作成する目的を覆すと見なされる場合があります。 これらの2つのことは、実際には2つの異なる名前の2つの異なる方法で使用される同じ機械ですか?

7
検証の精度が変動するのはなぜですか?
MRIデータを使用して癌に対する反応を予測する4層CNNがあります。ReLUアクティベーションを使用して、非線形性を導入します。列車の精度と損失はそれぞれ単調に増加および減少します。しかし、私のテストの精度は大きく変動し始めます。学習率を変更して、レイヤー数を減らしてみました。しかし、それは変動を止めるものではありません。私もこの答えを読み、その答えの指示に従ってみましたが、再び運はありませんでした。誰が私が間違っているのかを理解するのを手伝ってもらえますか?

2
私のニューラルネットワークは何を学びましたか?どの機能が重要で、なぜですか?
ニューラルネットは、何らかの目標を達成する手段としてデータセットの特徴を学習します。完了したら、ニューラルネットが何を学習したかを知りたい場合があります。機能とは何で、なぜそれを気にかけたのですか。誰かがこの問題に関係する仕事の本文にいくつかの参照を与えることができますか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 



1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
ディープラーニングモデルは現在、解釈可能であるとは言えませんか?ノードは機能していますか?
統計および機械学習モデルには、複数のレベルの解釈可能性があります:1)アルゴリズム全体、2)アルゴリズムの一般的な部分3)特定の入力のアルゴリズムの部分、およびこれらの3つのレベルはそれぞれ2つの部分に分かれています1つはトレーニング用、もう1つは機能評価用です。最後の2つの部分は、最初の部分よりもはるかに近いです。私は#2について尋ねていますが、これは通常#3のより良い理解につながります)。(それらが「解釈可能性」を意味するものでない場合、私は何を考えるべきですか?) 解釈可能性に関する限り、ロジスティック回帰は最も簡単に解釈できるものの1つです。このインスタンスがしきい値を超えたのはなぜですか?そのインスタンスにはこの特定のポジティブな特徴があり、モデル内の係数が大きいためです。それはとても明白です! ニューラルネットワークは、解釈が難しいモデルの典型的な例です。これらの係数はすべてどういう意味ですか?それらはすべて非常に複雑でクレイジーな方法で加算されるため、特定の係数が実際に何をしているのかを言うのは困難です。 しかし、すべてのディープニューラルネットが出てきているので、物事がより明確になっているように感じます。DLモデル(ビジョンなど)は、初期のレイヤーでエッジや向きなどをキャプチャしているように見え、後のレイヤーでは、いくつかのノードが実際にセマンティックであるようです(ことわざの「祖母セル」)。例えば: (「ディープラーニングについての学習」から) これは、プレゼンテーション用に手作業で作成されたグラフィックです(多くの場合)しかし、それが誰かがそれがどのように機能するかを考える証拠です。 過去には、認識可能な機能を見つけるのに十分なレイヤーがなかったかもしれません。モデルは成功しましたが、特定のモデルを事後的に分析するのは簡単ではありませんでした。 しかし、グラフィックは希望的観測に過ぎないかもしれません。おそらくNNは本当に不可解です。 しかし、ノードに画像のラベルが付いた多くのグラフィックスも非常に魅力的です。 DLノードは本当に機能に対応していますか?

4
検証の精度が向上している一方で、検証の損失が増加している可能性はありますか
CIFAR10データセットで簡単なニューラルネットワークをトレーニングしています。しばらくすると、検証の損失が増加し始めましたが、検証の精度も向上しています。テストの損失とテストの精度は向上し続けています。 これはどのように可能ですか?検証損失が増加すると、精度が低下するようです。 PS似たような質問がいくつかありますが、そこで何が起こっているのか誰も説明しませんでした。

5
ディープニューラルネットワークは正規化なしで乗算関数を近似できますか?
f = x * y標準的なディープニューラルネットワークを使用して単純な回帰を実行するとします。 1つの非表示層を持つNNがすべての関数を近似できることを示す再調査があることを覚えていますが、正規化なしではNNはこの単純な乗算でさえ近似できませんでした。データのログ正規化のみが役立ちましたがm = x*y => ln(m) = ln(x) + ln(y). 、それはチートのように見えます。NNはログ正規化なしでこれを行うことができますか?揺れは明らかに(私にとって)-はい、それで質問はそのようなNNのタイプ/構成/レイアウトはどうあるべきかということですか?

1
ゼロ中心でないアクティベーション関数が逆伝播で問題になるのはなぜですか?
私はここで次を読みました: シグモイド出力はゼロ中心ではありません。これは、ニューラルネットワークの処理の後の層のニューロン(これについては後ほど説明します)がゼロ中心でないデータを受信するため、望ましくありません。これは、勾配降下中のダイナミクスに影響を与えます。ニューロンに入るデータが常に正の場合(たとえば 、f = w T x + bでx>0x>0x > 0要素単位)、逆伝播中の重みwの勾配は次の いずれかになります。すべて正またはすべて負(式全体の勾配fに依存) f=wTx+bf=wTx+bf = w^Tx + bwwwfff)。これにより、重みの勾配更新に望ましくないジグザグダイナミクスが導入される可能性があります。ただし、これらの勾配がデータのバッチ全体で加算されると、重みの最終更新に可変符号が付き、この問題が多少緩和されることに注意してください。したがって、これは不便ですが、上記の飽和した活性化の問題と比較して、それほど深刻な結果はありません。 すべてのx>0x>0x>0(要素ごと)がwwwすべて正またはすべて負の勾配になるのはなぜですか?

4
スキップ層接続を備えたニューラルネットワーク
ニューラルネットワークでの回帰に興味があります。 隠れノードがゼロのニューラルネットワーク+スキップレイヤー接続は線形モデルです。 同じニューラルネットについてですが、隠れノードはありますか?スキップ層接続の役割は何でしょうか? 直観的には、スキップ層接続を含めると、最終モデルは線形モデルといくつかの非線形部分の合計になります。 ニューラルネットにスキップレイヤー接続を追加することには、利点や欠点はありますか?

2
変分オートエンコーダーでのKLD損失と再構成損失の重み付け方法
VAEで見たほぼすべてのコード例で、損失関数は次のように定義されています(これはtensorflowコードですが、theano、torchなどでも同様です。これはconvnetでも見られますが、あまり関係ありません) 、単に合計が引き継がれる軸に影響します): # latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch. # first half of eq 10. in https://arxiv.org/abs/1312.6114 kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1) # reconstruction error, using pixel-wise L2 loss, for each batch rec_loss = …

5
畳み込みニューラルネットワークとディープラーニングの違いは何ですか?
プロジェクトでディープラーニングを使用したい。いくつかの論文を読んで、質問がありました。畳み込みニューラルネットワークとディープラーニングに違いはありますか?これらは同じものですか、それとも大きな違いがありますか?

10
なぜニューラルネットワークとディープラーニングをダンプしないのですか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 2年前に閉店。 一般的なディープラーニングとニューラルネットワークの基本的な問題。 トレーニングデータに適合するソリューションは無限です。単一の方程式だけで満たされ、最も一般化できると言える正確な数学方程式はありません。単純に言えば、どれが最も一般化するのかわかりません。 重みの最適化は凸面の問題ではないため、グローバルミニマムまたはローカルミニマムになることは決してありません。 それでは、なぜニューラルネットワークをダンプして、代わりにより良いMLモデルを検索しないのですか?私たちが理解していること、そして一連の数学的な方程式と一致する何か?線形およびSVMにはこの数学的な欠点はなく、一連の数学方程式と完全に一致しています。同じラインで考えて(線形である必要はありません)、線形およびSVMおよびニューラルネットワークとディープラーニングよりも優れた新しいMLモデルを考え出すのはなぜですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.