統計とビッグデータ deep-learning

4

34の入力列と8つの出力列を含むデータセットがあります。問題を解決する1つの方法は、34の入力を受け取り、各出力列に対して個別の回帰モデルを構築することです。この問題は、特にニューラルネットワークを使用して、1つのモデルだけで解決できるかどうか疑問に思っています。多層パーセプトロンを使用しましたが、線形回帰のように複数のモデルが必要です。シーケンスツーシーケンス1の学習は実行可能なオプションですか？TensorFlowを使用してみましたが、float値を処理できないようです。特にニューラルネットワークを使用して1つの統合モデルのみを使用してこの問題に取り組むための提案があれば、高く評価されます。 Ilya Sutskever、Oriol Vinyals、＆Quoc V. Le（2014）。ニューラルネットワークを使用したシーケンス間学習神経情報処理システムの進歩、27。（pdf）

10 neural-networks deep-learning multivariate-regression

1

L2正則化を使用したRNNが学習を停止する

双方向RNNを使用して、不均衡な発生のイベントを検出します。ポジティブクラスはネガティブクラスの100分の1の頻度です。正則化の使用はありませんが、トレインセットでは100％、検証セットでは30％の精度を得ることができます。私はl2正則化をオンにすると、学習時間を長くする代わりに、列車セットの精度もわずか30％になり、検証セットの精度は100％になります。データが小さすぎるのではないかと思っていたので、実験のために、以前に使用しなかったトレーニングセットとテストセットをマージしました。状況は私がl2正則化を使用するのと同じでしたが、今はそうではありません。train + testと検証の精度は30％です。上記の実験で128の非表示のユニットと80のタイムステップを使用している場合、非表示のユニットの数を256に増やしたとき、train + testセットに再度オーバーフィットして100％の精度を得ることができますが、検証セットではまだ30％しかありません。ハイパーパラメータのオプションをたくさん試しましたが、ほとんど結果がありませんでした。加重クロスエントロピーが問題を引き起こしている可能性があります。ある実験では、陽性クラスの加重は5です。より大きな加重を試行すると、結果の精度はしばしば20％ほど悪くなります。 LSTMセルとGRUセルを試しましたが、違いはありません。私が得た最高の結果。256の非表示ユニットを持つ2つの非表示レイヤーを試しました。約3日間の計算と8GBのGPUメモリが必要でした。l2の正則化がオンになっているが、それほど強くない状態で再度適合し始める前に、約40-50％の精度を得ました。私はAdamオプティマイザを使用していますが、他のオプティマイザはうまく機能しませんでした。ステートマシンを使用している間、90％の精度が得られるため、私が持っている機能で十分です。そのステートマシンでは、主な機能は他の機能のプロパティとその可変長に基づく合計としきい値処理であり、その可変長は10の場合もあれば、20のタイムスタンプで機能について話す場合もあります。この状況で何をすべきかについての一般的なガイドラインはありますか？何も見つかりませんでした。

10 neural-networks deep-learning regularization rnn

3

アンバランスデータセットをたたみ込みニューラルネットワーク（CNN）で分類する方法

バイナリ分類タスクに不均衡なデータセットがあり、陽性量と陰性量は0.3％対99.7％です。ポジティブとネガティブの間のギャップは巨大です。MNIST問題で使用されている構造でCNNをトレーニングすると、テスト結果に高い偽陰性率が示されます。また、トレーニングエラーカーブは、最初はいくつかのエポックで急速に低下しますが、その後のエポックでは同じ値のままです。この問題を処理する方法を教えてください。ありがとう！

10 classification neural-networks deep-learning convolution computer-vision

3

たたみ込みニューラルネットワーク（CNN）では、画像をたたみ込むときに、ドット積または要素ごとの乗算の合計を使用する演算ですか？

以下の例は、deeplearning.aiの講義から抜粋したもので、結果は要素ごとの積（または「要素ごとの乗算」）の合計であることを示しています。赤い数字はフィルターの重みを表しています。（1 ∗ 1 ）+ （1 ∗ 0 ）+ （1 ∗ 1 ）+ （0 ∗ 0 ）+ （1 ∗ 1 ）+ （1 ∗ 0 ）+ （0 ∗ 1 ）+ （0 ∗ 0 ）+ （1 ∗ 1 ）=1+0+1+0+1+0+0+0+1=4(1∗1)+(1∗0)+(1∗1)+(0∗0)+(1∗1)+(1∗0)+(0∗1)+(0∗0)+(1∗1)=1+0+1+0+1+0+0+0+1=4(1*1)+(1*0)+(1*1)+(0*0)+(1*1)+(1*0)+(0*1)+(0*0)+(1*1) = 1+0+1+0+1+0+0+0+1 = 4 ただし、ほとんどのリソースでは、使用されているのはドット積であるとしています。「…ニューロンの出力をとして表すことができます。ここで、はバイアス項です。つまり、bがバイアス項である場合、y = f（x * w）によって出力を計算できます。つまり、入力と重みのベクトルのドット積を実行し、バイアス項を追加してロジットを生成し、変換関数を適用することにより、出力を計算できます。」ブドゥマ、ニキル; ロカスシオ、ニコラス。ディープラーニングの基礎：次世代のマシンインテリジェンスアルゴリズムの設計（p。8）。O'Reilly Media。キンドル版。 …

10 deep-learning conv-neural-network matrix

1

Deep Q-Learning損失関数を正確に計算するにはどうすればよいですか？

Deep Q-Learning Networkの損失関数がどの程度正確にトレーニングされているのか疑問です。私は、線形出力層とRelu非表示層のある2層フィードフォワードネットワークを使用しています。 4つのアクションがあるとします。したがって、現在の状態に対する私のネットワークの出力はです。より具体的にするために、と仮定しましょうststs_tQ(st)∈R4Q(st)∈R4Q(s_t) \in \mathbb{R}^4Q(st)=[1.3,0.4,4.3,1.5]Q(st)=[1.3,0.4,4.3,1.5]Q(s_t) = [1.3, 0.4, 4.3, 1.5] 次に、値対応するアクション、つまり3番目のアクションを実行し、新しい状態到達します。at=2at=2a_t = 24.34.34.3st + 1st+1s_{t+1} 次に、状態フォワードパスを計算し、出力レイヤー次の値を取得するとします。また、報酬ととしましょう。st + 1st+1s_{t+1}Q （st + 1）= [ 9.1 、2.4 、0.1 、0.3 ]Q(st+1)=[9.1,2.4,0.1,0.3]Q(s_{t+1}) = [9.1, 2.4, 0.1, 0.3]rt= 2rt=2r_t = 2γ= 1.0γ=1.0\gamma = 1.0 損失は以下によって与えられます： L =（11.1−4.3）2L=(11.1−4.3)2\mathcal{L} = (11.1- 4.3)^2 または L = 14Σ３i = …

10 least-squares deep-learning loss-functions reinforcement-learning q-learning

2

ダウンサンプリングのプーリングとストライド

プーリングとストライドの両方を使用して、画像をダウンサンプリングできます。以下のような4x4の画像と2x2のフィルターがあるとしましょう。次に、（2x2プーリング）と（ストライドオブ2）を使用するかどうかをどのように決定しますか

10 deep-learning

1

関数

eバツ/（1+ eバツ）ex/(1+ex)e^x/(1+e^x)の形式の関数には標準的な名前がありますか？たとえば、y= a + b xy=a+bxy = a + bxは線形関数です。

9 logistic neural-networks deep-learning terminology

2

ベイジアンがテストセットを必要としないのは本当ですか？

私は最近、Eric J. Maによるこの講演を見て、彼のブログエントリをチェックしました。彼はRadford Nealを引用しています。ベイジアンモデルはオーバーフィットしない（しかし、オーバーフィットすることができる）こと、およびそれらを使用する場合、検証するためのテストセット（私は引用符が検証セットを使用してパラメータを調整することについて話しているようです）。正直に言って、私には説得力がなく、本にアクセスすることもできないので、そのような声明に対して、または反対して、より詳細で厳密な議論をしてもらえますか？ちなみに、その間、エリック・マーは私に同じトピックに関するこの議論を指摘しました。

9 machine-learning bayesian cross-validation deep-learning

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

4

コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか？

コックス比例ハザードモデルから生存曲線をどのように解釈しますか？このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか？または両方が間違っていますか？200200200 ステートメント1：被験者は20％残ります（たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです）。 100010001000200200200200200200 ステートメント2：特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

SVM =テンプレートマッチングとは

私はSVMについて読み、それらが最適化問題を解決していて、最大マージンのアイデアが非常に合理的であることを学びました。現在、カーネルを使用することで、非線形の分離境界でさえも見つけることができました。これまでのところ、SVM（特別なカーネルマシン）とカーネルマシンがニューラルネットワークとどのように関連しているか、私にはまったくわかりません。 Yann Lecunのコメントを検討してください=> ここ： kernel methods were a form of glorified template matching そしてここも：たとえば、一部の人々は、それに伴うかわいい数学のために、カーネルメソッドに夢中です。しかし、以前に言ったように、結局のところ、カーネルマシンは「見栄えの良いテンプレートマッチング」を実行する浅いネットワークです。これには何の問題もありませんが（SVMは優れた方法です）、私たち全員が知っておくべき悲惨な制限があります。だから私の質問は： SVMはニューラルネットワークとどのように関連していますか？浅いネットワークはどうですか？ SVMは明確に定義された目的関数で最適化問題を解決しますが、テンプレートマッチングはどのように行われますか？ここで入力が照合されるテンプレートは何ですか？これらのコメントには、高次元空間、ニューラルネット、カーネルマシンの完全な理解が必要だと思いますが、これまでのところ、私は試みており、その背後にあるロジックを把握できませんでした。しかし、2つの非常に異なるmlテクニック間の関係に注目するのは確かに興味深いことです。編集：ニューラルの観点からSVMを理解することは素晴らしいことだと思います。線形SVMとカーネルトリックを備えたSVMの両方の場合の、SVMとニューラルネット間のリンクを本当に理解するために、上記の2つの質問に対する完全な数学支援の答えを探しています。

9 machine-learning neural-networks svm deep-learning kernel-trick

4

ニューラルネットワークを回帰用にトレーニングすると、常に平均が予測されます

私は回帰のための単純な畳み込みニューラルネットワークをトレーニングしています。ここでのタスクは、画像内のボックスの（x、y）位置を予測することです。例：ネットワークの出力には、x用とy用の2つのノードがあります。ネットワークの残りの部分は、標準の畳み込みニューラルネットワークです。損失は、ボックスの予測位置とグラウンドトゥルースの位置との間の標準的な平均二乗誤差です。私はこれらの画像の10000でトレーニングをしており、2000で検証しています。私が抱えている問題は、重要なトレーニングを行った後でも、損失が実際には減少しないことです。ネットワークの出力を観察すると、両方の出力ノードで、ネットワークがゼロに近い値を出力する傾向があることに気付きました。そのため、ボックスの位置の予測は常に画像の中心になります。予測には多少のずれがありますが、常にほぼゼロです。以下は損失を示しています：このグラフに示されているよりも多くのエポックでこれを実行しましたが、損失はまだ減少していません。ここで興味深いことに、実際にはある時点で損失が増加しています。したがって、ネットワークは、適切な適合を学習するのではなく、トレーニングデータの平均を予測しているだけのようです。なぜこれがそうなのかについてのアイデアはありますか？Adamをオプティマイザとして使用しています。初期学習率は0.01で、relusをアクティベーションとして使用しています。私のコード（Keras）の一部に興味がある場合は、以下に示します。 # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, image_height))) model.add(Convolution2D(64, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Convolution2D(128, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Flatten()) model.add(Dense(100, activation='relu')) model.add(Dense(2, activation='linear')) # Compile the model adam = Adam(lr=0.01, beta_1=0.9, …

9 machine-learning neural-networks optimization deep-learning loss-functions

3

ディープラーニングを使用した特徴選択？

ディープモデルを使用して各入力フィーチャの重要度を計算したい。しかし、深層学習を使用した特徴選択についての論文は1つしか見つかりませんでした- 深部特徴選択。最初の非表示レイヤーの前に、各フィーチャに直接接続されたノードのレイヤーを挿入します。ディープ・ビリーフ・ネットワーク（DBN）もこのような仕事に使えると聞きました。しかし、DBNはPCAのような機能の抽象化（クラスター）しか提供しないと思うので、次元を効果的に削減できますが、各機能の重要度（重み）を計算できるかどうか疑問に思います。 DBNで機能の重要度を計算することは可能ですか？また、ディープラーニングを使用して特徴を選択する他の既知の方法はありますか？

9 feature-selection deep-learning deep-belief-networks rbm

2

DNNトレーニングのCPUおよびGPUメモリ要件の予測

いくつかのディープラーニングモデルアーキテクチャと、選択されたミニバッチサイズがあるとします。これらのモデルから、そのモデルをトレーニングするために予想されるメモリ要件をどのように導き出しますか？例として、次元1000の入力、次元100の4つの完全に接続された非表示層、および次元10の追加の出力層を持つ（非反復）モデルを考えます。ミニバッチサイズは256の例です。CPUとGPUのトレーニングプロセスのおおよそのメモリ（RAM）フットプリントをどのように決定しますか？違いがある場合は、モデルがTensorFlow（したがってcuDNNを使用）を備えたGPUでトレーニングされていると仮定します。

9 deep-learning

1

ディープラーニング用のデータ量はどれくらいですか？

ディープラーニング（特にCNN）について学習しています。これは、過剰適合を防ぐために通常は非常に多くのデータを必要とする方法です。ただし、モデルの容量やパラメータが多いほど、過剰適合を防ぐために必要なデータが増えることも知らされています。したがって、私の質問は次のとおりです。ディープニューラルネットワークのレイヤーあたりのレイヤー/ノードの数を減らし、より少ないデータ量で機能させることができないのはなぜですか？ニューラルネットワークが「キックイン」するまでに必要な基本的な「最小数のパラメータ」はありますか？特定の数のレイヤーの下では、ニューラルネットワークは、手作業でコーディングした機能ほど機能しないようです。

9 machine-learning neural-networks deep-learning conv-neural-network

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」