統計とビッグデータ neural-networks

1

双方向RNNを使用して、不均衡な発生のイベントを検出します。ポジティブクラスはネガティブクラスの100分の1の頻度です。正則化の使用はありませんが、トレインセットでは100％、検証セットでは30％の精度を得ることができます。私はl2正則化をオンにすると、学習時間を長くする代わりに、列車セットの精度もわずか30％になり、検証セットの精度は100％になります。データが小さすぎるのではないかと思っていたので、実験のために、以前に使用しなかったトレーニングセットとテストセットをマージしました。状況は私がl2正則化を使用するのと同じでしたが、今はそうではありません。train + testと検証の精度は30％です。上記の実験で128の非表示のユニットと80のタイムステップを使用している場合、非表示のユニットの数を256に増やしたとき、train + testセットに再度オーバーフィットして100％の精度を得ることができますが、検証セットではまだ30％しかありません。ハイパーパラメータのオプションをたくさん試しましたが、ほとんど結果がありませんでした。加重クロスエントロピーが問題を引き起こしている可能性があります。ある実験では、陽性クラスの加重は5です。より大きな加重を試行すると、結果の精度はしばしば20％ほど悪くなります。 LSTMセルとGRUセルを試しましたが、違いはありません。私が得た最高の結果。256の非表示ユニットを持つ2つの非表示レイヤーを試しました。約3日間の計算と8GBのGPUメモリが必要でした。l2の正則化がオンになっているが、それほど強くない状態で再度適合し始める前に、約40-50％の精度を得ました。私はAdamオプティマイザを使用していますが、他のオプティマイザはうまく機能しませんでした。ステートマシンを使用している間、90％の精度が得られるため、私が持っている機能で十分です。そのステートマシンでは、主な機能は他の機能のプロパティとその可変長に基づく合計としきい値処理であり、その可変長は10の場合もあれば、20のタイムスタンプで機能について話す場合もあります。この状況で何をすべきかについての一般的なガイドラインはありますか？何も見つかりませんでした。

10 neural-networks deep-learning regularization rnn

3

アンバランスデータセットをたたみ込みニューラルネットワーク（CNN）で分類する方法

バイナリ分類タスクに不均衡なデータセットがあり、陽性量と陰性量は0.3％対99.7％です。ポジティブとネガティブの間のギャップは巨大です。MNIST問題で使用されている構造でCNNをトレーニングすると、テスト結果に高い偽陰性率が示されます。また、トレーニングエラーカーブは、最初はいくつかのエポックで急速に低下しますが、その後のエポックでは同じ値のままです。この問題を処理する方法を教えてください。ありがとう！

10 classification neural-networks deep-learning convolution computer-vision

4

Rの離散時間イベント履歴（生存）モデル

Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります：ID、Event（各time-obsで1または0）およびTime Elapsed（観測の開始以降）、および他の共変量。モデルに合うようにコードを書くにはどうすればよいですか？従属変数はどれですか？Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか？必要ですか？ありがとう。

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

LSTM状態を初期化する最良の方法

LSTMの状態を初期化する最良の方法は何だろうと思っていました。現在、私はそれをすべてゼロに初期化しています。それを初期化する方法についてオンラインで本当に何も見つけることができません。私が考えていることの1つは、初期状態をトレーニング可能なパラメーターにすることです。何かアドバイス？

10 neural-networks lstm

2

ケラスのSGDでミニバッチサイズを設定する方法

私はケラスが初めてで、あなたの助けが必要です。私はケラスでニューラルネットをトレーニングしており、損失関数は二乗差b / wネットの出力とターゲット値です。勾配降下法を使用してこれを最適化したいと思います。ネット上のリンクをたどると、一般的に使用される3種類の勾配降下法があることがわかりました。単一サンプル勾配降下：ここで、勾配は反復ごとに1つのサンプルのみから計算されます->勾配はノイズが多い場合があります。バッチ勾配降下：ここで、勾配はデータセット内のすべてのサンプルから計算された勾配の平均です->勾配はより一般的ですが、巨大なデータセットには扱いにくいです。ミニバッチ勾配降下：バッチGDに似ています。データセット全体を使用する代わりに、いくつかのサンプル（batch_sizeによって決定される）のみを使用して、すべての反復で勾配を計算します->あまりノイズが多くなく、計算上扱いにくい->両方の長所。質問：ケラスでミニバッチ勾配降下法を実行したいと思います。これどうやってするの？SGDオプティマイザーを使用する必要がありますか？ SGDを使用する場合、batch_sizeを設定するにはどうすればよいですか？batch_sizeを設定するためのSGD関数のパラメーターがないようです。 optimizer = keras.optimizers.SGD(lr=0.01, decay=0.1, momentum=0.1, nesterov=False) Kerasのmodel.fit（）にbatch_sizeパラメータがあります。 history = model.fit(x, y, nb_epoch=num_epochs, batch_size=20, verbose=0, validation_split=0.1) これはミニバッチ勾配降下法のバッチサイズと同じですか？そうでない場合、入力のバッチでトレーニングするとはどういう意味ですか？「batch_size」という意味ではありませんか。のスレッドが並列に実行され、モデルの重みを並列に更新しますか？それが役立つ場合は、これまでに書いたpythonコードスニペットを次に示します。

10 neural-networks python gradient-descent keras sgd

2

バックプロパゲーションアルゴリズムを使用してニューラルネットワークのエラーを導出する方法

Andrew Ngによるこのビデオから5:00頃とはどのように導出されますか？実際、はどういう意味ですか？はyと比較して取得されますが、非表示レイヤーの出力ではそのような比較はできませんよね？δ3δ３\delta_3δ2δ2\delta_2δ3δ３\delta_3δ4δ4\delta_4

10 machine-learning neural-networks backpropagation

1

ハイパーパラメータを調整するときに検証データのモデルパフォーマンスを評価すると、検証データに関する情報が漏洩するのはなぜですか？

FrançoisCholletのPythonによるディープラーニングでは、次のように述べています。その結果、検証セットでのパフォーマンスに基づいてモデルの構成を調整すると、モデルがモデルで直接トレーニングされない場合でも、検証セットへの過剰適合がすぐに発生する可能性があります。この現象の中心は、情報漏えいの概念です。検証セットでのモデルのパフォーマンスに基づいてモデルのハイパーパラメーターを調整するたびに、検証データに関するいくつかの情報がモデルにリークします。これを1つのパラメーターに対して1回だけ実行すると、非常に少数の情報が漏洩し、検証セットはモデルを評価するための信頼性を維持します。ただし、これを何度も繰り返すと、1つの実験を実行し、検証セットを評価し、結果としてモデルを変更すると、検証セットに関するますます重要な情報がモデルにリークされます。ハイパーパラメータを調整するときに検証データのモデルパフォーマンスを評価すると、検証データに関する情報が漏洩するのはなぜですか？

9 neural-networks cross-validation hyperparameter

1

関数

eバツ/（1+ eバツ）ex/(1+ex)e^x/(1+e^x)の形式の関数には標準的な名前がありますか？たとえば、y= a + b xy=a+bxy = a + bxは線形関数です。

9 logistic neural-networks deep-learning terminology

1

私のニューラルネットワークはユークリッド距離も学習できません

だから私は自分自身にニューラルネットワークを教えようとしています（猫の写真を分類するのではなく、回帰アプリケーションのために）。私の最初の実験は、FIRフィルターと離散フーリエ変換を実装するためのネットワークのトレーニング（「前」と「後」の信号でトレーニング）でした。これらはどちらも活性化機能のない単一のレイヤーで実装できる線形演算だからです。どちらもうまくいきました。それで、私はを追加してabs()、振幅スペクトルを学習させることができるかどうかを見たかったのです。最初に、非表示層に必要なノードの数を考え、3のReLUがの大まかな近似に十分であることを認識したabs(x+jy) = sqrt(x² + y²)ので、その操作を単独の複素数（2入力→3 ReLUノードの非表示層→1）で単独でテストしました出力）。時々それは動作します：しかし、私がそれを試すほとんどの場合、それは極小値で行き詰まり、正しい形を見つけることができません： KerasですべてのオプティマイザーとReLUバリアントを試してみましたが、それほど違いはありません。このような単純なネットワークを確実に収束させるために他に何かできることはありますか？それとも私は間違った態度でこれに近づいていますか、そしてあなたは問題で必要以上に多くのノードを投げるはずであり、それらの半分が死んだとしても大したこととは考えられませんか？

9 machine-learning neural-networks optimization keras euclidean

2

転移学習用の事前トレーニング済みモデルの場所[終了]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。私は機械学習の分野に不慣れですが、Kerasで簡単な分類アルゴリズムを試して実装したいと思っていました。残念ながら、私はデータのセットが非常に少ないので、問題に転移学習を適用しようと考えました。しかし、オンラインでこれを見つけることができなかったので、事前トレーニング済みのニューラルネットワークを探すのに最適な場所はどれなのかを理解する必要がありました。これに関して何か提案はありますか？機械学習プロジェクトの開始方法に関するアイデアを得るのに最適なWebサイトはどれですか。

9 machine-learning classification neural-networks transfer-learning

3

入力が条件付きで独立している場合、超平面はデータを最適に分類します-なぜですか？

ディープラーニングと情報ボトルネック原理と呼ばれる論文では、著者はセクションII A）で次のように述べています。単一ニューロンは、入力空間超平面のみを実装できるため、線形的に分離可能な入力のみを分類します。入力が条件に依存しない場合、超平面はデータを最適に分類できます。u = w h + bu=wh+bu = wh+b これを示すために、彼らは以下を導き出します。ベイズの定理を使用すると、次のようになります。（1）p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} ここで、、入力されるYはクラスであり、Y '（私は、仮定予測クラスであり、Yは'定義されていません）。続けて、彼らは次のように述べています：xxxyyyy′y′y'y′y′y' （2）p(x|y)p(x|y′)=∏Nj=1[p(xj|y)p(xj|y′)]np(xj)p(x|y)p(x|y′)=∏j=1N[p(xj|y)p(xj|y′)]np(xj)\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)} ここで、は入力次元で、nはわかりません（ここでも、両方とも未定義です）。シグモイドアクティベーション関数σ （u ）= 1のシグモイドニューロンを考えるNNNnnnσ(u)=11+exp(−u)σ(u)=11+exp(−u)\sigma(u) = \frac{1}{1+exp(-u)}uuuwj=logp(xj|y)p(xj|y′)wj=logp(xj|y)p(xj|y′)w_j = log\frac{p(x_j|y)}{p(x_j|y')}b=logp(y)p(y′)b=logp(y)p(y′)b=log\frac{p(y)}{p(y')}hj=np(xj)hj=np(xj)h_j=np(x_j) w,b,hw,b,hw,b,h （1）ベイズの定理を使用してどのように導出されますか？ nnn hj=np(xj)hj=np(xj)h_j=np(x_j) yyyy′y′y'

9 bayesian neural-networks information-theory

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

4

コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか？

コックス比例ハザードモデルから生存曲線をどのように解釈しますか？このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか？または両方が間違っていますか？200200200 ステートメント1：被験者は20％残ります（たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです）。 100010001000200200200200200200 ステートメント2：特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

SVM =テンプレートマッチングとは

私はSVMについて読み、それらが最適化問題を解決していて、最大マージンのアイデアが非常に合理的であることを学びました。現在、カーネルを使用することで、非線形の分離境界でさえも見つけることができました。これまでのところ、SVM（特別なカーネルマシン）とカーネルマシンがニューラルネットワークとどのように関連しているか、私にはまったくわかりません。 Yann Lecunのコメントを検討してください=> ここ： kernel methods were a form of glorified template matching そしてここも：たとえば、一部の人々は、それに伴うかわいい数学のために、カーネルメソッドに夢中です。しかし、以前に言ったように、結局のところ、カーネルマシンは「見栄えの良いテンプレートマッチング」を実行する浅いネットワークです。これには何の問題もありませんが（SVMは優れた方法です）、私たち全員が知っておくべき悲惨な制限があります。だから私の質問は： SVMはニューラルネットワークとどのように関連していますか？浅いネットワークはどうですか？ SVMは明確に定義された目的関数で最適化問題を解決しますが、テンプレートマッチングはどのように行われますか？ここで入力が照合されるテンプレートは何ですか？これらのコメントには、高次元空間、ニューラルネット、カーネルマシンの完全な理解が必要だと思いますが、これまでのところ、私は試みており、その背後にあるロジックを把握できませんでした。しかし、2つの非常に異なるmlテクニック間の関係に注目するのは確かに興味深いことです。編集：ニューラルの観点からSVMを理解することは素晴らしいことだと思います。線形SVMとカーネルトリックを備えたSVMの両方の場合の、SVMとニューラルネット間のリンクを本当に理解するために、上記の2つの質問に対する完全な数学支援の答えを探しています。

9 machine-learning neural-networks svm deep-learning kernel-trick

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」