統計とビッグデータ neural-networks

1

ニューラルネットワークの "Maxout"アクティベーション機能が何を意味するのかを正確に理解しようとしています。あり、この質問、本論文では、とさえによって深い学習帳にBengioら。、ただし、ほんの少しの情報と、その隣に大きなTODOがある場合を除きます。わかりやすくするために、ここで説明する表記を使用します。私はそれを再入力して質問を膨らませたくないだけです。簡単に言うと、aij=σ(zij)=σ(∑kai−1kwijk+bij)aji=σ(zji)=σ(∑kaki−1wjki+bji)a^i_j=\sigma(z^i_j)=\sigma(\sum\limits_k a^{i-1}_kw^i_{jk}+b^i_j)、言い換えると、ニューロンには単一のバイアス、各入力に対して単一の重み、次に、入力と重みの合計を合計し、バイアスを追加し、アクティブ化関数を適用して、出力（アクティブ化）値を取得します。これまでのところ、Maxoutは「入力の最大値を出力する」アクティベーション関数であることを知っています。どういう意味ですか？これから私が解釈できるいくつかのアイデアがあります： aij=maxk(ai−1k)aji=maxk(aki−1)a^i_j=\max\limits_k (a^{i-1}_k) aij=maxk(ai−1kwijk)+bijaji=maxk(aki−1wjki)+bjia^i_j=\max\limits_k (a^{i-1}_kw^i_{jk})+b^i_jは、通常行われる合計を最大値で置き換えるだけです。 aij=maxk(ai−1kwijk+bijk)aji=maxk(aki−1wjki+bjki)a^i_j=\max\limits_k (a^{i-1}_kw^i_{jk}+b^i_{jk})、ここで各ニューロンは、適用された単一のバイアス値ではなく、各入力に対して1つのバイアス値を持ちますすべての入力を合計した後。これにより、バックプロパゲーションが異なりますが、それでも可能です。各は通常どおりに計算され、各ニューロンには各入力に対して単一のバイアスと重みがあります。ただし、softmax（a ^ i_j = \ frac {\ exp（z ^ i_j）} {\ sum \ limits_k \ exp（z ^ i_k）}）と同様に、現在のレイヤーのすべてのzの最大値を取ります。正式には、a ^ i_j = \ max \ limits_k z ^ i_kです。zijzjiz^i_jaij=exp(zij)∑kexp(zik)aji=exp⁡(zji)∑kexp⁡(zki)a^i_j = \frac{\exp(z^i_j)}{\sum\limits_k \exp(z^i_k)}zzzaij=maxkzikaji=maxkzkia^i_j=\max\limits_k z^i_k これらのいずれかが正しいですか？それとも何か違うのですか？

8 machine-learning neural-networks

2

ソフトマックスユニットはどのように導出され、どのような意味がありますか？

私はソフトマックス関数がそのように定義されている理由を理解しようとしています： ezjΣKk=1ezk=σ(z)ezjΣk=1Kezk=σ(z)\frac{e^{z_{j}}} {\Sigma^{K}_{k=1}{e^{z_{k}}}} = \sigma(z) これがデータを正規化し、いくつかの範囲（0、1）に適切にマッピングする方法を理解していますが、重みの確率の違いは線形ではなく指数関数的に変化します。この動作が必要な理由はありますか？また、この方程式はかなり恣意的であるように思われ、方程式の大規模なファミリーが私たちの要件を満たすことができると私は感じています。私はオンラインで派生物を見たことがないので、それは単なる定義であると想定しています。同じ要件を満たす他の定義を選択してみませんか？

8 probability neural-networks softmax

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

深層学習アルゴリズム

ディープビリーフネットワークとディープコンベックスネットワークの違いは何ですか？

8 machine-learning neural-networks deep-learning deep-belief-networks

2

スパースオートエンコーダー[ハイパー]パラメーター

Rでautoencoderパッケージを使い始めました。 autoencode()関数への入力には、ラムダ、ベータ、ロー、イプシロンが含まれます。これらの値の境界は何ですか？アクティベーション機能ごとに異なりますか？これらのパラメーターは「ハイパーパラメーター」と呼ばれますか？スパースオートエンコーダーを想定すると、rho = .01はロジスティックアクティベーション関数に、rho =-。9は双曲線正接アクティベーション関数に適していますか？マニュアルでイプシロンが.001に設定されているのはなぜですか？私の記憶が正しければ、LeCunの「Efficient Backpropagation」では、ゼロにそれほど近い値ではない開始値を推奨しています。ベータの「良い」値はどのくらい重要ですか？隠れ層のヌエロンの数を選択するための「経験則」はありますか？たとえば、入力層にN個のノードがある場合、非表示層のに2N個のヌロンを含めるのは妥当ですか？オートエンコーダの実際の使用に関するいくつかの文献をお勧めできますか？

8 neural-networks optimization deep-learning deep-belief-networks autoencoders

2

古典的なNNよりもベイズの正則化されたNN

古典的なニューラルネットワークは通常、十分な汎化能力を欠いており、通常は不正確な予測をもたらすと主張するいくつかの研究記事を見てきました。ベイズの正則化ANN（BRANN）は、標準の逆伝播ネットよりも堅牢であり、長い相互検証の必要性。ただし、これらの記事は、この主張に対して適切な理由付け/正当化を行うには不十分です。 BRANNはどのような方法で、またはどのような目的で従来のNNよりも優れていますか？なぜ？

8 bayesian neural-networks

1

2つのチーム間の以前の試合の結果のみに基づいて、サッカーの試合の勝者を予測する

私はフットボール（サッカー）の大ファンで、機械学習にも興味があります。私のMLコースのプロジェクトとして、ホームチームとアウェイチームの名前から、ホームチームの勝率を予測するモデルを構築しようとしています。（私は自分のデータセットをクエリし、それに応じて、これら2つのチーム間の以前の一致に基づいてデータポイントを作成します）私はすべてのチームのいくつかのシーズンのデータを持っていますが、アドバイスが必要な次の問題があります。EPL（イングリッシュプレミアリーグ）には20のチームがあり、国内と海外でプレーしています（1シーズンで合計380ゲーム）。したがって、シーズンごとに、どの2つのチームも2度しかプレーしません。過去10年以上のデータがあるため、2つのチームで2 * 10 = 20データポイントになります。ただし、チームは時間の経過とともにかなり変化し（ManCity、Liverpool）、システムにさらに多くのエラーが発生するだけなので、3年以上はやりたくないと思います。したがって、これにより、チームの各ペアで約6〜8データポイントになります。ただし、私は両方のチームのフルタイムのゴール、ハーフタイムのゴール、パス、ショット、イエロー、レッドなどの各データポイントにいくつかの機能（最大20+）を持っているので、最近のフォーム、最近のような機能を含めることができますホームフォーム、最近のアウェイフォームなどただし、トレーニングするデータポイントが6〜8個しかないという考えは、私には正しくないようです。この問題にどのように対抗できるかについての考えはありますか？（これが最初の問題である場合）

8 regression machine-learning predictive-models neural-networks

2

Rのニューラルネットワークを使用した時系列予測の例

誰もnnetが予測のためにニューラルネットワーク（Rなど）を使用する簡単な短い教育例を持っていますか？これは時系列のRの例です T <- seq(0,20,length=200) Y <- 1 + 3*cos(4*T+2) +.2*T^2 + rnorm(200) plot(T,Y,type="l") これはほんの一例ですが、私が持っているのは、季節変動の激しいデータです。

8 r time-series machine-learning neural-networks nnet

2

Rでのニューラルネットワーク出力の解釈

私は自分のデータのニューラルネットワークを作成することができました。しかし、R出力の解釈についてはよくわかりません。次のコマンドを使用してニューラルネットワークを作成しました。 > net=nnet(formula = category~iplen+date_time, size=0,skip=T,lineout=T) # weights: 3 initial value 136242.000000 final value 136242.000000 converged 次に、次のコマンドを使用して出力を確認しました。 > summary(net) a 2-0-1 network with 3 weights options were - skip-layer connections b->o i1->o i2->o 0.64 -0.46 0.15 上記の出力から、次のニューラルネットワークの図を結論付けることができますか？ 2番目の質問は、この図がどれほど有用であるかをどのように知ることができるかです。つまり、独立変数からカテゴリー番号（ターゲット変数）を見つけたかったのです。では、このネットワークが本当にカテゴリ（ターゲット変数）を予測するのに役立つかどうかをどのように判断できますか最終的な出力は何ですか、またはそれを見つける方法は？上記のnネットワークから次の出力を結論付けることはできますか？： category= -0.46(iplen)+0.15(date_time)+0.64 よろしく、

8 r neural-networks

1

ニューラルネットワークへの入力は[-1,1]である必要がありますか？

ニューラルネットワークを使用して天気予報を作成したい。私が見たすべての例では、入力として値[-1,1]のみを使用しました。入力として大きな値（気圧、過去2日間のカルシウス度など）を入力として使用して、数値を出力として取得することもできますか？ありがとうございました

8 neural-networks

1

ニューロエボリューションは、ニューラルネットワークや遺伝的アルゴリズムの基本的なアプリケーションよりも優れています。

遺伝的アルゴリズムとニューラルネットワークを一般的な神経進化のフレームワークに組み合わせることに最近関心が集まっています。基本的な考え方は、あなたの遺伝的アルゴリズムは多くのニューラルネットワークのパラメーターを進化させ、それが次に目の前のタスクを解くために使われるということです。一種の遺伝的プログラミングですが、コードスニペットを進化させて何らかのタスクを実行する代わりに、ニューラルネットワークを進化させています。ニューラルネットワークや遺伝的アルゴリズムを単独で使用する代わりに、この組み合わせアプローチをいつ使用すればよいですか？どのような種類の問題について、組み合わせたアプローチは個々のアプローチよりも良い結果をもたらしましたか？組み合わせたアプローチが「最良の」アプローチとはどのような種類の問題ですか？

8 neural-networks genetic-algorithms

3

Rのリカレントニューラルネットワーク

ニューラルネットワークを使用して時系列、特に再帰型ニューラルネットワークを予測することについて少し聞いたことがあります。 Rのリカレントニューラルネットワークパッケージはありますか？CRANで見つけられないようです。私が来ている最も近いですnnetTsがで機能tsDynのパッケージが、それは単に呼び出すNNETのから機能NNETのパッケージを。それについて特別な、または「繰り返し」は何もありません。

8 r time-series forecasting neural-networks

2

予測財務時系列のk倍CV —最後の倍のパフォーマンスはより関連性がありますか？

財務時系列のANNベースの予測モデルに取り組んでいます。私は5分割交差検証を使用しており、平均パフォーマンスはそうです。最後のフォールド（最後のセグメントがトレーニングから省略され、検証に使用される反復）のパフォーマンスは、平均よりも優れています。これは偶然/データ依存ですか、それとも通常、最後の折り目の検証パフォーマンスは優れていますか？（おそらく、先行するすべてのデータを使用したトレーニングは、時系列内の後続のデータにより関連しているため）これは少し奇妙な質問のように感じますが、とにかくいくつかの応答を期待しています。前もって感謝します：）

8 time-series cross-validation neural-networks finance

1

ノイズを伴うデータ拡張を使用したより高いオーバーフィッティング？

私はオーディオ分類のニューラルネットワークをトレーニングしています。 UrbanSound8Kデータセット（Model1）でトレーニングした後、入力に追加されたノイズの異なるレベルが予測精度にどのように影響したかを評価したいと思いました。ベースライン精度モデル1 = 65％予想通り、ノイズのレベルが高くなると精度が低下しました。次に、ノイズを使用したデータ拡張（Model2）を実行することにしました。それで、データセットを取り、同じファイルで複製しましたが、ピンクノイズ（+0 dB SNR）を追加しています。（私が）予想したように、全体的な精度が向上し（非常にわずかですが、0.5％）、ネットワークは入力のノイズ破損に対してより堅牢になりました。しかしながら！私が予期していなかったことの1つは、ノイズのある破損のない入力（検証入力）のみを予測すると、ネットワークの精度が低下することでした。どういうわけか、それはクリーンな入力に適合しすぎているため、これらのオーディオの予測精度が低下しています。したがって、Model2は数値で予測すると、ノイズの多い入力では69％の精度（必ずしも訓練されたのと同じノイズではない）で予測し、クリーンな入力では47％の精度で予測します。この結果について何か説明や直感はありますか？ネットワークは、ますます多様なトレーニングデータを持っているため、より有意義な機能を学習するだろうと期待していました。ノイズの多い入力にオーバーフィットする方が難しいと思いますが、それでも主にクリーンな入力にオーバーフィットした理由がわかりません。 -------------------------------------------------編集1 ------------------------------------------------- --------------- 役立つかもしれない別の情報：ノイズがほとんどないノイズの多い入力でModel2を評価する場合でも、ネットワークはクリーンな入力（耳へのノイズがほとんどない入力とほとんど同じ）の場合よりもパフォーマンスが優れています。

8 classification neural-networks dataset overfitting

2

LSTMがバニラリカレントニューロンネットワークよりも情報ラッチングのパフォーマンスが悪い理由

ベンジオらによる「勾配降下法による長期依存性の学習は難しい」という論文から実験をやり直すことで、LSTMがバニラ/単純リカレントニューラルネットワーク（SRNN）よりも長い期間情報を記憶できる理由をよく理解したいと思います。1994。その論文の図1と2を参照してください。シーケンスが指定されている場合、タスクは単純です。高い値（1など）で始まる場合、出力ラベルは1です。低い値（たとえば-1）で始まる場合、出力ラベルは0です。中央はノイズです。このタスクは、モデルが正しいラベルを出力するためにミドルノイズを通過するときに開始値を覚えておく必要があるため、情報ラッチと呼ばれます。単一ニューロンRNNを使用して、このような動作を示すモデルを作成しました。図2（b）は結果を示しています。このようなモデルのトレーニングの成功頻度は、シーケンスの長さが増加するにつれて劇的に減少します。LSTMは、1994年にまだ発明されていないため、結果はありませんでした。それで、私は好奇心が強くなり、LSTMが実際にそのようなタスクに対してより良いパフォーマンスを発揮するかどうかを見たいと思います。同様に、バニラセルとLSTMセルの両方に単一のニューロンRNNを構築して、情報ラッチをモデル化しました。驚いたことに、LSTMのパフォーマンスが低下していることがわかりました。理由はわかりません。誰かが私を説明するのを手伝ってもらえますか、または私のコードに何か問題がある場合はどうですか？これが私の結果です：これが私のコードです： import matplotlib.pyplot as plt import numpy as np from keras.models import Model from keras.layers import Input, LSTM, Dense, SimpleRNN N = 10000 num_repeats = 30 num_epochs = 5 # sequence length options lens = [2, 5, 8, 10, 15, 20, 25, 30] + np.arange(30, 210, …

8 neural-networks lstm tensorflow rnn keras

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」