統計とビッグデータ neural-networks

11

フィードフォワードニューラルネットワークで、レイヤーの数と各レイヤーのノードの数を選択するための標準的で受け入れられている方法はありますか？ニューラルネットワークを構築する自動化された方法に興味があります。

541 model-selection neural-networks

5

ニューラルネットワークをトレーニングするためのトレードオフバッチサイズと反復回数

ニューラルネットワークをトレーニングする場合、設定するとどのような違いがありますか？バッチサイズを、反復回数をaaabbb vs.バッチサイズ、反復回数cccddd ここで、？ab=cdab=cd ab = cd 別の言い方をすれば、同じ量のトレーニング例でニューラルネットワークをトレーニングすると仮定して、最適なバッチサイズと反復回数を設定する方法は？（ここで、バッチサイズ*反復数=ニューラルネットワークに表示されるトレーニング例の数、同じトレーニング例が複数回表示される可能性があります）バッチサイズが大きいほど、必要なメモリスペースが多くなり、多くの場合計算が速くなることを認識しています。しかし、訓練されたネットワークのパフォーマンスに関して、それはどのような違いをもたらしますか？

222 neural-networks train

4

ニューラルネットワークの隠れ層は何を計算しますか？

多くの人々が「あなたのためにグーグルにさせてください」へのリンクで応答すると確信しているので、私はこれを理解しようとしたと言いたいので、ここでの私の理解不足を許してください、しかし、私はどのようにニューラルネットワークの実際の実装は実際に機能します。入力レイヤーとデータの正規化方法、バイアスユニットも理解していますが、非表示レイヤーについては、実際の計算はそのレイヤーで行われ、出力にどのようにマッピングされるかは少しぼやけています。非表示レイヤーに疑問符、AND / OR / XORなどのブール関数、アクティベーション関数、すべての非表示ユニットにマップする入力ノード、および各非表示ユニットのみにマップする入力ノードを含む図を見てきました私は実際的な面でいくつか質問があります。もちろん、子供に説明するようなニューラルネットワークプロセス全体の簡単な説明は素晴らしいでしょう。隠れ層でどのような計算が行われますか？これらの計算は出力レイヤーにどのようにマッピングされますか？出力層はどのように機能しますか？非表示層からのデータの非正規化？入力層の一部の層が非表示層に接続されていて、一部が接続されていない理由

187 machine-learning neural-networks nonlinear-regression

4

ニューラルネットワークのバッチサイズとは何ですか？

Python Keras packageニューラルネットワークに使用しています。これがリンクです。であるがbatch_size、試験サンプルの数に等しいですか？ウィキペディアから次の情報があります。ただし、他の場合では、sum-gradientを評価するには、すべてのsummand関数からの勾配の高価な評価が必要になる場合があります。トレーニングセットが膨大で、単純な公式が存在しない場合、勾配の評価にはすべての加数関数の勾配を評価する必要があるため、勾配の合計の評価は非常に高価になります。すべての反復で計算コストを節約するために、確率的勾配降下では、すべてのステップで被加数関数のサブセットをサンプリングします。これは、大規模な機械学習の問題の場合に非常に効果的です。上記の情報はテストデータを説明していますか？これbatch_sizeはkeras（勾配更新ごとのサンプル数）と同じですか？

175 neural-networks python terminology keras

5

ニューラルネットワークが学習しない場合はどうすればよいですか？

ニューラルネットワークをトレーニングしていますが、トレーニングの損失は減りません。どうすれば修正できますか？過剰適合や正則化については質問していません。ネットワークのパフォーマンスがトレーニングセットで改善されない問題を解決する方法について質問しています。この質問は意図的に一般的なものであるため、ニューラルネットワークのトレーニング方法に関する他の質問は、この質問の複製として閉じることができます。釣りをする人、あなたは彼の人生の残りの間彼を養うことができる議論については、このメタスレッドを参照してください。「私のニューラルネットワークが機能しないので、修正してください」という質問に答える最良の方法は何ですか？ニューラルネットワークが一般化されていない場合は、次を参照してください：ニューラルネットワークが一般化されていない場合はどうすればよいですか？

147 neural-networks deep-learning

6

ディープニューラルネットワークのシグモイド関数に対するReLUの利点は何ですか？

最先端の非線形性は、ディープニューラルネットワークでシグモイド関数の代わりに整流線形ユニット（ReLU）を使用することです。利点は何ですか？ ReLUが使用されているときにネットワークをトレーニングする方が速くなることを知っています。それはより生物学的なインスピレーションです。他の利点は何ですか？（つまり、シグモイドを使用することの欠点）？

141 machine-learning neural-networks deep-learning

2

ニューラルネットワークで使用されるコスト関数のリストとアプリケーション

ニューラルネットワークのパフォーマンスの評価に使用される一般的なコスト関数は何ですか？詳細（この質問の残りの部分は自由にスキップしてください。ここでの私の意図は、回答が一般読者に理解しやすくするために使用できる表記法を明確にすることです）共通のコスト関数のリストを、それらが実際に使用されているいくつかの方法と一緒に持っていると便利だと思います。だから、他の人がこれに興味があるなら、コミュニティwikiがおそらく最良のアプローチだと思うか、トピックから外れている場合は削除することができます。表記法まず、これらを説明するときに全員が使用する表記法を定義したいので、回答が互いにうまく適合するようにします。この表記は、ニールセンの本からのものです。フィードフォワードニューラルネットワークは、互いに接続されたニューロンの多くの層です。次に、入力を受け取り、その入力はネットワークを「トリクル」し、ニューラルネットワークは出力ベクトルを返します。より正式には層のニューロンの活性化（別名出力）と呼びます。ここでは入力ベクトルの要素です。 j t h i t h a 1 j j t haijajia^i_jjthjthj^{th}ithithi^{th}a1jaj1a^1_jjthjthj^{th} 次に、次の関係を介して、次のレイヤーの入力を前のレイヤーの入力に関連付けることができます。 aij=σ(∑k(wijk⋅ai−1k)+bij)aji=σ(∑k(wjki⋅aki−1)+bji)a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j) どこ σσ\sigmaはアクティベーション関数です。 k t h（i − 1 ）t h j t h i t hwijkwjkiw^i_{jk}から重量であるのニューロンにレイヤのニューロン層、kthkthk^{th}(i−1)th(i−1)th(i-1)^{th}jthjthj^{th}ithithi^{th} j t h i t …

133 machine-learning neural-networks

4

畳み込みニューラルネットワーク、制限付きボルツマンマシン、および自動エンコーダーの違いは何ですか？

最近、私はディープラーニングについて読んでいますが、用語（またはテクノロジー）について混乱しています。違いは何ですか畳み込みニューラルネットワーク（CNN）、制限付きボルツマンマシン（RBM）および自動エンコーダー？

123 neural-networks deep-learning conv-neural-network autoencoders rbm

10

ニューラルネットワークとディープニューラルネットワークの違いは何ですか？また、ディープニューラルネットワークの方が優れているのはなぜですか？

これらの用語で正確に述べられた質問を見たことがないので、新しい質問をするのはこのためです。私が知りたいのは、ニューラルネットワークの定義ではなく、ディープニューラルネットワークとの実際の違いを理解することです。コンテキストについて：ニューラルネットワークとは何か、逆伝播がどのように機能するかを知っています。DNNには複数の非表示層が必要であることを知っています。しかし、10年前のクラスでは、ニューラルネットワークが表現できる機能の点で、複数の層または1つの層（入力層と出力層をカウントしない）を持つことは同等であることを知りました（サイベンコの普遍近似定理を参照）、そしてレイヤーが増えると、パフォーマンスが向上せずに分析が複雑になります。明らかに、そうではありません。私はおそらく間違っていると思いますが、違いは構造ではなくトレーニングアルゴリズムとプロパティの面にあり、したがって、答えがDNNへの移行を可能にした理由を強調することができれば本当に感謝します（たとえば、数学的な証明またはネットワークでランダムに遊ぶ？）および望ましい（例：収束の速度？）

114 neural-networks deep-learning

6

ニューラルネットワークでの1x1畳み込みの意味

現在、Udacity Deep Learning Tutorialを行っています。レッスン3では、1x1畳み込みについて説明します。この1x1コンボリューションは、Google Inception Moduleで使用されます。1x1コンボリューションとは何かを理解できません。 Yann Lecunによるこの投稿も見ました。誰かが親切にこれを私に説明できますか？

106 neural-networks deep-learning convolution conv-neural-network

6

バックプロパゲーションなしでニューラルネットワークをトレーニングすることは可能ですか？

多くのニューラルネットワークの本やチュートリアルでは、基本的に勾配を計算するツールである逆伝播アルゴリズムに多くの時間を費やしています。〜10Kのパラメーター/ウェイトでモデルを構築していると仮定しましょう。勾配のない最適化アルゴリズムを使用して最適化を実行することはできますか？数値勾配の計算は遅すぎると思いますが、ネルダーミード、シミュレーテッドアニーリング、遺伝的アルゴリズムなどの他の方法はどうですか？すべてのアルゴリズムは極小に苦しむでしょうが、なぜ勾配に取りつかれているのでしょうか？

94 machine-learning neural-networks optimization backpropagation

3

神経正味重量減衰と学習率の違い

ニューラルネットワークのコンテキストでは、学習率と体重減少の違いは何ですか？

94 neural-networks terminology

5

賛否両論のあるニューラルネットワークの活性化関数の包括的なリスト

ニューラルネットワークの活性化関数の長所と短所（および理想的には成功した、またはあまり成功していない出版物へのいくつかのポインター）の包括的なリストを提供する参照文書はありますか？

94 neural-networks references

2

ニューラルネットワークの埋め込み層とは何ですか？

多くのニューラルネットワークライブラリには、KerasやLasagneのような「埋め込み層」があります。ドキュメントを読んでも、その機能を理解しているかどうかはわかりません。たとえば、Kerasのドキュメントには次のように記載されています。正の整数（インデックス）を固定サイズの密ベクトルに変換します。[[4]、[20]]-> [[0.25、0.1]、[0.6、-0.2]] 知識のある人がそれが何をするのか、いつそれを使うのかを説明できますか？編集：ドキュメントの貼り付けに関して、ドキュメントから貼り付けることはあまりないので、私の質問です。私はそれがどのような変換を行うのか、なぜそれを使用すべきなのか理解していません。とにかく、これはケラスで説明されている方法です：埋め込み keras.layers.embeddings.Embedding（input_dim、output_dim、init = 'uniform'、input_length = None、weights = None、W_regularizer = None、W_constraint = None、mask_zero = False）正の整数（インデックス）を固定サイズの密ベクトルに変換します、たとえば [[4]、[20]]-> [[0.25、0.1]、[0.6、-0.2]] 入力形状：形状を持つ2Dテンソル：（nb_samples、sequence_length）。出力形状：形状を持つ3Dテンソル：（nb_samples、sequence_length、output_dim）。引数： input_dim：int> =0。語彙のサイズ。1+入力データで発生する最大整数インデックス。output_dim：int> =0。密な埋め込みの次元そして、それはラザニアでそれがどのように説明されるかです：単語を埋め込むためのレイヤー。入力は整数型のテンソル変数でなければなりません。パラメーター：incoming：Layerインスタンスまたはタプルこのレイヤーに入力するレイヤー、または予想される入力形状。 input_size：int さまざまな埋め込みの数。最後の埋め込みのインデックスはinput_size-1です。 output_size：int 各埋め込みのサイズ。 W：Theano共有変数、式、numpy配列または呼び出し可能埋め込み行列の初期値、式または初期化子。これは、形状（input_size、output_size）の行列でなければなりません。詳細については、lasagne.utils.create_param（）を参照してください。例 >>> from lasagne.layers import EmbeddingLayer, InputLayer, get_output >>> import theano >>> x …

92 machine-learning neural-networks python word-embeddings

1

ニューラルネットワークを時系列予測に適用する方法

私は機械学習が初めてであり、ニューラルネットワークを時系列予測に適用する方法を模索しています。クエリに関連するリソースを見つけましたが、まだ少し失われているようです。あまり詳細を述べない基本的な説明が役立つと思います。数年にわたって毎月の価格の値があり、新しい価格の値を予測したいとします。過去数か月間の価格のリストを取得し、K-Nearest-Neighborを使用して過去の同様の傾向を見つけようとしました。変化率や過去のトレンドのその他の特性を使用して、新しい価格を試して予測することができました。この同じ問題にニューラルネットワークを適用する方法は、私が見つけようとしていることです。

83 time-series forecasting neural-networks

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」