タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

3
ニューラルネットワークを非線形分類モデルにするものは何ですか?
私は非線形分類モデルの数学的な意味を理解しようとしています: ニューラルネットが非線形分類モデルであるという記事を読んだばかりです。 しかし、私はちょうどそれを理解しています: 最初の層: h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 次の層 y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} に簡略化できます =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} = b ' + x1(wh 1 y* wx 1 時間1+ wx 2 時間1* wh 2 y)+ x2(wh 1 y* wx 1 時間1+ wx 2 時間2* wh 2 y)=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) 2層ニューラルネットワークは単純な線形回帰です = b′+ x1* W′1+ x2* W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ これは、任意の数の重みの線形結合が再び線形であるため、任意の数のレイヤーに表示できます。 ニューラルネットを実際に非線形分類モデルにするものは何ですか? アクティベーション関数は、モデルの非線形性にどのように影響しますか? 説明して頂けますか?

1
ニューラルネットワークでの日の特徴の最適な構築
回帰問題に取り組んで、「曜日」機能の表現について考え始めました。私はどちらのアプローチがより良くなるのだろうか: 1つの機能。月曜日の値は1/7。火曜日は2/7 7つの機能:(1、0、0、0、0、0、0)月曜日; (0、1、0、0、0、0、0)火曜日... ネットワーク構成の違いにより、測定が困難です。(追加の6つの機能は、私が信じる隠れノードの数に反映されるはずです。) すべての機能の数は約20です。単純なbackpropを使用して、通常のフィードフォワードニューラルネットワークを学習します。


3
バッチサイズはSGDの収束にどのように影響しますか?
ミニバッチのサイズが大きくなると、SGDの収束が実際に難しく/悪化するという、多くの議論から同様の結論を見ました。たとえば、このペーパーとこの回答です。また、早い段階で小さな学習率やバッチサイズなどのトリックを使用して、大きなバッチサイズでこの問題に対処する人もいると聞きました。 ただし、ミニバッチの平均損失は、データ分布で予想される損失の近似と考えることができるため、直感に反するように見えます。 バッチサイズが大きいほど、正確になります。なぜ実際にはそうではないのですか?1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] 以下に、説明しようとする私の(おそらく間違った)考えをいくつか示します。 モデルのパラメーターは相互に大きく依存しています。バッチが大きくなりすぎると、一度に多くのパラメーターに影響を与え、パラメーターが安定した固有の依存関係に達するのが難しくなりますか?(バッチ正規化ペーパーで言及されている内部共変量シフト問題のように) または、ほぼすべてのパラメーターがすべての反復で責任がある場合、冗長な暗黙のパターンを学習する傾向があるため、モデルの容量が減少しますか?(つまり、数字の分類の問題については、いくつかのパターンがドット、エッジの原因となるはずですが、これが発生すると、すべてのパターンがすべての形状を担当しようとします)。 それとも、バッチサイズがトレーニングセットのスケールに近づくと、相関するミニバッチの確率が高くなるため、ミニバッチはデータ分布からiidとして認識できなくなるためですか? 更新 Benoit Sanchezの回答で指摘されているように、1つの重要な理由は、1つの更新を完了するために大きなミニバッチにより多くの計算が必要であり、ほとんどの分析が比較のために一定のトレーニングエポックを使用することです。 しかし、この論文(Wilson and Martinez、2003)は、十分な量のトレーニングエポックが与えられたとしても、バッチサイズを大きくすると依然として不利であることを示しています。一般的にそうですか?

2
ミニバッチトレーニングニューラルネット用にランダムに描画されたトレーニングサンプルは、置換せずに描画する必要がありますか?
利用可能なすべてのトレーニングサンプル全体を通過したものとしてエポックを定義し、勾配を下げるために必要な重み/バイアスの更新を見つけるために平均するサンプル数としてミニバッチサイズを定義します。 私の質問は、エポック内の各ミニバッチを生成するために、トレーニングサンプルのセットから置換せずに描画する必要があるかどうかです。エンドオブエポックの要件を満たすために実際に「すべてのサンプルを描画する」ために置換を回避する必要があると思いますが、何らかの方法で決定的な答えを見つけるのに苦労しています。 私はグーグルとChを読んでみました Nielsenのニューラルネットワークとディープラーニングの1つですが、明確な答えは見つかりませんでした。そのテキストでは、ニールセンは、ランダムサンプリングが置換なしで行われることを指定していませんが、そうであることを暗示しているようです。 エポックでのトレーニングの明確な形式化は、必要に応じてここで見つけることができます-https ://stats.stackexchange.com/a/141265/131630 編集:この質問は私に似ていましたが、期待の線形性がこの状況の独立性に無関心であるという事実をどのように適用するかは不明でした- サンプリングは置換の有無にかかわらず発生します

3
Conv1DとConv2Dの違いは何ですか?
私はkeras convolution docsを調べていましたが、Conv1DとConv2Dの2種類のけいれんを発見しました。私はいくつかのWeb検索を行いましたが、これがConv1DとConv2Dについて理解していることです。Conv1Dはシーケンスに使用され、Conv2Dは画像に使用します。 私は常に畳み込みニューラルネットワークが画像にのみ使用されていると考え、このようにCNNを視覚化しました 画像は大きなマトリックスと見なされ、フィルターはこのマトリックス上をスライドしてドット積を計算します。これは、kerasがConv2Dとして言及していることを信じています。Conv2Dがこのように機能する場合、Conv1Dのメカニズムはどのようなもので、そのメカニズムをどのように想像できますか?

2
ニューラルネットワークのサンプル、タイムステップ、機能の違い
LSTMニューラルネットワークに関する次のブログをご覧ください:http ://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ 著者は、LSTMのさまざまな構成のために、入力ベクトルXを[サンプル、タイムステップ、フィーチャ]として再形成します。 著者は書いている 実際、文字のシーケンスは、個別の機能の1つのタイムステップではなく、1つの機能のタイムステップです。ネットワークにより多くのコンテキストを与えましたが、期待したほど多くのシーケンスを与えていません これは何を意味するのでしょうか?

3
なぜオートエンコーダーが必要なのですか?
最近、私はオートエンコーダーを研究しています。正しく理解できれば、オートエンコーダーは、入力層が出力層と同一のニューラルネットワークです。そのため、ニューラルネットワークは、入力をゴールデンスタンダードとして使用して出力を予測しようとします。 このモデルの有用性は何ですか?いくつかの出力要素を再構成して、入力要素と可能な限り等しくすることの利点は何ですか?なぜ同じ出発点に到達するためにこの機械をすべて使用する必要があるのですか?

1
クイズ:判定境界で分類器に通知する
以下に6つの決定境界を示します。決定境界はスミレ線です。点と十字は2つの異なるデータセットです。どちらを決定する必要があります: 線形SVM カーネル化SVM(次数2の多項式カーネル) パーセプトロン ロジスティック回帰 ニューラルネットワーク(10の修正線形ユニットを含む1つの隠れ層) ニューラルネットワーク(10タン単位の1つの隠れ層) 解決策があります。しかし、もっと重要なのは、違いを理解することです。たとえば、c)は線形SVMです。決定境界は線形です。しかし、線形SVM決定境界の座標を均質化することもできます。d)多項式化された次数2であるため、カーネル化されたSVM。f)「粗い」エッジにより修正されたニューラルネットワーク。たぶんa)ロジスティック回帰:線形分類器でもありますが、確率に基づいています。


2
Echo State Networksの直感的な説明は何ですか?
私はリカレントニューラルネットワーク(RNN)が初めてであり、まだ概念を学んでいます。エコーステートネットワーク(ESN)は、入力が削除された後でも、入力シーケンス(信号)を(再)生成できることを抽象レベルで理解しています。しかし、Scholarpediaの記事を理解し、完全に理解するには難しすぎると感じました。 誰かが学習が数学的にどのように機能するかを可能な限り簡単な形で説明してください。

1
モデルの比較にR 2乗値は適切ですか?
私は、自動車の広告サイトで利用可能な価格と機能を使用して、自動車の価格を予測するための最良のモデルを特定しようとしています。 このために、scikit-learnライブラリーのモデルと、pybrainとneurolabのニューラルネットワークモデルを使用しました。これまでに使用したアプローチは、いくつかのモデル(機械学習アルゴリズム)で一定量のデータを実行し、scikit-learnメトリックモジュールで計算されたR2R2R^2値を比較することです。 あるR2R2R^2異なるモデルの性能を比較するための良い方法は? エラスティックネットやランダムフォレストなどのモデルでは非常に許容できる結果が得られましたが、ニューラルネットワークモデルのR2R2R^2値は非常に低いので、R2R2R^2はニューラルネットワーク(または非線形手法)を評価するための適切な方法ですか?

4
ニューラルネットワークで「自由度」とはどういう意味ですか?
Bishopの本「Pattern Classification and Machine Learning」では、ニューラルネットワークのコンテキストでの正則化の手法について説明しています。ただし、トレーニングプロセス中に、モデルの複雑度とともに自由度の数が増加することを説明する段落は理解できません。関連する引用は次のとおりです。 ネットワークの効果的な複雑さを制御する方法としての正規化の代替は、早期停止の手順です。非線形ネットワークモデルのトレーニングは、トレーニングデータのセットに関して定義されたエラー関数の反復的な削減に対応します。共役勾配など、ネットワークトレーニングに使用される最適化アルゴリズムの多くでは、エラーは反復インデックスの増加しない関数です。ただし、一般に検証セットと呼ばれる独立したデータに関して測定されたエラーは、多くの場合、最初は減少し、その後ネットワークが過剰になり始めると増加します。したがって、図5.12に示すように、検証データセットに関して最小のエラーのポイントでトレーニングを停止して、良好な一般化パフォーマンスを持つネットワークを取得できます。この場合のネットワークの振る舞いは、ネットワーク内の有効な自由度の観点から定性的に説明されることがあります。モデルの複雑さ。 また、トレーニングの過程でパラメーターの数が増加することも示しています。「パラメータ」とは、ネットワークの隠されたユニットによって制御される重みの数を指すと仮定していました。おそらく、正則化プロセスによって重みが大きさで増加することは防がれますが、数は変わらないので、私は間違っています。かなりの数の隠れユニットを見つけるプロセスを指しているのでしょうか? ニューラルネットワークの自由度とは何ですか?トレーニング中にどのパラメーターが増加しますか?

2
証券取引所での取引にニューラルネットワークを使用する
私はニューラルネットワークの分野に飛び込み、それらに夢中になりました。 最終的に、証券取引所の取引システムをテストするためのアプリケーションフレームワークを開発しました。次に、最初のニューラルネットワークを実装します。非常にシンプルで原始的なもので、実際の取引用ではなく、初心者向けです。 私のアプローチが良いアプローチであるかどうかを知りたいだけです。 そして、あなたが私が何かを見逃している(または何かについて間違っている)とわかるか、市場取引のニューラルネットワークの分野で初心者を助けることができるというアイデアを持っているなら、それは私をただ幸せにします:) 私は40のインプット、証券取引所からの市場価値を持っています(S&P e-miniですが、それは重要ではありません)。 これらの40個の入力に対して、2つの数値を知っています。 購入注文でどれくらいのお金を稼ぐか失うか 売り注文でどれくらいのお金を稼ぐか失うか 証券取引所の仕組みにより、両方の数値は実際には負/正になる可能性があり、買いと売りのどちらでもお金を失う/稼ぐことができることを示しています(これは、取引がSTOP、LIMIT動作が異なります)。 しかし、それが起こった場合、両方の買い注文と売り注文が正の数を与えたとしても、私はまったく注文をしてはならないことを示しています。 使用するのに最適なアクティベーション関数は...シグモイドのものですが、-1から1までの範囲であると思います(インターネットでは多くの名前と呼ばれていることがわかりました...双極シグモイド、タン、タンジェントなもの...私は深遠な数学者ではありません)。 バックプロパゲーション学習では、40の入力に対して1つの出力があり、この出力はこれらの数値の1つであることをネットワークに教えます。 -1は、売り注文はお金を稼ぎ、買いはお金を失うことを意味します +1は、買い注文はお金を稼ぎ、売りはお金を失うことを意味します 0は、買いと売りの両方がお金を売る/失うことを意味し、取引を避けるのが最善です 学習後、ネットワーク出力は常に-1、1、または0に近い数値になり、売買のしきい値を設定するのは自分次第だと想像しています。 これはニューラルネットワークを使用する正しい方法ですか? インターネット上のあらゆる場所で、学習者が逆伝播学習マシンに与える出力は、市場チャートの将来の値であり、異なるトレードエントリ(買いまたは売り)の期待収益率ではありません。将来のチャートの値には興味がなく、獲得したいお金に興味があるので、それは悪いアプローチだと思います。 編集:意思決定支援ではなく、自動取引用のニューラルネットワークを構築するつもりです。

4
CNN、カーネル、およびスケール/回転不変性について
CNNに関して私を混乱させる質問がいくつかあります。 1)CNNを使用して抽出された特徴は、スケールと回転不変ですか? 2)データとの畳み込みに使用するカーネルは、すでに文献で定義されていますか?これらのカーネルの種類は何ですか?それはアプリケーションごとに異なりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.