タグ付けされた質問 「neural-networks」

生物学的ニューロン(脳細胞)の簡略化されたモデルに触発されたネットワーク構造。ニューラルネットワークは、監視ありおよび監視なしの手法で「学習」するようにトレーニングされており、最適化問題、近似問題の解決、パターンの分類、およびそれらの組み合わせに使用できます。

2
トポロジに制限が設定されているため、ニューラルネットワークのパフォーマンスが向上するように見えるのはなぜですか?
完全に接続された(少なくとも2つ以上の隠れ層がある層から層へ)バックプロップネットワークは、普遍的な学習者です。残念ながら、彼らはしばしば学習が遅く、過度に適合したり、扱いにくい一般化を持つ傾向があります。 これらのネットワークにだまされてから、エッジの一部を枝刈りすることで(重みがゼロで変更できないように)、ネットワークの学習が速くなり、一般化が促進される傾向があることを確認しました。これには理由がありますか?それは、ウェイト検索スペースの次元の減少のためだけですか、それとももっと微妙な理由がありますか? また、より良い一般化は、私が見ている「自然な」問題の成果物ですか?


4
ニューラルネットワーク、深層学習システム、深層信念ネットワークの違いは何ですか?
ニューラルネットワーク、深層学習システム、深層信念ネットワークの違いは何ですか? 私が思い出したように、基本的なニューラルネットワークは3層のようなものであり、Deep Belief Systemsが互いに積み重ねられたニューラルネットワークであると説明しました。 最近、ディープラーニングシステムについて聞いたことがありませんが、Deep Belief Systemの同義語だと強く思います。誰でもこれを確認できますか?

1
ニューラルネットワークのVC次元の効率的な計算または近似
私の目標は、入力と出力で説明した次の問題を解決することです。 入力: 非循環有向グラフとM個のノード、N源、及び1つのシンク(M > N ≥ 1)。GGGmmmnnn111m>n≥1m>n≥1m > n \geq 1 出力: トポロジGのニューラルネットワークのVC次元(またはその近似)。GGG より詳細: 各ノードはシグモイドニューロンです。トポロジは固定されていますが、エッジの重みは学習アルゴリズムによって異なる場合があります。GGG 学習アルゴリズムは固定されています(後方伝播など)。 ソースノードは、入力ニューロンでのみから文字列を取ることができ、{ - 1 、1 } nは入力として。nnn{−1,1}n{−1,1}n\{-1,1\}^n シンクノードは出力ユニットです。それから、実際の値を出力し我々は切り上げることを1またはダウン- 1それは、より特定の固定のしきい値を超える場合δ離れてから0。[−1,1][−1,1][-1,1]111−1−1-1δδ\delta000 素朴なアプローチは、単にそれらを使ってネットワークを訓練しようとすることで、ますます多くのポイントを壊そうとすることです。ただし、この種のシミュレーション手法は効率的ではありません。 質問 この関数を計算するための効率的な方法はありますか(つまり、決定問題に変更されたときの:VC次元は入力パラメーターkよりも小さい?)?そうでない場合、硬度の結果はありますか?PP\mathsf{P}kkk この関数を計算または近似するための実用的な方法はありますか?近似値である場合、その精度について保証はありますか? ノート stats.SE についても同様の質問をしましたが、興味はありませんでした。

2
HTMのパフォーマンスに関する批判は何ですか?
私はこの階層的一時記憶(HTM)の存在について最近知りました。私はすでに「Hierarchical Temporal Memory:Concepts、Theory and Terminology」(Jeff Hawkins and Dileep Georgeによる)という文書を読んでいますが、理解しやすいと思われますが、1つの赤い旗は、文書が査読されておらず、なぜそうすべきかを説明しようとしていない詳細に作業します。 いくつかの独立したソースを探してみました。そのパフォーマンスを他のものと比較するいくつかの論文を見つけましたが、なぜそれがうまく機能する(またはそうでない)のかについては説明していません。私はそれが主流の専門家によって軽lookedされていると主張するコメントに気付きましたが、実際の批判を見つけることができませんでした。 HTMのパフォーマンスに関する批判は何ですか?HTMは汎用的であるため、ドメイン固有の批判は、より根本的な問題に関連している必要があります。 さらに、使用するトレーニングデータは膨大で、数か月のトレーニングセッションでも十分です。基本的に、トレーニングの規模や期間に関する批判は関係ありません。

2
ニューラルネットワークは常に収束する必要がありますか?
前書き 第一歩 標準的な逆伝播ニューラルネットワークを作成し、それをテストするために、XORをマップすることにしました。 2-2-1ネットワークです(tanhアクティベーション機能付き) X1 M1 O1 X2 M2 B1 B2 テストのために、手動で上部中間ニューロン(M1)をANDゲートに設定し、下部ニューロン(M2)をORゲートに設定します(真の場合は出力1、偽の場合は-1)。 また、接続M1-O1を手動で-.5、M2-O1を1、B2を-.75に設定しました。 したがって、M1 = 1およびM2 = 1の場合、合計は(-0.5 +1 -0.75 = -.25)tanh(0.25)= -0.24 M1 = -1およびM2 = 1の場合、合計は((-0.5)*(-1)+1 -0.75 = .75)tanh(0.75)= 0.63 M1 = -1およびM2 = -1の場合、合計は((-0.5)*(-1)-1 -0.75 = -1.25)tanh(1.25)= -0.8 これは、「最初の反復」では比較的良い結果です。 ステップ2 次に、これらの重みを少し変更し、エラー伝播アルゴリズム(勾配降下法に基づいて)を使用してそれらをトレーニングしました。この段階では、入力ニューロンと中間ニューロンの間の重みをそのままにして、中間(およびバイアス)と出力の間の重みを変更します。 テストでは、重みを.5 .4 .3に設定します(それぞれM1、M2、バイアス) ただし、ここで問題が発生し始めます。 私の質問 学習率を.2に設定し、10000回以上の反復のためにプログラムにトレーニングデータ(ABA …

3
多層パーセプトロンと多層ニューラルネットワークの違いは何ですか?
人工ニューラルネットワークが多層パーセプトロンであると言うのはいつですか? また、人工ニューラルネットワークが多層であると言うのはいつですか? パーセプトロンという用語は、重みを更新する学習規則に関連していますか? または、ニューロンユニットに関連していますか?

2
ニューラルネットワークの入力として日付をエンコードする方法は?
私はニューラルネットワークを使用して時系列を予測しています。私が今直面している問題は、日付/時刻/シリアル番号をどのようにエンコードするかです。ニューラルネットワークへの入力として設定された各入力の? ここで説明するように、Cエンコーディング(カテゴリのエンコーディングに使用)の1つを使用する必要がありますか? または、時間(1-1-1970からのミリ秒単位)を与える必要がありますか? または、残りのデータを時系列でフィードする限り、時間を不要にしていますか?

1
Google DeepDreamの詳細
このサイトでDeep Dreamに関するいくつかの質問を見てきましたが、DeepDreamが具体的に何をしているのかについて実際に話しているようには見えません。私が集めた限りでは、それらは目的関数を変更し、重み付けを更新する代わりに入力画像を更新するように逆伝播も変更したようです。 誰かがグーグルがしたことを正確に知っているのだろうかと思います。彼らは、最適化を実行するときにベイズの事前分布を課す彼らの記事の1つで言及しています。これにより、ニューラルネットが各ラベルの画像を吐き出すのはそれほど難しくないことを想像できます。ラベルを設定して、それに応じて入力ベクトルを最適化します。 ただし、ディープドリームの興味深い部分は、これをレイヤーごとに実行することです。この点で、レイヤーごとの方法で詳細を強調する方法がよくわかりません。 確かに、画像を入力すると各ニューロンの値が得られますが、その情報を使用して元の画像の詳細を誇張するにはどうすればよいでしょうか。これに関する詳細な報告を見つけるのに苦労しました。 参考資料:ここでvznが同様の質問に回答しました:https ://cs.stackexchange.com/a/44857/49671 そのリンクから、ここにDeepdreamの実装があります:http ://auduno.com/post/125362849838/visualizing-googlenet-classes ここで説明されているように、機能の誇張はありませんが、http://googleresearch.blogspot.com/2015/06/inceptionism-going-deeper-into-neural.html どちらも特定のクラスと特定のレイヤーの視覚化を示し、次のように言います。 ネットワークで増幅する機能を正確に規定する代わりに、ネットワークにその決定を任せることもできます。この場合、ネットワークに任意の画像または写真を送り、ネットワークに画像を分析させるだけです。次に、レイヤーを選択し、検出されたものを強化するようネットワークに要求します。

4
NP問題を解決するための進化型人工ニューラルネットワーク
私は最近、Google Research Blogからニューラルネットワークについて話している非常に興味深いブログエントリを読みました。基本的に、このニューラルネットワークを使用して、画像認識などのさまざまな問題を解決します。彼らは遺伝的アルゴリズムを使用して、軸索の重みを「進化」させます。 だから基本的に私の考えは次のとおりです。数字を認識するプログラムを書くことになっていた場合、どうやって始めればよいかわからない(漠然とした考えがあるかもしれませんが、私のポイントは、それは簡単ではなく、簡単ではありません)ですが、ニューラルネットワークを使用する必要はありません。ニューラルネットワークが進化するための適切なコンテキストを作成することにより、私のニューラルネットワークは「正しいアルゴリズムを見つけます」。以下で、記事の非常に興味深い部分を引用しました。そこでは、各層が画像認識のプロセスでどのように異なる役割を果たすかを説明しています。 ニューラルネットワークの課題の1つは、各レイヤーで何が起こっているかを正確に理解することです。トレーニング後、各レイヤーは、最終的なレイヤーが本質的に画像の表示内容を決定するまで、画像のより高いレベルの特徴を段階的に抽出します。たとえば、最初のレイヤーはエッジやコーナーを探している可能性があります。中間層は、基本的な機能を解釈して、ドアや葉などの全体的な形状やコンポーネントを探します。最後のいくつかの層は、それらを組み立てて完全な解釈にします。これらのニューロンは、建物全体や樹木などの非常に複雑なものに応答してアクティブになります。 だから基本的に私の質問は次のとおりです:すべてのNP問題を解決するために遺伝的アルゴリズム+ニューラルネットワークを使用できませんでしたか?適切な進化のコンテキストを作成し、「自然」に解決策を見つけさせるだけです。 インセプショニズム:ニューラルネットワークの詳細 編集:私は多くの場合、ブルートフォースを使用したり、非効率的なソリューションを見つけたりできることを知っています。それが、進化する人工ニューラルネットワークを強調する理由です。私がコメントで言ったように:十分な時間と適切な突然変異率があれば、最適な解決策を見つけることができました(または少なくともそれが私の考えです)。

1
強化学習における割引率の意味
アタリのゲームに関するグーグルディープマインドの成果を読んだ後、qラーニングとqネットワークを理解しようとしていますが、少し混乱しています。割引率の概念に混乱が生じます。私が理解していることの簡単な要約。深い畳み込みニューラルネットワークは、アクションの最適な期待値の値を推定するために使用されます。ネットワークは損失関数 どこ E S " [ Y | S 、A ]であり、 E [ R + γ M A X A ' Q (S '、' ; θ - I)| s、a] ここで、Qは累積スコア値、rは選択したアクションのスコア値です。s、a、 sL私= Es 、a 、r[(Es』[ y| s、a]−Q(s、a; θ私))2]Li=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2] L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right] Es』[ y| s、a]Es′[y|s,a]\mathbb{E}_{s'}\left[y|s,a\right]E [ r + γmは、Xがa』Q (s』、a』; θ−私)∣|s 、a ]E[r+γmaxa′Q(s′,a′;θi−)|s,a] \mathbb{E}\left[r+\gamma …

2
ニューラルネットワークの計算能力は活性化関数に関連していますか
有理な重みを持つニューラルネットワークは、ニューラルネットによるUniversal Turing Machine チューリング計算能力の計算能力を備えていることが証明されています。私が得た結果から、実際の重みを使用すると、計算能力がさらに向上するようですが、これについてはよくわかりません。 しかし、ニューラルネットの計算能力とその活性化関数の間には何らかの相関関係がありますか?たとえば、アクティベーション関数が入力をSpeckerシーケンスの制限と比較する場合(通常のTuringマシンでは実行できないことです)、これによりニューラルネットが計算上「より強く」なりますか?誰かが私にこの方向の参照を指摘できますか?


1
逆伝播アルゴリズムの運動量項はどのように機能しますか?
運動量項を含むバックプロパゲーションアルゴリズムを使用してニューラルネットワークの重みを更新する場合、学習率を運動量項にも適用する必要がありますか? 運動量の使用に関して私が見つけることができるほとんどの情報は、次のような方程式を持っています。 W′i=Wi−αΔWi+μΔWi−1Wi′=Wi−αΔWi+μΔWi−1W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1} ここで、は学習率、は運動量項です。αα\alphaμμ\mu 場合用語がより大きくなる次の繰り返しで、その後長期前の反復からは、現在のものよりも重量に大きな影響を持つことになります。μμ\muαα\alphaΔWΔW\Delta W これは勢い用語の目的ですか?または方程式はもっとこのように見えるべきですか? W′i=Wi−α(ΔWi+μΔWi−1)Wi′=Wi−α(ΔWi+μΔWi−1)W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1}) すなわち。すべてを学習率でスケーリングしていますか?

3
いつk最近傍を超えて移動すべきですか
私たちが行う多くの機械学習プロジェクトでは、k最近傍分類子から始めます。通常、すべての距離を計算するのに十分な時間があるため、これは理想的な開始分類子であり、パラメーターの数は制限されています(k、距離メトリック、および重み付け)。 ただし、プロジェクトの後半で別の分類器に切り替える余地がないため、これにはknn分類器を使用するという効果があります。新しい分類子を試す正当な理由は何でしょうか。明らかなのはメモリと時間の制約ですが、別の分類子が実際に精度を改善できるケースはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.