タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。


6
指数関数的減衰を伴うAdamオプティマイザー
ほとんどのTensorflowコードで、Adam Optimizerが一定の学習率1e-4(つまり0.0001)で使用されているのを見ました。通常、コードは次のようになります。 ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually intialize the variables sess.run(init_op) # now …

5
ニューラルネットワークとサポートベクターマシン:2番目は間違いなく優れていますか?
私が読んだ論文の多くの著者は、SVMが回帰/分類の問題に直面するための優れた手法であり、NNを介して同様の結果を得ることができないことを認識しています。多くの場合、比較では NNではなくSVM 強力な創立理論を持っている 二次計画法によるグローバル最適化に到達 適切な数のパラメーターを選択しても問題ありません 過剰適合の傾向が少ない 予測モデルを保存するために必要なメモリが少ない より読みやすい結果と幾何学的解釈をもたらす それは真剣に広く受け入れられた考えですか?ノーフリーランチ定理や同様の記述を引用しないでください。私の質問は、これらのテクニックの実用的な使用法です。 反対に、NNが直面する抽象的な問題はどのようなものですか?

2
教師なしクラスタリングに人工ニューラルネットワークANNを使用するにはどうすればよいですか?
artificial neural network (ANN)予測の誤差を減らすことでフィッティングを改善するために、逆伝播を使用して教師付き方法でをトレーニングする方法を理解しています。ANNは教師なし学習に使用できると聞いたことがありますが、最適化段階を導くための何らかのコスト関数なしでこれを行うにはどうすればよいですか?k-meansまたはEMアルゴリズムでは、各反復が増加するように検索する関数があります。 ANNを使用してクラスタリングを実行するにはどうすればよいですか?また、同じ場所でデータポイントをグループ化するためにどのメカニズムを使用しますか? (さらにレイヤーを追加するとどのような追加機能がもたらされますか?)

1
確率的勾配降下の場合、バッチサイズはどれくらいの大きさにすべきですか?
確率的勾配降下法を使用して、トレーニングデータセットの異なるサンプルで各反復を更新することにより、バックプロパゲーションを使用してニューラルネットワークを最適化できることを理解しています。 バッチサイズはどれくらいの大きさにすべきですか?

3
ロジスティック回帰が線形分類器であるのはなぜですか?
ロジスティック関数を使用して入力の線形結合を非線形出力に変換しているので、ロジスティック回帰を線形分類器とみなすにはどうすればよいですか? 線形回帰は、隠れ層のないニューラルネットワークのようなものです。なぜニューラルネットワークは非線形分類器と見なされ、ロジスティック回帰は線形なのでしょうか。

3
リカレントニューラルネットワークと再帰的ニューラルネットワーク:NLPのどちらが良いですか?
リカレントニューラルネットワークと再帰ニューラルネットワークがあります。通常、両方とも同じ頭字語RNNで示されます。ウィキペディアによると、リカレントNNは実際には再帰NNですが、説明は本当にわかりません。 さらに、私はどちらが自然言語処理のために優れているか(例などを使って)見つけることができないようです。事実、SocherはチュートリアルでNLPにRecursive NNを使用していますが、再帰ニューラルネットワークの適切な実装を見つけることができず、Googleで検索すると、ほとんどの回答がRecurrent NNに関するものです。 それに加えて、NLPにより適した別のDNNがありますか、それともNLPタスクに依存しますか?Deep Belief NetsまたはStacked Autoencoders?(私はNLPでConvNetsの特定のユーティリティを見つけていないようで、ほとんどの実装はマシンビジョンを念頭に置いています)。 最後に、PythonやMatlab / Octaveではなく、C ++(GPUサポートがある場合はさらに良い)またはScala(Sparkサポートがある場合は良い)のDNN実装を本当に好むでしょう。 Deeplearning4jを試しましたが、絶えず開発されており、ドキュメントは少し時代遅れであり、動作させることができないようです。残念なことに、それは物事のやり方のような「ブラックボックス」を持っているので、scikit-learnやWekaにとてもよく似ています。

2
畳み込みニューラルネットワークがサポートベクターマシンを使用して分類しないのはなぜですか?
近年、畳み込みニューラルネットワーク(CNN)は、コンピュータービジョンにおけるオブジェクト認識の最先端技術になりました。通常、CNNは複数の畳み込み層で構成され、その後に2つの完全に接続された層が続きます。この背後にある直感は、畳み込み層が入力データのより良い表現を学習し、完全に接続された層がラベルのセットに基づいてこの表現を分類することを学習することです。 ただし、CNNが支配を開始する前は、サポートベクターマシン(SVM)が最先端でした。そのため、SVMは2層の完全に接続されたニューラルネットワークよりも依然として強力な分類器であると言えます。したがって、なぜ最新のCNNがSVMではなく完全に接続されたレイヤーを分類に使用する傾向があるのか​​疑問に思っていますか?このように、強力な特徴表現ではなく、強力な特徴表現と弱い分類子のみの両方の長所があります。 何か案は?

1
「ほぼすべての局所的最小値は、グローバルな最適値と非常に類似した関数値を持っています」を理解する
で、最近のブログ記事:栄GEが、それはと言われていました ディープネットの学習を含む多くの問題では、ほとんどすべてのローカルミニマムはグローバル最適と非常に類似した関数値を持っているため、ローカルミニマムを見つけるだけで十分であると考えられています。 この信念はどこから来たのですか?

6
Gradient Descentの代替手段は何ですか?
Gradient Descentには、Local Minimaで立ち往生する問題があります。グローバルミニマムを見つけるために、勾配降下法の指数関数的時間を実行する必要があります。 誰もが、長所と短所とともに、ニューラルネットワーク学習に適用される勾配降下法の代替案について教えてもらえますか?

1
GradientDescentOptimizerとAdamOptimizer(TensorFlow)の違いは?
XOR-GateをモデリングしているTensorFlowで簡単なMLPを作成しました。 だから: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 次のものが生成されます。 output_data = [[0.], [1.], [1.], [0.]] このネットワークには、入力層、隠れ層、出力層があり、それぞれ2、5、1個のニューロンがあります。 現在、私は次のクロスエントロピーを持っています: cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) 私はこの簡単な代替手段も試しました: cross_entropy = tf.square(n_output - output) 他のいくつかの試みと一緒に。 ただし、私の設定が何であっても、のエラーはのエラーよりもはるかに遅くGradientDescentOptimizer減少していましたAdamOptimizer。 実際tf.train.AdamOptimizer(0.01)、どのクロスエントロピー計算または学習率が使用されたとして0.01も、tf.train.GradientDescentOptimizer常に2000を超える学習ステップが必要でしたが、(最高の結果が得られた学習率に応じて)400から800の学習ステップ後に本当に良い結果が得られました。 これはなぜですか?そうですAdamOptimizer、常により良い選択です!

1
確率的勾配降下のAdamメソッドはどのように機能しますか?
ニューラルネットワークをトレーニングするための基本的な勾配降下アルゴリズムに精通しています。Adam:ADAM:A METHOD for SCHOCASTIC OPTIMIZATIONを提案している論文を読みました。 (少なくとも)確かにいくつかの洞察を持っていますが、この論文は私にとって全体的に高すぎるようです。たとえば、コスト関数は多くの異なる関数の合計であることが多いため、その値を最適化するには膨大な量の計算が必要です。確率的勾配降下-トピックを理解している限り-これらの関数のサブセットについてのみ最適化を計算します。私には、Adamがこれをどのように行い、これにより全体のトレーニングエラーが減少する理由は不明です。J(θ)J(θ)J(\theta)J(θ)J(θ)J(\theta) Adamは以前の勾配を考慮して勾配を更新すると思います。彼らはそれを勢いを利用するようなものと呼んでいますか?この勢いは正確に何ですか?論文の2ページ目のアルゴリズムによると、「通常の」勾配の1次モーメントと2次モーメントの推定値のような、ある種の移動平均ですか? 実際には、Adamを使用すると、勾配を小さくするために大きな有効ステップサイズを使用できるため、確率的近似と組み合わせてトレーニングエラーが発生すると考えられます。したがって、結果として得られる更新ベクトルは、通常の勾配降下アルゴリズムのように曲線を記述するのではなく、空間次元でさらに「ジャンプ」する必要があります。 誰かがアダムの仕組みを分かりやすく説明できますか?特にそれがどのように収束するのか、特にアダムの方法が機能する理由と正確な利点は何ですか?

4
他の機能マップを作成するために、機能マップにカーネルをどのように適用しますか?
畳み込みニューラルネットワークの畳み込み部分を理解しようとしています。次の図を見てください。 4つの異なるマップ(サイズ)がある最初の畳み込み層を理解するのに問題はありません。これは、入力画像と畳み込んで4つの特徴マップを取得します。k×kk×kk \times k 私が理解できないのは、次の畳み込み層で、4つのフィーチャマップから6つのフィーチャマップに移動します。このレイヤーに6つのカーネルがあると想定しています(その結果、6つの出力機能マップが提供されます)が、これらのカーネルはC1に示されている4つの機能マップでどのように機能しますか?カーネルは3次元ですか、それとも2次元であり、4つの入力フィーチャマップにわたって複製されていますか?

4
出力レイヤーのどのアクティベーション関数ですか?
隠しレイヤーのアクティベーション関数の選択は非常に明確ですが(主にシグモイドまたはtanh)、出力レイヤーのアクティベーション関数をどのように決定するのでしょうか。一般的な選択肢は、線形関数、シグモイド関数、およびソフトマックス関数です。ただし、いつどれを使用すればよいですか?

7
初心者向けのニューラルネットワークリファレンス(教科書、オンラインコース)
ニューラルネットワークを学びたいです。私は計算言語学者です。統計的な機械学習のアプローチを知っており、Pythonでコーディングできます。 私はその概念から始め、計算言語学の観点から役に立つかもしれない1つまたは2つの人気のあるモデルを知っています。 参考のためにWebをブラウズし、いくつかの本や資料を見つけました。 リプリー、ブライアンD.(1996)パターン認識とニューラルネットワーク、ケンブリッジ Bishop、CM(1995)パターン認識のためのニューラルネットワーク、オックスフォード:オックスフォード大学出版局。 いくつかのリンクなど、この論文、これらのコースノート(トロント大学の心理学科)、これらのコースノート(ウィスコンシンコンピュータサイエンスの大学)と、このスライドショー(Facebookの研究)。 Courseraコースは、だれかが関連する何かを知っている場合、一般的に素晴らしいです。私は明快な言語と豊富な例のある資料を好みます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.