タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

4
ニューラルネットワーク-重みの意味
フィードフォワードNNを使用しています。コンセプトは理解していますが、重みについての質問です。それらをどのように解釈できますか、つまり、それらが何を表しているのか、またはそれらがどのように理解されていないのか(関数係数のみであるため)?「重みのスペース」と呼ばれるものを見つけましたが、それが何を意味するのかよくわかりません。

1
関数近似としてニューラルネットワークを使用したQ学習
ニューラルネットワークを使用したQラーニングに関する質問のように、QラーニングのQ値を概算するためにニューラルネットワークを使用しようとしています。最初の回答で提案したように、私は出力層に線形活性化関数を使用していますが、非表示層ではまだシグモイド活性化関数を使用しています(2、後で変更できます)。また、アドバイスどおり各アクション出力を返す単一のNNを使用しています。Q(a)Q(a)Q(a) ただし、アルゴリズムは、単純なカートポールバランス問題についてはまだ分岐しています。だから、私のQアップデートが間違っているのを恐れています。初期化後、各ステップで行ったのは次のとおりです。 すべてのアクションのNNの順方向伝搬を使用してを計算します。Qt(st)Qt(st)Q_t(s_t) 新しいアクション選択し、新しい状態ます。atata_tststs_t すべてのアクションに対してNNのフォワードプロパゲーションを使用してを計算します。Qt(st+1)Qt(st+1)Q_t(s_{t+1}) 目標Q値を次のように設定します: だけ現在のアクションのために、A_tと、設定しながらQ_ {T + 1}(S、A_tと)= Q_ {T}(S、A_tとの)他の状態のために。これは問題だと思います。Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t)+\alpha_t \left[r_{t+1}+\gamma \max_a Q(s_{t+1},a) - Q_t(s_t,a_t) \right]atata_tQt+1(s,at)=Qt(s,at)Qt+1(s,at)=Qt(s,at)Q_{t+1}(s,a_t)=Q_{t}(s,a_t) エラーベクトルをe=Qtarget−Qt=Qt+1−Qte=Qtarget−Qt=Qt+1−Qt\mathbf{e}=Q_\mathrm{target}-Q_t=Q_{t+1}-Q_t 重み行列を更新するために、NNを介してエラーを逆伝播します。 誰かが私が間違ったことを私に指摘してくれませんか? さらに、入力層と最初の非表示層(つまり、シグモイド関数)にもバイアス項を含める必要があると思いますか?違いはありますか? よろしくお願いします。質問を明確にしたり、必要に応じてコードを共有したりできます。

3
Word2Vecのスキップグラムモデルはどのように出力ベクトルを生成しますか?
Word2Vecアルゴリズムのスキップグラムモデルを理解できません。 連続する単語のバッグでは、基本的にワンホットエンコーディング表現と入力行列Wを乗算した後にそれらを平均化するため、ニューラルネットワークでコンテキストワードがどのように「適合する」かを簡単に確認できます。 ただし、スキップグラムの場合、ワンホットエンコーディングと入力行列を乗算して入力ワードベクトルを取得するだけで、コンテキストワードのC(=ウィンドウサイズ)ベクトル表現を乗算して、出力行列W 'を使用した入力ベクトル表現。 つまり、サイズボキャブラリとサイズエンコーディング、入力行列、およびエンコーディングがあります。出力行列として。ワード所与ワンホットエンコーディングとコンテキスト言葉ではと(ワンホット担当者が有する及びあなたが乗算場合)、入力行列によってあなたが得る、これからスコアベクトルをどのように生成しますか?VVVNNNW∈RV×NW∈RV×NW \in \mathbb{R}^{V\times N}W′∈RN×VW′∈RN×VW' \in \mathbb{R}^{N\times V}wiwiw_ixixix_iwjwjw_jwhwhw_hxjxjx_jxhxhx_hxixix_iWWWh:=xTiW=W(i,⋅)∈RNh:=xiTW=W(i,⋅)∈RN{\bf h} := x_i^TW = W_{(i,\cdot)} \in \mathbb{R}^NCCC

2
部分的に「不明な」データによる分類
入力として数値のベクトルを取り、出力としてクラスラベルを与える分類子を学びたいとしましょう。私のトレーニングデータは、多数の入出力ペアで構成されています。 ただし、新しいデータをテストする場合、このデータは通常、部分的にしか完成していません。たとえば、入力ベクトルの長さが100の場合、30個の要素にのみ値が与えられ、残りは「不明」です。 この例として、画像の一部が隠れていることがわかっている画像認識を考えてみます。または、データの一部が破損していることがわかっている一般的な意味で分類を検討してください。すべての場合において、データベクトルのどの要素が未知の部分であるかを正確に把握しています。 この種類のデータで機能する分類子をどのようにして学習できるのでしょうか。「未知の」要素を乱数に設定することもできますが、既知の要素よりも未知の要素の方が多いことが多いので、これは良い解決策のようには聞こえません。または、トレーニングデータの要素をランダムに「不明」に変更し、完全なデータではなくこれらでトレーニングすることもできますが、これには既知の要素と未知の要素のすべての組み合わせの徹底的なサンプリングが必要になる場合があります。 特に、ニューラルネットワークについて考えていますが、他の分類器を利用できます。 何か案は?ありがとう!

1
Rニューラルネット-計算は一定の答えを与える
予測のためにRのneuralnetパッケージ(ドキュメントはこちら)を使用しようとしています。 ここで私がやろうとしていること: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

5
ニューラルネットワークの数学的背景
これがこのサイトに適しているかどうかはわかりませんが、私はMSEをコンピュータサイエンス(応用数学のBS)で始めており、機械学習の強力なバックグラウンドを取得したいと考えています(おそらく博士号を取得する予定です)。私のサブインタレストの1つはニューラルネットワークです。 ANNの良い数学的背景は何ですか?機械学習の他の領域と同様に、線形代数が重要だと思いますが、数学の他のどの領域が重要ですか? ニューラルネットワーク:体系的な紹介またはパターン認識のためのニューラルネットワークを読む予定です。誰かが何か入力や代替推奨事項を持っていますか?

3
ニューラルネットワークをグラフィカルモデルとして数学的にモデル化する
ニューラルネットワークとグラフィカルモデルを数学的に結びつけるのに苦労しています。 グラフィカルモデルでは、アイデアは単純です。確率分布はグラフのクリークに従って因数分解され、ポテンシャルは通常指数関数的ファミリーです。 ニューラルネットワークに同等の推論はありますか?制限付きボルツマンマシンまたはCNNのユニット(変数)の確率分布を、それらのエネルギー、またはユニット間のエネルギーの積の関数として表現できますか? また、確率分布は、指数ファミリーのRBMまたはディープビリーフネットワーク(CNNなど)によってモデル化されていますか? ジョーダン&ウェインライトがグラフィカルモデル、指数ファミリ、変分推論を使用してグラフィカルモデルに対して行ったのと同じ方法で、これらの最新タイプのニューラルネットワークと統計の間の接続を形式化するテキストを見つけたいと思っています。どんなポインタでも素晴らしいでしょう。

4
いくつかの接続を削除することで、より良いANNを取得できますか?
たとえば、以下のように接続を削除すると、状況によってANNのパフォーマンスが向上するかどうか疑問に思っていました。 2つの多層ANNのAとBを並列に(同じ入力ノードと出力ノードで)取り、1つのANNを構築して、AとBの隠れた層の間にいくつかの「通信」接続を追加しますか? より良い一般化の結果を得ることができますか? これはどういうわけか実際に使用されているのですか、それとも常に多層の完全に接続されたネットワークを使用しているだけですか?

2
CNNでフィルターサイズやストライドなどを選択しますか?
私はスタンフォード大学からのCS231N講義を見てきました。CNNアーキテクチャーのいくつかの問題に頭を抱えようとしています。私が理解しようとしているのは、畳み込みフィルターのサイズやストライドのようなものを選ぶための一般的なガイドラインがあるか、またはこれは科学というより芸術なのかということです。 私が理解しているプーリングは、主に何らかの形の翻訳不変性をモデルに誘導するために存在します。一方、歩幅のサイズの選び方については、よくわかりません。現在の層サイズを圧縮しようとすること、またはニューロンにより大きい受容野を達成しようとすることを除いて、他のガイドラインはありますか?これについて議論している良い論文や類似のものを知っている人はいますか?

2
長期短期記憶(LSTM)リカレントニューラルネットワークの背後にある直感は何ですか?
Recurrent Neural Network(RNN)の背後にある考え方は私には明らかです。私はそれを次のように理解しています:一連の観測()(つまり、多変量時系列)があります。各単一観測は次元の数値ベクトルです。RNNモデル内では、次の観測は以前の観測と以前の "非表示状態"であると。ここで、非表示状態も数値で表されますベクトル(観測状態と非表示状態の次元は異なる場合があります)。隠された状態自体も、以前の観測と隠された状態に依存すると想定されます。o⃗ 1,o⃗ 2,…,o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_n → h io⃗ io→i\vec o_iNNNo⃗ i+1o→i+1\vec o_{i+1}o⃗ io→i\vec o_{i}h⃗ ih→i\vec h_i o⃗ i,h⃗ i=F(o⃗ i−1,h⃗ i−1)o→i,h→i=F(o→i−1,h→i−1)\vec o_i, \vec h_i = F (\vec o_{i-1}, \vec h_{i-1}) 最後に、RNNモデルでは、関数はニューラルネットワークであると想定されます。利用可能なデータ(一連の観測)を使用して、ニューラルネットワークをトレーニング(適合)します。トレーニングの目標は、前の観測を使用して次の観測をできるだけ正確に予測できるようにすることです。FFF 現在、LSTMネットワークはRNNネットワークの修正版です。私が理解している限り、LSTMの背後にある動機は、RNNに固有の短いメモリの問題を解決することです(従来のRNNは、時間的に離れすぎている関連イベントに問題があります)。 LSTMネットワークの仕組みを理解しています。ここでLSTMの最良の説明、私が発見したことは。基本的な考え方は次のとおりです。 非表示状態ベクトルに加えて、非表示状態ベクトル()と同じサイズ(次元)を持つ、いわゆる「セル状態」ベクトルを導入します。「細胞状態」ベクトルは長期記憶をモデル化するために導入されたと思います。従来のRNNの場合と同様に、LSTMネットワークは入力として観測された隠された状態を取得します。この入力を使用して、次の方法で新しい「セル状態」を計算します。c⃗ ic→i\vec c_i c⃗ i+1=ω⃗ 1(o⃗ i,h⃗ i)⋅c⃗ i+ω⃗ …


3
畳み込みニューラルネットワークの最終Softmax層の前の非線形性
私は畳み込みニューラルネットワークを調査して実装しようとしていますが、この質問は一般に多層パーセプトロンに当てはまると思います。 ネットワークの出力ニューロンは、各クラスのアクティブ化を表しています。最もアクティブなニューロンは、特定の入力の予測クラスに対応しています。トレーニングのクロスエントロピーコストを検討するために、各ニューロンの活性化値が確率値として解釈されるように、ネットワークの最後にsoftmaxレイヤーを追加しています。 私の質問は、出力層のニューロンが非線形関数を入力に適用する必要がありますか?私の直感はそれが必要ではないということです: 入力場合番目の出力ニューロンはドット積であるX T θ IベクトルとX(前のレイヤからの)と重みがθ Iをそのニューロンため、iiixTθixTθix^T\theta_ixxxθiθi\theta_i シグモイドやReLUのような単調な非線形関数を使用する場合 次いで、より大きな活性化出力は、依然として最大に対応するように非線形関数が予測を変更しないであろうこのような観点から、。xTθixTθix^T\theta_i この解釈に何か問題がありますか?出力の非線形性を必要とする、見落としているいくつかのトレーニング要素はありますか? max(0,xTθi)max(0,xTθi)\max(0,x^T\theta_i) 編集 答えが基本的に「依存する」であったカレルの答えを参照して、ここに私のネットワークと疑問のより詳細な説明があります: N個の非表示レイヤーがあり、出力レイヤーがクラスを表すニューロンのセットの単なるソフトマックスレイヤーであるとします(したがって、期待される出力は、入力データが各クラスに属する確率です)。最初のN-1層に非線形ニューロンがあると仮定すると、N番目の隠れ層で非線形ニューロンと線形ニューロンを使用することの違いは何ですか?

1
オートエンコーダーでReLUをアクティベーション機能として使用できますか?
ニューラルネットワークでオートエンコーダを実装する場合、ほとんどの人はシグモイドをアクティベーション関数として使用します。 代わりにReLUを使用できますか?(ReLUには上限に制限がないため、基本的に、シグモイドが使用されるときの自動エンコーダーの制限された基準とは異なり、入力画像は1より大きいピクセルを持つことができます)。

2
言葉の連続袋についての質問
この文を理解できません。 最初に提案されたアーキテクチャは、フィードフォワードNNLMに似ています。非線形の隠れ層が削除され、投影層がすべての単語(投影行列だけでなく)で共有されます。したがって、すべての単語が同じ位置に投影されます(それらのベクトルは平均化されます)。 投影層と投影行列とは何ですか?すべての単語が同じ位置に投影されるとはどういう意味ですか?そして、なぜそれはそれらのベクトルが平均化されることを意味するのですか? この文は、ベクトル空間での単語表現の効率的な推定(Mikolov et al。2013)のセクション3.1の最初のものです。

1
畳み込みニューラルネットワークのトレーニング
現在、畳み込みニューラルネットワークを使用して顔を認識する顔認識ソフトウェアに取り組んでいます。私の測定値に基づいて、トレーニング中の時間を節約するために、畳み込みニューラルネットワークが重みを共有していることを集めました。しかし、畳み込みニューラルネットワークで使用できるように、逆伝播をどのように適応させるのでしょうか。逆伝播では、これに似た式を使用して重みをトレーニングします。 New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta ただし、畳み込みニューラルネットワークでは重みが共有されているため、各重みは複数のニューロンで使用されるので、どのニューロンを使用するかをどのように決定しOutput of InputNeuronますか? つまり、重みは共有されているので、重みをどれだけ変更するかをどのように決定すればよいのでしょうか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.