データサイエンス neural-network

3

提案されたモデルが、指定された量のメモリを備えたGPUでトレーニングされるのに十分小さいかどうかを推定できるようにしたいこのような単純なCNNアーキテクチャがある場合： Input：50x50x3 C1：32個の3x3カーネル、パディング付き（実際には、入力深度を考えると、実際には3x3x3でしょうか？） P1：2x2、ストライド2 C2：64 x 3x3カーネル、パディングあり P2：2x2、ストライド2 FC：500ニューロン Output：softmax 10クラス 64のミニバッチサイズ 32ビットの浮動小数点値を想定して、トレーニング中にネットワークの各レイヤーのメモリコストをどのように計算しますか？そして、そのようなモデルをトレーニングするために必要な総メモリは？

9 machine-learning neural-network convnet parameter-estimation gpu

1

ニューラルネットによる強化学習について（Qラーニング）

ニューラルネットを関数近似器として使用している場合の強化学習とマルコフ決定過程（MDP）を理解しようとしています。環境を確率論的に探索するMDPと、これがどのように学習パラメーターにマッピングされるか、そして最終的なソリューション/ポリシーがどのように見つかるかとの関係に問題があります。 Qラーニングの場合、ニューラルネットワークは本質的にq値自体の関数近似器として機能するため、将来は非常に多くのステップがあると私は思いますか？これは、バックプロパゲーションまたは他の方法を介して更新パラメーターにどのようにマッピングされますか？また、ネットワークが将来の報酬を予測する方法を学習した後、これは実際に意思決定を行うという点でシステムにどのように適合しますか？私は、最終的なシステムが確率的に状態遷移を行わないことを想定しています。ありがとう

9 machine-learning neural-network q-learning

1

ドロップアウトと勾配降下について

ディープニューラルネットワークでドロップアウトを実装する方法を探しています。直感に反するものが見つかりました。フォワードフェーズでは、1と0のランダムテンソルを使用してマスクをアクティブ化し、ネットに重みの平均を学習させます。これは、ネットをより一般化するのに役立ちます。ただし、勾配降下の更新フェーズでは、アクティブ化はマスクされません。これは私には直観に反するようです。dropoutを使用して接続のアクティブ化をマスクする場合、勾配降下フェーズをマスクしないのはなぜですか？

9 neural-network deep-learning gradient-descent

3

LSTMセル、ユニット、入力に関する質問

LSTMネットワークがどのように機能するかを学習しようとしています。基本を理解しても、内部構造の詳細はわかりません。このブログリンクで、私はこのLSTMアーキテクチャのスキームを見つけました明らかに、すべての円はLSTMこのような個々のユニットに対応している必要がありますこれは正しいです？セル内の各ユニットは他のユニットから独立していますか？または、彼らは情報を共有しますか？次の構成があるとします。サンプル数= 1000時間ステップ数= 10特徴数= 5 この場合、セルの各ユニットは、サイズ5のベクトルを入力として受け取りますか？しかし、1つのユニットの出力のサイズはどうなるでしょうか。1？ありがとう

9 machine-learning neural-network deep-learning lstm

1

ニューラルネットワークを使用した順序回帰のコスト関数

順序回帰を実行するようにニューラルネットワークをトレーニングするのに最適なコスト関数は何ですか。つまり、異なる値の間の相対的な順序のみが重要である任意のスケールで値が存在する結果を予測します（例：顧客が注文する製品サイズを予測するため）： 'small'（0としてコード化）、 'medium'（1としてコード化）、 'large'（2としてコード化）または 'extra-large'（3としてコード化））？私は、二次損失（「バニラ」回帰として問題をモデル化する）またはクロスエントロピー損失（問題を分類としてモデル化する）よりも良い代替策があるかどうかを把握しようとしています。

8 neural-network cost-function

1

バッチ正規化について

ペーパーバッチ正規化：ディープネットワークトレーニングの加速b y内部共変量シフトの削減（ここ）バッチ正規化のプロセスを説明する前に、ペーパーは関連する問題を説明しようとします（ここで扱われている正確な問題はわかりません）。セクション2、パラ2からの抜粋：ネットワークを直接変更するか、最適化アルゴリズムのパラメーターをネットワークのアクティブ化の値に依存するように変更することにより、トレーニングステップごとまたは一定の間隔でアクティブ化を白くすることを検討できます（Wiesler et al。、2014; Raiko et al。、2012 ; Povey et al。、2014; Desjardins＆Kavukcuoglu）。ただし、これらの変更が最適化ステップに散在している場合、勾配降下ステップは、正規化の更新を必要とする方法でパラメーターを更新しようとする場合があり、勾配ステップの影響が減少します。たとえば、学習されたバイアスを追加し、トレーニングデータに対して計算されたアクティベーションの平均を差し引くことによって結果を正規化する入力uを含むレイヤーを考えます。、X = X - E [ X ]bbbx^=x−E[x]x^=x−E[x]\hat x= x − E[x]ここで、はトレーニングセットのの値のセットであり、。x=u+b,X=x1...Nx=u+b,X=x1...Nx = u + b, X = {x_{1...N}}xxxE[x]=1N(∑ni=1xi)E[x]=1N(∑i=1nxi)E[x] = \frac 1 N(\sum_{i=1}^nx_i) 勾配降下ステップがE [x]のbへの依存を無視する場合、を更新しますb←b+Δbb←b+∆bb ← b + ∆b。ここで、Δb∝−∂l/∂x^∆b∝−∂l/∂x^∆b ∝ −\partial l/\partial\hat xです。次に、 u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b](1)(1)u+(b+∆b)−E[u+(b+∆b)]=u+b−E[u+b]u + …

8 neural-network deep-learning batch-normalization

2

MNIST分類のために荒廃したニューラルネットワークを過剰適合させないのはなぜですか？

MNIST分類のための単純なニューラルネットワーク（NN）があります。これには、それぞれ500個のニューロンを持つ2つの非表示層が含まれています。したがって、NNの寸法は784-500-500-10です。ReLUはすべてのニューロンで使用され、softmaxは出力で使用され、クロスエントロピーは損失関数です。オーバーフィットがNNを荒廃させないように見えるのはなぜ私を困惑させるのですか NNのパラメーター（重み）の数を考慮します。およそただし、私の実験では、NNのトレーニングに6000の例（MNISTトレーニングセットの10分の1）のみを使用しました。（これは単に実行時間を短く保つためです。トレーニング例をさらに使用すると、トレーニングとテストのエラーはどちらも大幅に減少します。）私は実験を10回繰り返しました。単純な確率的勾配降下法が使用されます（RMSプロップまたは運動量なし）。正則化/ドロップアウト/早期停止は使用されませんでした。報告されたトレーニングエラーとテストエラーは次のとおりです。784 × 500 + 500 × 500 + 500 × 10 = 647000。784×500+500×500+500×10=647000。784\times500+500\times 500+500\times 10=647000.600060006000 番号。Et r a i n（％）EトンのE S T（％）17.811.7210.313.9３9.113.2411.014.158.712.169.213.279.313.388.311.9910.313.4108.612.7番号。12３45678910Etra私ん（％）7.810.39.111.08.79.29.38.310.38.6Etest（％）11.713.913.214.112.113.213.311.913.412.7\begin{array}{|l|c|c|c|c|c|c|c|c|c|c|} \hline \textrm{No.} & 1 & 2 & 3 &4 &5&6&7&8&9&10\\ \hline E_{train}(\%) & 7.8 & 10.3 & 9.1 & 11.0 & 8.7 & 9.2 & …

8 machine-learning neural-network classification overfitting

1

R、ケラス：非表示レイヤーの出力を取得する方法は？

KerasRでパッケージを使用してニューラルネットワークを実行しています。非表示レイヤーから出力を抽出するにはどうすればよいですか？Pythonで例を見つけましたが、Rでそれを行う方法がわからないだけです。

8 neural-network r keras

1

バニラニューラルネットワークからリカレントニューラルネットワークに進む際の質問

私は最近、与えられた数の入力、非表示のノード、および入力と同じ数の出力で、バニラニューラルネットワークがどのように機能するかを学びました。私はリカレントニューラルネットワークに関連するさまざまな投稿を見てきましたが、その背後にある概念は理解していますが、RNNの背後にあるロジックの特定の部分は理解できません。ここに私が持っている4つの主な質問があります：再帰型ニューラルネットワークで逆伝播はどのように機能しますか？入力から非表示ノードにつながる重みは、他のすべてのステップで同じですか？非表示ノードから出力までの重みはどうですか？バイアスはリカレントニューラルネットワークでどのように機能するのですか？活性化関数としてシグモイド関数の代わりにタン関数が通常使用されるのはなぜですか？これらの質問のいくつかは非常に基本的であることに気づきましたが、基本は今まさに必要なものだと思います。関連する動画や投稿へのリンクも非常に役立ち、正しい結果を示すGoogleキーワードも役立ちます。これら4つの質問は、サンプルのPythonコードを理解するのを妨げているため、本当に助けが必要です。

8 machine-learning python neural-network rnn

1

機械学習：詩を書く

私は機械学習の学生で、最近はTensorFlowライブラリの使い方を学ぼうとしていました。私はテンソルフローを使用してさまざまなチュートリアルと試行錯誤を経験しました。実際にそれを学ぶ最善の方法は、自分の小さなプロジェクトでそれを利用することだと思いました。詩を書くプログラムを作ってみようと決めました。私は最高品質のプログラムを目指していません。私の最初のモデルでは、一連の意味のない単語のグループを詩の形式でまとめて満足しています。問題は、文章構造の記述を扱う機械学習プログラムに関する本やビデオを検索するときに問題が発生していることです。私が必要とするサンプルプログラムと基本的な知識を得るために、私が探すことができるものについて（Googleキーワードでも大丈夫です）提案はありますか？ありがとうございました。

8 machine-learning neural-network tensorflow

1

たたみ込みニューラルネットワークで「深さ=セマンティック表現」を使用する理由

畳み込みネットワークに関するビデオをオンラインで見ていましたが、スピーカーは画像に対してフィルターを実行する概念について話していました。彼は言った、そしてそれは以下の画像にも示されている、「深さ＝意味論的表現」。これは良さそうに聞こえますが、深みを増すために画像の空間次元を減らすことの何がそれほど特別なのか正確にはわかりませんか？奥行きを他のどの次元よりも重要にしているのは何ですか？次元は単なる次元ですよね？編集：理由は翻訳の独立性と関係があるだろうという直感があります...

8 neural-network dimensionality-reduction convnet

2

LSTM-LMフォーミュレーションとは何ですか？

私はこの論文「ニューラルネットワークによるシーケンス学習へのシーケンス」を読んでいますhttp://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf 「2.モデル」の下でそれは言う： LSTMはこの条件付き確率を計算します。最初に、LSTMの最後の非表示状態によって与えられる入力シーケンス（x1、...、xT）の固定次元表現vを取得し、次にy1、...の確率を計算します。。。、yT 'と標準のLSTM-LM公式を使用して、初期の隠蔽状態をx1の表現vに設定します。。。、xT： LSTMとは何か知っていますが、LSTM-LMとは何ですか？私はそれをグーグルで試しましたが、良いリードを見つけることができません。

8 machine-learning neural-network nlp rnn machine-translation

1

違い：レプリケーターニューラルネットワークとオートエンコーダー

私は現在、RNN（Replicator Neural Networks）を使用した外れ値の検出に関する論文を研究していて、オートエンコーダーとの違いは何ですか？RNNは、外れ値/異常検出の聖杯として多くの人にとって踏みにじられているようですが、オートエンコーダーが長い間存在していたため、この考え方はかなり古いようです。

8 neural-network anomaly-detection autoencoder outlier

1

ニューラルネットワークを使用して画像から複数のパラメーターを抽出する

ニューラルネットワークを使用して画像からパラメーターを抽出したい。例：レンガの壁の画像が与えられた場合、NNはレンガの幅と高さ、色、粗さを抽出する必要があります。特定のパラメーターの画像を生成してNNをトレーニングし、それを使用して実際の画像からパラメーターを抽出することができます。 CNNを調査しました。彼らと一緒にこのタスクを実行できますか？分類の代わりに複数のパラメーターを抽出するには、特別な学習アルゴリズムが必要ですか？そのようなタスク用に設計されたNNはありますか？

8 neural-network deep-learning computer-vision

1

スパイキングニューラルネットワークが他のアルゴリズムより優れている（非スパイキング）ドメインはありますか？

Echo State NetworksやLiquid State Machinesなどのリザーバーコンピューティングテクニックについて読んでいます。どちらの方法も、ランダムに接続された（または接続されていない）スパイキングニューロンの母集団に入力を供給することと、出力を生成する比較的単純な読み出しアルゴリズム（線形回帰など）を含みます。ニューロンの母集団の重みは、固定されているか、STDPのようなヘブライアンのようなローカルアクティビティルールによってトレーニングされています。これらの手法は、重要な時間コンポーネントを持つ多次元入力をモデル化するときにうまく機能します。ただし、スパイクニューロンの膜電位の計算には微分方程式の積分が含まれ、計算コストが高くなる可能性があります。リザーバーコンピューティングテクニックの追加の計算の複雑さの方が、予測または分類タスクのゲインよりも優れている例はありますか？たとえば、RNN、ANN、SVM、DNN、CNN、またはその他のアルゴリズムに基づいて、比較的複雑なアーキテクチャよりもSNN技術が優れているケースはありますか？

8 machine-learning classification neural-network deep-learning svm

タグ付けされた質問 「neural-network」

タグ付けされた質問「neural-network」