タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

1
ニューラルネットワークで入力ベクトルの長さの変更を処理する方法
文字のシーケンスを入力ベクトルとして使用して、ニューラルネットワークをトレーニングします。学習例は長さが異なるため、それらを表現する方法がわかりません。 ここに名前の2つのシーケンスの例があるとします。 john doe maurice delanoe 最初の例は長さ8、2番目の例は長さ15です。 これらの両方の例を学ぶ方法はありますか?同じ学習システムでサイズ8と15の両方の入力ベクトルを使用することを意味します。 ご協力いただきありがとうございます !

1
ニューラルネットワークの過剰適合
過適合は、トレーニングエラーとテストエラーをエポックに対してプロットすることで検出できることを学びました。のように: 私は、このブログ記事を読んでいて、ニューラルネットワークであるnet5は過剰適合であり、次の図を提供していると述べています。 これは私には奇妙です。net5の検証とトレーニングのエラーが(ゆっくりと)低下し続けるからです。 なぜ彼らはそれが適切すぎると主張するのでしょうか?検証エラーが停滞しているからでしょうか?

2
RBMの持続的なコントラストの相違
制限付きボルツマンマシンに永続的CD学習アルゴリズムを使用する場合、最初の反復でデータポイントからギブスサンプリングチェーンを開始しますが、通常のCDとは異なり、後続の反復ではチェーンから開始しません。代わりに、前の反復のギブスサンプリングチェーンが終了したところから開始します。 通常のCDアルゴリズムでは、各反復でデータポイントのミニバッチが評価され、それらのデータポイント自体から始まるギブスサンプリングチェーンが計算されます。 永続CDでは、各データポイントのギブスサンプリングチェーンを維持する必要がありますか?それとも、現在の反復で現在評価されていないデータポイントから始まったギブスサンプリングチェーンのミニバッチも保持する必要がありますか? 各データポイントのギブスサンプリングチェーンを維持するのは面倒すぎるように思えますが、一方で、現在のサンプルの信号を、現在のところから始まっていない長いギブスチェーンの後の信号と比較することは不適切のようです。サンプル。

3
ニューラルネットワークベースの分類では次元削減が必要ですか?
ニューラルネットワークベースの分類子を使用して、データの分類をn次元で実行しています。 次に、最初にデータに対してPCAのような次元削減を実行し、PCAの結果を分類子に入れる(3つのPCを保持する)のは良い考えだと思いました。ただし、次元が削減されたフィーチャの分類は、元の高次元のフィーチャを直接使用するほどよくありません。 次に、この投稿NNをDR1として見つけ、 ニューラルネットワークを次元削減方法として説明しました。また、 混乱しているDR2として、このペーパーNNにいくつかの情報があります 。 ニューラルネットワークベースの分類(Matlab)を使用する場合、自動的に次元削減が行われますか? ニューラルネットワーク分類を実行する前に、PCAのような次元削減を実行する必要がありますか? PCAの結果の分類が、元の高次元の特徴を使用するほど良くない理由は他にありますか?




1
ナイーブベイズとリカレントニューラルネットワーク(LSTM)の違い
テキストの感情分析を実行したい、いくつかの記事を通過した、それらのいくつかは「Naive Bayes」を使用しており、その他は「Recurrent Neural Network(LSTM)」ですが、一方で、感情分析用のpythonライブラリを見ましたnltkです。それは「ナイーブベイズ」を使用しています誰もが2つの使用の違いは何であるか説明できますか? 私もこの投稿を通過しましたが、両方については明確ではありません。 ベイズネットワーク、ニューラルネットワーク、決定木、ペトリネットの違い

1
softmax関数の定義
この質問はstats.stackexchange.com/q/233658でフォローアップします クラス{0、1}のロジスティック回帰モデルは P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx)P(y=1|x)=exp⁡(wTx)1+exp⁡(wTx)P(y=0|x)=11+exp⁡(wTx) \mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)} 明らかにこれらの確率の合計は1ですを設定することにより、ロジスティック回帰を次のように定義することもできます。w=β1−β0w=β1−β0w = \beta_1 - \beta_0 P(y=c|x)=exp(βTcx)exp(βT0x)+exp(βT1x)∀c∈{0,1}P(y=c|x)=exp⁡(βcTx)exp⁡(β0Tx)+exp⁡(β1Tx)∀c∈{0,1} \mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \exp(\beta_1^T x)} \quad \forall \; c …


3
ニューラルネットワークの普遍近似定理は、任意の活性化関数を保持しますか?
ニューラルネットワークの普遍近似定理は、任意のアクティブ化関数(シグモイド、ReLU、Softmaxなど)に適用されますか、それともシグモイド関数に限定されますか? アップデート:コメント欄でアウトとして島尾ポイントは、それは絶対にするために保持していない任意の機能。それでは、どのクラスのアクティベーション関数が保持されますか?

2
ニューラルネットワークモデルの識別可能性
ほとんどのニューラルネットワークトポロジ/アーキテクチャが識別できないことは非常に直感的です。しかし、フィールドでよく知られている結果は何ですか?識別可能性を許可/防止する単純な条件はありますか?例えば、 非線形活性化関数と複数の非表示層を持つすべてのネットワークは識別できません 3つ以上の非表示ユニットがあるネットワークはすべて識別できません またはこれらのようなもの。注:これらの条件が識別可能性を妨げると言っているのではありません(ただし、これらは私にはかなり良い候補のようです)これらは、「単純な条件」で私が意味するものの単なる例です。 質問を絞り込むのに役立つ場合は、フィードフォワードおよび繰り返しアーキテクチャのみを検討してください。それでも不十分な場合は、MLP、CNN、RNNのうち少なくとも1つのアーキテクチャをカバーする回答で満足します。私はWebをざっと見て回りましたが、私が見つけた唯一の議論はRedditに関するもののようです。さあ、人々、私たちはRedditよりもうまくやることができます;-)

2
ディープネットの基底展開はどのくらい重要ですか?
ディープニューラルネットがユニバーサル関数近似法であると考えられる場合、基底展開は本当に必要ですか?または、これはケース固有ですか?たとえば、3つの定量的X変数がある場合、交互作用、多項式などを導入することによって変数の数を拡張することで何か利点がありますか?これは、RFやSVMなどで優れたユーティリティを持っているようですが、これがニューラルネットの優れた戦略になるかどうかはわかりません。 これが広すぎるか漠然としている場合、ディープネットのコンテキストでの基底の拡張と機能エンジニアリングに関するいくつかの関連情報を誰かに教えてもらえますか?

1
sqrt(6)を使用してニューラルネットワークのランダムな初期化のイプシロンを計算するのはなぜですか?
で週5講義ノートのためのアンドリュー・ウのコーセラ機械学習クラス、以下の式が値算出に与えられた初期化するために使用さΘをランダムな値で:εε\epsilonΘΘ\Theta では、運動、さらに明確化が与えられます。 を選択するための1つの効果的な戦略 は、ネットワーク内のユニット数に基づいて決定することです。ϵ i n i tの適切な選択 はϵ i n i t = √εI N I Tε私ん私t\epsilon_{init}εI N I Tε私ん私t\epsilon_{init}、ここでLin=slおよびLout=sl+1は、Θ(l)に隣接する層のユニット数です。εI N I T= 6√LI N− LO U T√ε私ん私t=6L私ん−Loあなたt\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}LI N= slL私ん=slL_{in} = s_lLO U T=sl + 1Loあなたt=sl+1L_{out} = s_{l+1}Θ( l )Θ(l)\Theta^{(l)} なぜ定数ですかここで 6個使用?なんで √6–√6\sqrt 6、 √5–√5\sqrt …

1
L1、L2およびドロップアウト一般化の代替
私の大学では、金融/機械学習の研究プロジェクトに次の設定を行っています。Keras/ Theanoで次の構造の(ディープ)ニューラルネットワーク(MLP)を適用して、パフォーマンスの高い株(ラベル1)とパフォーマンスの低い株(ラベル0)。そもそも私は、実際および歴史的な評価の倍数を使用します。これはストックデータであるため、非常にノイズの多いデータが予想されます。さらに、52%を超える安定したサンプル外精度は、すでにこのドメインで良好であると見なすことができます。 ネットワークの構造: 入力として30のフィーチャを備えた高密度レイヤー Relu-Activation バッチ正規化レイヤー(それがなければ、ネットワークは部分的に収束していません) オプションのドロップアウトレイヤー 密 レル バッチ 脱落 ・・・同じ構造の更なる層 シグモイドアクティベーションの高密度レイヤー オプティマイザ:RMSprop 損失関数:バイナリクロスエントロピー 前処理のために私が行う唯一のことは、機能を[0,1]範囲に再スケーリングすることです。 今、私は通常、ドロップアウトまたはL1およびL2カーネル正則化に取り組む、典型的な過剰適合/過適合問題に直面しています。ただし、この場合、次のグラフに示すように、ドロップアウトとL1およびL2の正規化の両方がパフォーマンスに悪影響を及ぼします。 私の基本的なセットアップは次のとおりです。5レイヤーNN(入力レイヤーと出力レイヤーを含む)、レイヤーあたり60ニューロン、0.02の学習率、L1 / L2なし、ドロップアウトなし、100エポック、バッチ正規化、バッチサイズ1000。 76000の入力サンプル(ほぼバランスの取れたクラス45%/ 55%)で、ほぼ同じ量のテストサンプルに適用されました。チャートでは、一度に1つのパラメーターのみを変更しました。「Perf-Diff」とは、1に分類された株式と0に分類された株式の平均株価パフォーマンス差を意味します。これは、基本的に、最終的なコアメトリックです。(高いほど良い) l1の場合、ネットワークは基本的にすべてのサンプルを1つのクラスに分類しています。ネットワークが再びこれを実行しているためスパイクが発生していますが、25個のサンプルをランダムに正しく分類しています。したがって、このスパイクは良い結果ではなく、異常値として解釈されるべきです。 他のパラメータには次の影響があります。 私の結果をどのように改善できるかについてのアイデアはありますか?私がしている明らかなエラーはありますか、それとも正則化の結果に対する簡単な答えはありますか?トレーニング(PCAなど)の前に、何らかの機能選択を行うことをお勧めしますか? 編集:その他のパラメータ:

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.