タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

2
ニューラルネットワーク:オーバーフィットできないのはなぜですか?
(フィードフォワード単一層)ニューラルネットワークを使用して、2つの財務変数(回帰)から環境関連変数を予測しようとしています。キャレットパッケージの「train」関数を使用します。 nnet()キャレットパッケージのアルゴリズムを使用しています。2つの連続予測子と420のデータポイントがあります。 理論的理解のために、私はわざとモデルをオーバーフィットしようとしています。私の理解では、これは通常すべてのデータセットで機能するはずです。たとえば、「サイズ」(つまり、非表示単位の数)を増やすなどです。ただし、隠れたユニットのサイズを大幅に増やしても、過剰適合にはなりません。 したがって、「サイズ」を増やすことですべてのニューラルネットワークをオーバーフィットできると想定するのは間違っていますか?代わりに、他のどの変数が過剰適合につながる可能性がありますか? grid <- expand.grid(size = 20 ) control <- trainControl(method = "cv", number = 10, verboseIter = TRUE ) fit <- train(x=train_parametres, y=train_result, method = "mlp", metric = "Rsquared", learnFunc = "Std_Backpropagation", learnFuncParams = c(0.2, 0.0), maxit = 1000, trControl = control, tuneGrid = grid, preProcess = …

2
ケラスの時代とは?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 これは何を意味するのでしょうか? Epoch 1/300 7200/7200 [==============================] - 0s - loss: 3.3616 - acc: 0.3707 私はケラスでニューラルネットワークを構築し、これが表示されたものです。ニューラルネットワーク全体に慣れていないので、オンラインで入手できるさまざまな例を読んで学習しています。これは、ケラに組み込まれたニューラルネットワークからのものです。

2
ニューラルネットワークの早期停止と、相互検証を使用する場合の意味の理解
早期停止の手法がどのように定義されているかという考えに、私は少し困惑して混乱しています。Wikipediaを見てみると、次のように定義されています。 トレーニングデータをトレーニングセットと検証セットに、たとえば2対1の比率で分割します。 トレーニングセットでのみトレーニングを行い、検証セットの例ごとのエラーを時々、たとえば5エポックごとに評価します。 検証セットのエラーが最後にチェックされたときよりも大きくなるとすぐにトレーニングを停止します。 トレーニング実行の結果として、ネットワークがその前のステップで持っていた重みを使用します。 私は自分の実験でメソッドを使用していました(10倍の交差検証を使用)。各エポックで検証エラーをチェックし(検証精度も計算)、忍耐パラメーターを2に設定しています。つまり、検証エラーが2エポックで連続して増加する場合は、トレーニングを停止します。次に、モデルが終了した最後のエポックの結果を使用しました。 Ian Goodfellowは、ディープラーニングの本で別の定義を使用しています。4番目のステップとして、最も効果的なモデルの重みを使用することを提案します(つまり、検証エラーがチェックされるたびにモデルを保存します)。 保存したモデルは必要ありません。自分の作業の結果だけが必要です。したがって、私にとってグッドフェローによる早期停止の提案は、最終結果で達成した最高の検証精度を採用することを意味しますか?どういうわけかこれは合法的ではないようです。開発セットがない実際の状況では、この情報はありません。しかし、その場合、そもそも早期停止を使用する理由は何でしょうか。たとえば、フォールドのエポック数を平均してエポック数を決定し、それを後で実行するテストに使用しますか?

2
word2vecの元の目的関数に対する負のサンプリング(NS)目的関数の関係はどのようなものですか?
私は、標準/有名な読んでいたword2vecするためのモデルをしてstandordのメモによるとcs224n:から目的関数の変化を JO R I GI N L= −Σj = 0 、j ≠ m2 メートルあなた⊤c − m + jvc+ 2 m l o g(Σk = 1| V|e x p (あなた⊤kvc))Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right) に: JNS1= − l o gσ(あなた⊤c − m …

2
重みに関するSoftmaxの導関数
私はディープラーニングが初めてで、行列に関して次の関数の導関数を計算しようとしています:ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} 商規則を使用すると、次のようになります: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0 ソフトマックス関数は一般的にディープラーニングのアクティベーション関数として使用されているため、私は何か間違っていると思います(したがって、常に導関数を持つことはできません)。私は同様の質問をしましたが、計算のこの部分については光沢がないようです。000 私は正しい方向へのポインタをいただければ幸いです。

3
Deep Deterministic Policy Gradient(DDPG)アルゴリズムでのActor Gradient Updateの計算
この質問は、DDPGに関するディープマインドペーパー(https://arxiv.org/pdf/1509.02971v5.pdf)に関するものです。 私が見たほとんどの(すべて?)実装のDDPGアルゴリズムは、、ここではアクターネットワークのパラメーターを表し、はアクターネットワークを表し、は批評家ネットワークを表し、は状態を表します入力。これを式1と呼びます。∇ (J)=∇μ (s | θ )(Q (s 、μ (s | θ ))∇θ(μ (s | θ ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta))θθ\thetaμμ\muQQQsss 論文に示されている式1は、チェーンルールをことで得られます。これにより、。∇ (J)=∇θ(Q (s 、μ (s | θ ))∇(J)=∇θ(Q(s,μ(s|θ))\nabla(J)=\nabla_{\theta}(Q(s,\mu(s|\theta))∇μ (s | θ )(Q (s 、μ (s | θ ))∇θ(μ (s | θ ))∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ)) \nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)) 私の質問は、auto-gradソフトウェアパッケージ(Theano / Tensorflow / Torch / etc)を使用して、 wrt出力の勾配を直接計算できなかった理由があるのですか?何らかの理由で、すべての実装は、最初に wrtの出力の勾配を計算してから、チェーンルールに従って wrtからへ勾配を乗算します。彼らがこれを行う理由がわかりません- …

2
テストセットを検証セットとして使用できない理由
テストセットを検証セットとして使用しないでください。どうして? 検証セットは、モデルパラメーターが修正されたときに実行され、学習はトレーニングバッチのバックプロップを介してのみ行われます。 では、なぜ検証データを検証データとして使用できないのでしょうか?

1
ニューラルネットワークと構造方程式モデリングの違いは何ですか?
私は初めて人工ニューラルネットワーク(ANN)について研究しており、ニューラルネットワークの概念が構造方程式モデリング(SEM)に似ているように見えることに感銘を受けました。例えば、 ANNの入力ノードはSEMのマニフェスト変数を思い出させます ANNの非表示ノードはSEMの潜在変数を思い出させる 観測されたすべての変数がSEMのマニフェスト変数を取得するため、ANNのすべての機能が入力ノードを取得します SEMがいくつかの最終的な従属変数を持つことができるのと同じように、ANNはいくつかの出力ノードを持つことができます どちらも説明と予測の目的に使用できます(私は思う) では、これら2つの形式の統計分析の違いを説明してください。

2
なぜオートエンコーダデコーダは通常、エンコーダとは逆のアーキテクチャなのですか?
私が見たすべてのオートエンコーダアーキテクチャは、主にデコーダがエンコーダの逆にすぎないという同様のアーキテクチャを持っています。オートエンコーダの目的が低次元の特徴学習である場合、なぜデコーダは単純ではないのですか?例は線形変換ですFWFWFWここで、は観測値による特徴行列(つまり、ボトルネック)であり、は学習された重み行列で、を元の入力特徴サイズにマップします。複数の隠れ層を持つディープオートエンコーダーの場合、上記の例のデコーダーは、エンコーダーと比較して容量が低くなります。FFFんんnfffWWWFFF 私の直感は次のとおりです。 デコーダーがシンプルな場合、自動エンコーダーはボトルネックでより高品質の機能を学習して強制的に補正します。逆に、デコーダーの表現能力が高い場合、学習不足のボトルネックを出力の再構成に効果的にマッピングできます。この場合、再構成エラーは低くなる可能性がありますが、必ずしも学習された機能が実際に優れているという意味ではありません。 私のアプリケーション(グラフでの機能学習)では、単純なデコーダーの方が、エンコーダーをミラーリングしたデコーダーよりも学習機能が優れていることがわかりました。この著者のように非常に単純なデコーダを有するグラフオートエンコーダを設計紙、再構成されたグラフの隣接マトリックスであり、学習地物行列であり、はReLUのような非線形変換です。あ^= σ(ZZT)あ^=σ(ZZT)\hat{A} = \sigma(ZZ^T)あ^あ^\hat{A}ZZZσσ\sigma 私はしばらくの間、この質問への回答を何度も探していましたが、なぜ大容量のデコーダーが低容量のデコーダーよりも望ましいのか(またはその逆も)、説明や理論上の結果は見つかりませんでした。 )。誰かが説明を提供したり、正しい方向に向けてくれたりしたら、感謝します。

4
現在の最先端の畳み込みニューラルネットワークは何ですか?
MNIST、STLN-10、CIFARなどの標準的な画像分類タスクに関して、現在どのニューラルネットワークアーキテクチャが最先端(「SOTA」と略されることもあります)であるかを理解することに興味があります。新しい結果が頻繁に公開されるため、これは挑戦的であり、追いつくのは難しい場合があります。これらのタスクの最良の結果を追跡するリソースまたはWebサイトはありますか?

3
同じ分布の2つのデータセットを使用しているときに、いつデータを正規化するのですか?
2つのデータセットD1とD2があるとします。両方とも同じ基礎となる分布Xからサンプリングされています。ニューラルネットワークをトレーニングするためにそれらを使用したいと思います。特徴はすべて範囲[0;の符号なし整数です。2 ^ 64]。 機能のスケールが大きく異なるため、シグモイド関数と組み合わせてzスコアの正規化を使用することにしました。つまり、Zスコアの正規化されたデータをロジスティック関数に送り、特徴を[0; 1]範囲。 この時点では、どの時点でデータを正規化するかわかりません。 1.)D1を使用して、D1のみを考慮して得られるmean_1とstd_dev_1で正規化します。D2のプロセスを繰り返し、mean_2とstd_dev_2を使用して正規化します。次に、2つのデータセットを使用してネットワークを順次トレーニングします。 2.)D1とD2を追加してセットD3を取得し、データセット全体(mean_3とstd_dev_3)を計算して正規化します(D1 + D2)。次に、それを使用してネットワークをトレーニングします。 ここで2つの質問: a)2つの方法で同様の結果が得られますか?D2がD1より後に利用可能になる可能性があり、データセット全体でネットワークを再トレーニングする必要があるかどうかを知る必要があるため、私にとって特に重要です。 b)訓練されたネットワークで推論を行う場合、新しい入力を正規化するためにどのパラメーターを使用する必要がありますか?たとえば、mean_3とstd_dev_3を使用する必要がありますか? 編集:2つのデータセットの組み合わせの平均と標準偏差は、元のデータセットの平均と標準偏差から計算できることがわかりました。つまり、(理論的には)それらを順次トレーニングし、それらの分布パラメーターを組み合わせて推論の入力を正規化することができます。

2
オートエンコーダーは距離を維持しますか?
私の理解に基づいて、オートエンコーダを使用して、重要な基本情報を含む入力機能のコンパクトな表現を見つけます。 元の入力空間のL2距離と縮小(コンパクト)空間の間に関係はありますか?そうでない場合、コンパクトな表現が変換後の距離を維持するようにネットワークをトレーニングできますか?

2
オブジェクトクラスの数が増えると、オブジェクト検出の精度が向上または低下します
k個のオブジェクトクラスがラベル付けされたN個の画像を持つオブジェクト検出データセット(たとえば、MS COCOまたはPascal VOC)があるとします。ニューラルネットワーク(例:Faster-RCNNまたはYOLO)をトレーニングし、精度を測定します(例:IOU@0.5)。 ここで、x個の追加オブジェクトクラスを導入し、対応するラベルを元のデータセットに追加して、k + x個のオブジェクトクラスがラベル付けされたN個の画像を持つデータセットを提供します。 訓練されたネットワークの精度は増加または減少しますか? 具体的には、約20のオブジェクトクラスを持つ交通標識データセットがあります。現在、追加の交通標識クラスを追加することを考えています(新しいイメージを追加したり、ネットワークアーキテクチャを変更したりせずに、新しいクラスにラベルを付けます)。これにより、パフォーマンスが低下するか増加するか疑問に思っています。 一方では、オブジェクトクラスが増えると、クラス間の区別が難しくなると思います。さらに、ニューラルネットワークは限られた量の情報しか保持できません。つまり、クラスの数が非常に多くなると、すべてのクラスに対応するのに十分な重みがない可能性があります。 反対に、オブジェクトクラスが増えると、ニューラルネットワークに役立つラベルが増えることになります。さらに、クラス間で学習効果を伝達すると、ネットワークの精度が向上する場合があります。 私の意見では、各ネットワークアーキテクチャにはある種のスイートスポットがあるはずですが、このトピックに関する文献、研究、実験は見つかりませんでした。

2
ディープラーニングで機能変換(パワー、ログ、Box-Cox)は必要ですか?
機械学習モデルに到達する前に、特定の一般的な特徴変換をデータセットに適用することが有益であると読みました。これらは、データセットの機能の分布に基づいています。たとえば、歪んだ正規分布機能にログ変換を適用します。ここにいくつかの例があります。 私が理解しているように、ディープラーニングの主な恩恵は「自動特徴エンジニアリング」(別名「特徴学習」)です。機能の組み合わせも含まれます。しかし私の直感には、上記の学習された機能変換も含まれていると言いますか?したがって、十分に調整されたハイパーを備えたディープネットワークを使用する場合、機能変換を人間の責任から安全に削除できます。つまり、このlog / square / box-coxのすべてのものを破棄しますか? [編集]追加:これは、「機能の選択」(含まない入力の決定)も処理しますか?

1
ディープラーニングによるワンショットオブジェクト検出
近年、オブジェクト検出の分野は、ディープラーニングパラダイムの普及後、大きな進歩を遂げました。YOLO、SSD、FasterRCNNなどのアプローチは、オブジェクト検出の一般的なタスクにおいて最新技術を保持します[ 1 ]。 ただし、特定のアプリケーションシナリオで、検出するオブジェクト/ロゴの参照画像が1つしか与えられていない場合、ディープラーニングベースの方法は適用性が低く、SIFTやSURFなどの局所特徴記述子がより適切な代替手段として表示されます。導入コストはほぼゼロです。 私の質問は、ディープラーニングがオブジェクトクラスごとに1つのトレーニング画像だけでオブジェクト検出にうまく使用されているアプリケーション戦略(できれば、それらを説明する研究論文だけでなく、利用可能な実装)を指摘できますか? アプリケーションシナリオの例: この場合、SIFTは画像内のロゴを正常に検出します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.